您好,欢迎访问三七文档
1.按国际电信联盟(ITU)标准的定义,媒体标准的定义,分为五类:①感觉媒体(Perception)②表示媒体(Representation)③显示媒体(Display)能够输入/输出信息的工具和设备。④存储媒体(Storage)用于存放数字化的表示媒体储介质。如硬盘、磁带CD-ROM、DVD等⑤传输媒体(Transmission)能够将表示媒体从一处传递到另的物理传输介质,如同轴电缆、双绞线光纤等。2.多媒体的定义多媒体(multimedia)是两种或者以上)是两种或者以上感觉媒体(声音、图像形视频动画文字、数据文件等)的组合。广义:是指多种信息媒体的表现和传播形式,例如人是一个多媒体信息处理系统。狭义:用计算机及其它设备交互处理多媒体信息的方法和手段,或指在计算机中处理多种媒体的一系列技术。3.多媒体的关键特性多样化:文字、数字、声音、图像、图形、视频等。集成性:多种信息媒体的集成和处理这些媒体的设备的集成。交互性:人的活动(activity)本身能作为一种媒体介入到信息转变为知识的过程。被动→主动数字化:多媒体信息是以数字的形式而不是以模拟信号的形式存储和传输的。4.多媒体技术的应用■娱乐■教育与培训■多媒体办公系统■多媒体通信系统■工业领域与科学计算领域■医疗影像与诊断■咨询服务、多媒体设计、广告宣传、创意媒体■电子出版■影视特效、动漫5多媒体系统是一个能综合处理种信息的计算机统,由多媒体硬件系和软组成。多媒体计算机硬件系统主要包括采集输入设备、多媒体计算机和输出设备三大部分。.数字信号处理器DSP。体积小、功耗低,运算速度快具有内部存储器各种不同类型。音频与语音基础:什么是语音,什么是音频(定义);语音:语言的物质外壳,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。音频是个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音等。声音与信息:声音是传递信息的主要手段,接收到的声音反映了声源和环境的影响;认识语谱图(例如横坐标是什么,纵坐标是什么?语谱图里每条竖直切线取出来就是FFT的结果);横坐标是时间,纵坐标是频率,坐标点值为语音数据能量n声音2个物理特性;频率:1秒钟内振动的次数;幅度:声音的强弱(能量)人耳能听到的声音频率范围;超声波、次声波;声压级;人耳能听到的声音:20Hz~20kHz¨超声波:20kHz次声波:20Hz;声压级(Soundpressurelevel,SPL)()()P:声压声音的3个主观心理量;音高、响度、音色为声音的三要素。响度是人类主观感觉到的声音的强弱程度,取决于声音的幅度。频率和响度的关系:等响度曲线。音高(音调)取决于声音的频率。客观上音高大小取决于声波基频的高低。频率越高,人耳听到的声音就越高,反之亦然,但非线性关系。单位:美尔(Mel)音色(音品)是由混入基音的泛音所决定的,或者说由声音波形的谐波频谱和包络决定。声音波形的基频所产生的听得最清楚的音叫基音,各次谐波的微小震动所产生的声音叫泛音。不同发音体所发出的音波都有自己的特异性,可分为纯音(单一频率)和复合音(具有谐波)。双耳效应与虚拟听觉的概念;等响度曲线以及听阈和痛阈;双耳效应:人可以利用两个耳朵接收声音时的强弱差别和时间差别,判断出发声物的方位和距离,人耳的这种能力称为双耳效应。三维听觉显示(3DAudioDisplay)或者虚拟听觉空间(VirtualAuditorySpace)就是根据人类听觉特征,通过双声道播放系统再现声源空间信息的技术。混响的概念;混响:是指声源停止发声后,在声场中还存在着来自各个界面的迟到的反射声形成的声音“残留”现象。音频数字化(A/D转换)过程;音频文件的大小的计算(采样率、量化位数、通道数);数字化实际上就是采样和量化和编码。采样(抽样,sampling):将声音信号在时间上离散化,即每隔一段时间抽取一个信号样本。采样频率(SamplingRate)奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,称为无损数字化。fs=2fmax*电话话音信号最高频率约为3.4kHz,所以采样频率取为8kHz。量化(quantization):将连续的信号幅度离散化。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。编码(Coding):是指按一定的格式把经过采样和量化得到的离散数据(脉冲数字信号)记录下来,并在有效的数据中加入一些用于纠错、同步和控制的数据。脉冲编码调制(PCM,PulseCodeModulation)把模拟信号转换为数字信号的一种调制方式。量化误差:模拟信号经过采样和量化,然后用有限个二进制代码代表量化后的幅度,在编码时引入量化误差,在解码时无法消除,即引入了噪声,降低了信噪比(SNR)。电话采用A率标准,SNR35dB。常见音频文件格式;1.WAV波形文件,文件大小计算公式S=R*D*(r/8)*N2.VOC3.MP3压缩比达1:10~1:124.MP45.RA格式6.CDA激光唱片格式7.AIFF音频交换文件格式8.MIDI9.WMAudio音频压缩编码:什么是数据压缩;数据压缩就是在一定的精度损失条件下,以最少的数码表示信源所发出的信号压缩的必要性和好处;PCM;数据压缩的必要性多媒体信源引起了“数据爆炸”如果不进行数据压缩传输和存储都难以实用化。1分钟数字音频信号需要的存储空间数据压缩的好处时间域压缩──迅速传输媒体信源频率域压缩──并行开通更多业务空间域压缩──降低存储费用能量域压缩──降低发射功率PCM(PulseCodeModulation)ØPCM编码是对连续语音信号进行空间采样、幅度量化及用适当码字将其编码的总称。音频压缩的目的和依据;目的:高音质高可懂度(话音)低码率低计算需求对连续编解码循环的鲁棒性对传输错误的鲁棒性高实时性:低编码/解码延迟依据:时域与频域信息冗余时域信息冗余:幅度的非均匀分布,样本间的相关,周期之间的相关,基音之间的相关,静音系数,长时自相关频域信息冗余:非均匀长时功率谱密度、音频特有的短时功率谱密度,人耳的听觉掩蔽效应,对不同频段声音的敏感程度,对声音信号相位变化的不敏感等听觉原理话音编码器的分类;话音(语音)编码器分类1).波形编译码器(Waveformcoder)¨不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、APCM、ADPCM等。2).音源编译码器(Sourcecoder)¨也叫参数编译码器、声码器(vocoder)。它从话音波形信号中ᨀ取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。3.混合编译码器(Hybridcoder)综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形,例如CELP。LPC线性预测编码;听觉掩蔽效应(理解掩蔽效应图);掩蔽效应:一种频率的声音阻碍听觉系统感受另一种频率声音的现象频域掩蔽(同时掩蔽):一个强纯音会掩蔽其附近频率同时发声的弱纯音时域掩蔽(超前掩蔽和滞后掩蔽):在时间上相邻的声音之间也有掩蔽现象MPEGAudio3层的压缩比;MP3(感官编码技术)的基本原理和压缩比。音频层根据压缩质量和编码复杂度分为Layer3、Layer2、Layer1三层,它们的压缩比分别为1:10~1:12、1:6~1:8、1:4.l声卡与MIDI:声卡的构成;AC97规范;声卡的构成与工作原理主芯片——数字信号处理器:声音信息处理、特殊音效与处理、实时音频压缩、MIDI合成……混音芯片——CODEC:数字信号编解码器,采样、编码、解码、混音(A/D、D/A,AC’97规范)音乐合成器——MIDI合成(FM或WaveTable)总线接口和控制器——PC总线与声卡的接口外部输入输出口——MICIN、LINEIN、LINEOUT、SPKOUT、REAROUT、MIDI/Joystick、SPDIFOUT、SPDIFIN什么是MIDI;MIDI音乐的两种合成方式是什么?为什么MIDI文件很小?(MIDI文件储存的是一系列指令、不是波形,)MIDI——MusicalInstrumentDigitalInterface(迷笛),是用来连接电子乐器、或将MIDI设备与电脑连接成系统的一种通信协议。•MIDI将电子乐器和多媒体计算机相结合。•MIDI是由软件与硬件组成的系统规范。•MIDI文件记录的是“乐谱”,使电脑能够用“记谱”的方式进行数字化录音与回放MIDI音乐合成方式•FM合成法数字式频率调制合成法,用数字信号来表示不同乐音的波形,将它们组合起来,再通过DAC生成音乐播放。从理论上讲,FM合成方法可以产生任何乐音,但是,这种“物理式”的合成方法合成出来的声音不够真实。•波表合成法乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。乐音样本通常放在ROM芯片(硬波表)或文件形式放于硬盘上(软波表),播放时以查表的方式给出,所以这种合成器又叫做波表(wavetable)合成器。智能语音技术:人工智能的里程碑(列举);ENIAC(1946)第一台电子计算机、图灵完全机;IBM深蓝战胜国际象棋选手卡斯帕罗夫(1997);无人驾驶车(2005-2007);信息检索(2000+);机器翻译(2006);IBMWatson在“危险边缘”问答游戏战胜人类选手(2011);AppleSiri(2011)语音交互过程(圆环图);语音合成(概念、评价标准、合成方法的分类、典型系统构成);语音合成技术•又称为文语转换、Text-to-Speech(TTS)、SpeechSynthesis•将文本转换成自然语音的技术,即“让计算机说人话”•评价标准:可懂度、自然度(如MOS测试)语音合成方法发音器官参数合成:声道模型参数语音合成:波形编辑合成(拼接式合成):。基于统计参数的合成方法:Ø基于隐马尔科夫模型模型的合成方法(HMM-based)Ø基于深度学习(神经网络)的统计参数合成语音合成技术发展方向;语音识别(概念、评价标准、识别系统的分类方法、典型应用(车载、智能电视、游戏娱乐、家庭助手)典型系统构成、面临的挑战);1)语音识别技术•又称为语文转换、Speech-to-Text、SpeechRecognition•将自然语音转换成文字的技术,即“让计算机听懂人话”•评价标准:错误率(如词错误率WER,字错误率CER)2)语音识别系统分类Ø按词汇量分:小词汇量、中等词汇量、大词汇量Ø按使用者限制分:特定人、非特定人Ø按能处理的语音类型分:孤立词、连接词、连续语音、自发语音Ø按使用平台分:PC机、嵌入式3)语音识别系统——典型系统构成4)语音识别技术的挑战:说话人可变性:同一说话人内部-状态、说话人方式…•不同说话人之间:环境可变性、环境噪声、信道不匹配、字典容量有限语音识别系统(理解贝叶斯推理、语言模型的知识,会计算);见pptaudio3page61DTW的原理和计算;DTW:DynamicTimeWarping,动态时间弯折Step1:距离计算;Step2:动态规划找距离最短路径说话人识别(概念、两种任务:辨认和确认、应用举例)、生物识别的分类,常见的生物识别技术。说话人识别(SpeakerRecognition):从语音中识别话者身份的技术,是生物识别(Biometrics)技术的一种说话人辨认(SpeakerIdentification):从一个说话人集合中辨认出谁在说话•说话人确认(SpeakerVerification):一个人声称是A,从语音中确认是不是A•文本相关(text-dependent):要求说特定的语句进行身份识别•文本无关(text-independent):说任何语音均可进行身份识别典型应用:语音考勤百度声纹解锁生物识别分类:生理特性识别、行为特性识别多媒体检索:信息检索的一般过程(图);下一代搜索引擎的特点;移动化:无处不在的搜索个性化:真正理解用户需求社交化:人
本文标题:多媒体技术复习
链接地址:https://www.777doc.com/doc-4348053 .html