您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 《多媒体通信》第2章音频信息处理技术
《多媒体通信》西安电子科技大学●通信工程学院第二章音频信息处理技术声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准第二章音频处理技术声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准一、声音基础知识41.声学基础知识•声音声音是通过空气传播的一种连续的波由许多频率不同的分量信号组成的复合信号带宽范围在20Hz–20kHz,称为音频(Audio)信号51.声学基础知识•声音的性质声音是时基类媒体声音三个要素:音调、音强和音色声音具有连续谱特性声音有方向感音色与失真特性61.声学基础知识•信号冗余采样数据之间的相关•8kHz速率时,相邻样值相关系数高达0.85周期相关•浊音的准周期性幅度的非均与分布•小幅度概率高,信息集中在低功率存在语音间隙声道的形状及其变化速率有限71.声学基础知识•人耳听觉特性人耳对声音强弱的感觉特性:掩蔽效应人耳对不同频段的声音敏感度不同•强音抑制弱音•低频比高频更敏感人耳对语音信号的相位不敏感81.声学基础知识•声音带宽•声音的质量与声音的带宽有关•一般来说频率范围越宽,声音质量也就越高20502003.4k7k15k20k电话语音调幅广播(AM)调频广播(FM)CD频率(Hz)91.声学基础知识•声道•单声道(Monophonic)•双声道(Stereo)•声音的三个属性•幅值(Amplitude)•相位(Phase)•时序(Timing)声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准二、数字音频技术112.数字音频技术•采样频率如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号2.1音频数字化•采样频率越高,单位时间内采集的样本数越多,得到波形越接近原始波形,音质就越好,•奈奎斯特(HarryNyquist)采样定理:•常用的几个采样频率:–8KHz话音–11.025kHzAM广播–22.05kHzFM广播–44.1kHzCD122.数字音频技术•采样精度•采样精度用每个声音样本的位数表示,也叫样本精度或量化位数。它反映度量声音波形幅度的精度。•采样精度决定了模拟信号数字化以后的动态范围。•采样精度影响到声音的质量–位数越多,声音的质量越高,而需要的存储空间也越多;–位数越少,声音的质量越低,需要的存储空间越少。132.数字音频技术•声道数•记录声音时,如果一次记录一组声波数据,称为单声道(mono);如果每次记录两组声波数据,则称其为双声道或立体声(stereo)。•双声道在硬件中占两条线路,一条是左声道,一条是右声道。•立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。•除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用。142.数字音频技术•音频数据传输率数据传输率(bps)=采样频率(Hz)×量化位数(bit)×声道数质量采样频率(kHz)量化精度(bit)声道数据率(kbps)频率范围电话88Mono64200-3400AM11.0258Mono88.250-7000FM22.05016Stereo705.620-15000CD44.116Stereo1411.220-20000DTS4816Stereo153620-20000152.数字音频技术一分钟的CD高保真音频数据:数据传输率(bps)=44.1kHz×16bit×2声道=1411.2kbps一分钟数据量=1411.2kbps×60s/8=10.584MByte162.数字音频技术•压缩压缩比:压缩比=压缩前的数据量压缩后的数据量有损压缩和无损压缩:•有损压缩:解压后数据不能恢复,要丢失一部分信息•无损压缩:不丢失任何信息172.数字音频技术2.2数字音频文件格式通用的音频数据文件,扩展名为.wav•WAVE文件格式数据未经压缩,直接对声音波形进行采样记录的数据音质好,存储体积大CD中就是这种格式182.数字音频技术MPEG(MotionPictureExpertGroup,运动图像专家组)制定的视频压缩算法中的音频压缩部分•MPEG文件MPEG-1音频压缩算法提供3个独立的压缩层次:Layer1、Layer2、Layer3,压缩后的声音文件后缀分别对应为:MP1/MP2/MP3MP3的压缩比在10:1左右(与压缩后的码率有关)体积小、音质接近CD、便于交换192.数字音频技术RealAudio是RealNetworks推出的一种音乐压缩格式,压缩比可达到96:1•RealAudio文件最大特点是可以采用流媒体的方式实现网上实时播放文件扩展名有.ra和.rm两种。202.数字音频技术WMA(WindowsMediaAudio)格式是Microsoft开发的流式音频文件格式,可兼顾高保真度和网上传输的需求•WMA文件采用WMA格式的音频文件比MP3要小得多,音质不减,其压缩比可达到18:1。WMA的另一个优点是内容提供商可以通过数字版权管理方案加入防复制保护,限制播放时间、播放次数和播放机器等,有效防止盗版。212.数字音频技术AAC(AdvancedAudioCoding)格式是基于MPEG-2的音频编码技术。2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的MPEG-2AAC又称为MPEG-4AAC。•AAC文件比mp3压缩率更高,可达到18:1;AAC格式在96Kbps码率的表现超过了128Kbps的MP3格式;支持多声道、高采样率222.数字音频技术AMR(AdaptiveMulti-Rate)格式是3GPP选定为GSM和3GWCDMA应用的窄带语音编解标准。由欧洲通信标准化委员会提出,是在移动通信系统中使用最广泛的语音标准。•AMR文件可变比特率:4.75–12.2kbps232.数字音频技术MIDI文件并不是一段录制好的声音,而是记录声音的信息,然后再告诉声卡如何再现音乐的一组指令。由于MIDI文件是一系列指令,而不是波形,它需要的磁盘空间非常少,一个MIDI文件每存1分钟的音乐只用大约5~10KB•MIDI文件对MIDI数据的编辑和修改非常灵活,可以方便地增加或删除某个音符,或者改变音符的属性MIDI文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。MIDI的最大用处是在电脑作曲领域声学基础知识数字音频技术音频信号压缩编码数字音频压缩标准三、音频信号压缩编码253.音频信号压缩编码3.1数据压缩的基本原理信息论用概率来描述不确定性。事件出现的概率小,不确定性就越多,信息量越大•信息和熵如果将信息源所有可能事件的信息量进行平均,得到信息的熵(Entropy)𝐼𝑥𝑖=log1𝑝(𝑥𝑖)=−log𝑝(𝑥𝑖)p(xi)表示事件xi发生的概率,I(xi)表示xi发生所含的信息量如果对数取以2为底,则所得的信息量为比特(b)𝐻𝑥=𝑝𝑥𝑖𝐼𝑥𝑖=−𝑝𝑥𝑖log2𝑝(𝑥𝑖)𝑁𝑖=1𝑁𝑖=1263.音频信号压缩编码某信源有8种符号,其出现概率如下:符号ABCDEFGH出现概率0.30.250.150.150.070.040.030.01求该信息源的熵。解:𝐻𝑥=𝑝𝑥𝑖𝐼𝑥𝑖=−𝑝𝑥𝑖log2𝑝(𝑥𝑖)𝑁𝑖=1𝑁𝑖=1=-(0.3*log0.3+0.25*log0.25+0.15*log0.15…)=2.51273.音频信号压缩编码信源中含有自然冗余度,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。信源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。283.音频信号压缩编码•信息冗余多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。数据冗余的类型•空间冗余•时间冗余•信息熵冗余•结构冗余•视觉冗余•听觉冗余•知识冗余293.音频信号压缩编码•压缩算法的分类信息量有无损失编码后产生的码字长是否相等可逆编码:减少数据中的冗余度,而不损失任何信息。常用于文本、数据的压缩。如Huffman编码、算术编码和行程编码等不可逆编码:压缩了熵,会减少信息而不能再恢复。常用于图像、声音、动态视频等数据的压缩。如用混合编码的JPEG标准定长编码:数存储数字信息的编码系统采用定长码。如ASCII码、汉字国标码不定长编码:码长不固定,以节省存储空间。如Huffman编码303.音频信号压缩编码压缩原理预测编码:根据某一数据模型,利用以往的样本值对新样本值进行预测,然后将样本实际值与预测值的差进行编码。常用于语音、图像编码中变换编码:先把要压缩的数据变换到某个变换域中,然后再进行编码矢量量化编码:利用相邻数据间的相关性,将数据序列分组进行量化的一种压缩方法子带编码:首先让原始数据分别通过若干个具有不同频带的滤波器,将信号分成多个子带信号输出,然后分别对各个滤波器的输出进行编码熵编码:根据信息熵的原理,用短码表示出现概率大的数据,用长码表示出现概率小的数据。在语音和图像编码中常常和其它有损压缩编码方法结合使用313.音频信号压缩编码3.2音频信号压缩编码•编码(压缩)的重要性编码、传输、存储和译码是语音数字传输和数字存储的必要过程压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色323.音频信号压缩编码数字传输系统信源信道编码信源编码调制解调传输通道信宿信道解码信源解码噪声语音编码应用(IP电话)采集压缩编码模数转换IP封装IP解包传输网络播放解码数模转换333.音频信号压缩编码•音频压缩依据冗余度•时域样点之间相关(短时、长时)•频域谱的非平坦性(谱包络、谱离散)•统计特性(去除可恢复)人耳听觉特性•人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感•人耳对语音信号的相位不敏感•人耳掩蔽效应(MaskingEffect)•对人耳听不到或感知极不灵敏的声音分量都可视为冗余343.音频信号压缩编码•语音编码的极限速率语音最基本元素-音素:大约128~256个通常说话速度:每秒平均发10个音素信息率:I=[log2(256)10]bps=80bps语音编码的极限速率为80bps353.音频信号压缩编码•音频信息编码技术可分为三类:波形编译码器(WaveformCoder)•发送端:在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化•接收端:将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状•编码速率:通常16kbps•特点:编码速率高,延时小,运算、存储量小,强健性好•如PCM、ADPCM等363.音频信号压缩编码参数编译码器(vocoder)•发送端:从话音波形信号中,提取话音信号特征参数,针对这些参数进行编码•接收端:将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别•又称声码器•编码速率:通常2-9.6kbps•特点:编码速率低,延时大,运算量大,强健性差•如LPC373.音频信号压缩编码混合编译码器(Hybridcoder)•综合使用上述两种技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点•编码速率:通常4-16kbps•特点:介于波形编码和参数编码之间•如MPE-LPC(多脉冲激励线性预测编码器)、RPE-LPT(规则脉冲激励线性预测编码器)383.音频信号压缩编码•语音编码性能评价编码速率(bit/s)重建语音质量•客观评价–信噪比(SNR)–ITU-TP.862PESQ•主观评价–MOS分–可懂度评价DR
本文标题:《多媒体通信》第2章音频信息处理技术
链接地址:https://www.777doc.com/doc-2843076 .html