您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 多媒体技术应用2音频处理技术(陈永强)
1多媒体技术应用数学与计算机学院陈永强Email:chenyqwh@163.com2013-2014-22第二章音频处理技术2.1音频基本原理2.1.1人类听觉特性2.1.2数字音频2.1.3声音2.1.4语音2.2常用音频压缩标准2.2.1音频压缩基础2.2.2常用音频压缩标准2.2.3音频文件格式2.3音频处理软件Audition2.3.1功能介绍2.3.2编辑环境2.3.3基本操作3第二章音频处理技术2.1音频基本原理2.1.1人类听觉特性2.1.2数字音频2.1.3声音2.1.4语音4近十年来,随着计算机技术的高速发展,以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用,数字音频已经广泛应用于因特网、多媒体及无线通信系统,CD品质的数字音频已经从根本上替代了模拟音频。因此,人们对音频信号数字化处理提出了越来越高的要求,相应软硬件实现手段的效率也在不断提高。52.1.1人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。对于人类听力感知的研究,其范围从人耳的生理设计到大脑对听觉信息的解释。当前,大部分感知音频的编码算法都是基于心理声学模型的。62.1.1人类听觉特性1.听阈与听域2.音调3.响度和响度级4.绝对听觉门限5.临界频带6.同时掩蔽7.异时掩蔽8.感知熵72.1.1人类听觉特性1.听阈与听域听阈(AuditoryThreshold)就是指人能听到的最低声压级(SoundPowerLevel,SPL)。听域(AudibleArea)是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是20Hz~20kHz;正常人能感知声音的声压级范围是0~128dB。8图2-1听阈-频率曲线92.1.1人类听觉特性2.音调音调(Pitch)在物理学中是指声音的高低,实际上就是指人耳对不同频率声音的一种主观感受。音调主要由声音的频率决定,同时也与声音强度有关。频率高的声音,人感觉其音调也较高,反之,人感知音调低的声音其频率也低。对音调可以进行定量的判断,其度量单位为美(Mel),定义一个声压级为40dB,频率为1kHz的纯音的音调为1000Mel。102.1.1人类听觉特性3.响度和响度级响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为宋(Sone),定义一个声压级为40dB,频率为1kHz的纯音的响度为1Sone。响度级(LoudnessLevel)是指某响度与基准响度相比的等级,其度量单位为方(Phon),定义1kHz纯音的响度级为1Phon。11图2-2人耳可听最小响度曲线122.1.1人类听觉特性4.绝对听觉门限绝对听觉门限(AbsoluteThresholdofHearing,ATH)指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某频率点)的最小能量幅度。绝对听觉门限用声压级表示,静音为0dB,痛阈为140dB。13图2-3绝对听觉门限曲线142.1.1人类听觉特性5.临界频带指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位为巴克(Bark)。152.1.1人类听觉特性6.同时掩蔽掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。162.1.1人类听觉特性7.异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为超前掩蔽,否则称为滞后掩蔽。172.1.1人类听觉特性8.感知熵感知熵(PerceptualEntropy)指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(bit)作为单位,实际上表示了音频信号压缩的理论极限。182.1.2数字音频音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。192.1.2数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,过程为:选择采样频率,即进行采样;选择分辨率,即进行量化;最后编码形成声音文件。声音的采样与量化如图所示。202.1.2数字音频1.采样采样(Sampling)指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。对声音波形采样的频率直接影响声音的质量,采样频率越高,声音保真度越好,但所要求的数据存储量也越大。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,从而不失真地还原出原始的声音信号。对于音频,最常用的采样频率有三种:44.1kHz、22.05kHz和11.025kHz,其中44.1kHz采样频率是最常用的。声道数是声音通道的个数,指一次采样的声音波形个数。212.1.2数字音频2.量化量化(Quantity)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。量化方式有三种:零记忆量化、分组量化和序列量化。222.1.3声音声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播称为波,而在空气中传播的波就称为声波,能被人的听觉器官所感觉到的声波叫声音,其频率一般在20Hz~20kHz之间。232.1.3声音声音的三要素是音调、音色和音强。音调是指声音的高低,音调与频率有关。音色是指具有特色的声音。音强是指声音的强度,也称为声音的响度,音强与声波的振幅成正比。242.1.3声音声音的质量简称音质。1)与采样频率有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。采样频率越低,位数越少,音质越差。2)与音频处理设备有关。音响放大器和扬声器的质量能够直接影响重放的质量。3)与信号噪声比有关。在录音时,音频信号幅度与噪声幅度的比值越大越好,否则声音被噪声干扰,会影响音质。252.1.3语音语音是一种特殊的媒体,语音是人类所特有的,但也是一种波形,在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史,其研究范围主要涉及:语音合成、语音编码、语音识别的基本算法和应用。计算机处理语音过程如图所示。26图2-8计算机处理语音过程27第二章音频处理技术2.2常用音频压缩标准2.2.1音频压缩基础2.2.2常用音频压缩标准2.2.3音频文件格式282.2.1音频压缩基础1.数据压缩条件2.数据冗余3.数据压缩算法分类292.2.1音频压缩基础1.数据压缩条件信号之所以能被压缩和编码,其原因主要是:1)数据冗余度2)人类不敏感因素3)信息传输与存储302.2.1音频压缩基础2.数据冗余冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度称为冗余度。信息量、数据量和冗余量之间的关系如下:式中,I表示信息量,D表示数据量,du表示冗余量,冗余量应在数据存储和传输之前去掉。IDdu312.2.1音频压缩基础2.数据冗余空间冗余时间冗余统计冗余结构冗余信息熵冗余知识冗余等。322.2.1音频压缩基础2.数据冗余空间冗余:一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。图像数据中经常存在的一种冗余,如规则物体和规则背景(像素相关性强)。332.2.1音频压缩基础2.数据冗余时间冗余:视频和音频中存在的、在时间尺度上相关的一种冗余,如相邻帧之间像素的相关性;语音的连续和渐变过程。空间冗余和时间冗余,存在大量的统计特征重复,因此称为统计冗余。342.2.1音频压缩基础2.数据冗余结构冗余:有些图像存在着非常强的纹理结构,我们称它们在结构上存在冗余。例如,布纹图像和草席图像。352.2.1音频压缩基础2.数据冗余信息熵冗余:也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。例如:自然界的很多状态不可能正好用2的整数次幂来表示,这样就会造成编码冗余。362.2.1音频压缩基础2.数据冗余知识冗余:举例:成语、人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。372.2.1音频压缩基础3.数据压缩算法分类图2-10数据压缩算法分类382.2.1音频压缩基础3.数据压缩算法分类无损压缩(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。例如:压缩软件WinRAR应用。注意:无损压缩特点是压缩比小。无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。392.2.1音频压缩基础3.数据压缩算法分类有损压缩(熵压缩)法:有损压缩减少了信息量,而这些损失信息量是不能再恢复的,因此,有损压缩法是不可逆的。例如:视/听觉等冗余,由于人的感觉对某些失真不易觉察的生理特征,决定了在某些场合可以减少信息量。注意:有损压缩特点是压缩比大,但不可逆。402.2.2常用音频压缩标准1.G.71164Kb/s脉冲编码调制(PCM)2.G.721自适应差分脉冲编码调制(ADPCM)3.G.7227kHz声音编码器4.G.723双速率语音编码器5.G.72816Kb/s低延迟码激励线性预测编码(LD-CELP)6.G.729语音编码器7.MPEG-1音频编码8.AC音频编码9.空间音频编码10.移动音频编码412.2.2常用音频压缩标准1.G.71164Kb/s脉冲编码调制(PCM)脉冲编码调制(PulseCodeModulation,PCM)是ITU制定出来的一套语音压缩标准,主要用于电话。1972年,CCITT对一个64Kb/s压扩型PCM编码器做了标准化,称为G.711。这个标准主要有两种压缩算法,在北美和日本,使用μ律PCM;而世界其他国家使用A律PCM。G.711在64Kb/s速率话音质量能够达到网络等级,目前已广泛应用于各种数字通信系统中,如电缆、微波、卫星、光缆等。422.2.2常用音频压缩标准2.G.721自适应差分脉冲编码调制(ADPCM)自适应差分脉冲编码调制(AdaptiveDifferentialPulseCodeModulation,ADPCM)在PCM的基础上进行改进,进一步利用了语音信号样点间的相关性,并针对语音信号的非平稳特点,使用了自适应预测和自适应量化1984年,CCITT首先对32Kb/sADPCM做了标准化,称为G.721。G.721于1986年根据两年间运行中出现的一些问题,做了进一步修正,又重新标准化。432.2.2常用音频压缩标准3.G.7227kHz声音编码器1988年,正式通过关于“用64Kb/s或低于此编码速率的7kHz音频信号编码器”的标准,称为G.722。G.722的主要目标是保持64Kb/s的数据率,而音频信号的质量要明显高于G.711的质量。44.2.2常用音频压缩标准4.G.723双速率语音编码器G.723是在1996年制定的一种多媒体语音编解码标准。G.723标准传输码率有5.3Kb/s和6.3Kb/s两种,在编程过程中可随时切换。452.2.2常用音频压缩标准5.G.72816Kb/s低延迟码激励线性预测编码(LD-CELP)G.728的工作进程是从1988年开始的,试图建立通用的16Kb/s长话质量的语音编码标准。G.728开始是按照浮点CELP编码算法规定的。1994
本文标题:多媒体技术应用2音频处理技术(陈永强)
链接地址:https://www.777doc.com/doc-6887538 .html