您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 多媒体技术及应用 第二章 音频信息的获取与处理
多媒体技术及其应用第二章音频信息的获取与处理●主要知识点2.1声音概述2.2数字化音频2.3音乐合成与MIDI2.1.1声音定义●声音概念●声音特性2.1.2声音基本特点●声音传播●声音频率●声音传播方向●声音三要素●声音连续、相关及实时2.4音频卡2.5数字音频压缩标准音频是多媒体的重要媒体之一音频Audio语音清音/浊音言语爆破音非语音乐音声音杂音(音响)认识声音声音是机械振动在弹性介质中传播的机械波,称为声波。声音转换为电信号时,声音的电信号在时间和幅度上都是连续的模拟信号。振幅周期●振幅—波的高低幅度,表示声音的强弱●周期—两个相邻波之间的时间长度●频率—每秒钟波振动的次数,单位是Hz●声音特性空气、液体、固体用声音录制软件记录的英文单词“Hello”的语音实际波形2.1.2声音特点●声音的传播方式声音是依靠介质(比如:空气、液体、固体)的振动进行传播的声源是一个振荡源,它使周围介质产生振动,并以波的形式传播人耳感觉到这种传播过来的振动,反映到大脑,就意味听到声音声音在不同的介质中传播,其传播速度和衰减速率都是不一样的声音的频率范围次声波人耳可听域超声波20Hz女性语音150Hz~10,000Hz电话语音200Hz~3,400Hz调幅广播(AM)50Hz~7,000Hz调频广播(FM)20Hz~15,000Hz宽带音响放大器10Hz~40,000Hz男性语音100Hz~9,000Hz声源种类频带宽度20~20,000Hz20,000Hz●声音以振动波的形式从声源向四周传播●从声源直接到达人类听觉器官的声音是“直达声”人类在辨别声源的位置时,首先依靠声音到达左、右两耳的微小时间差和强度差异进行辨别,然后经过大脑综合分析而判断出声音来自何方●声音从声源发出后,经过多次反射到达人类听觉器官的声音是“反射声”声音的传播方向声音的强度(响度或音量),与声波振幅成正比;唱盘、CD盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音,其中最低频率是“基音”,是声音的基调,其他频率的声音为“谐音(泛音)”代表声音的高低,与频率有关;使用音频处理软件对声音的频率进行调整时,其音调也会随之发生变化●声音的三要素●音调——(高低)(高)(低)●音强——(强弱)(弱)(强)(停)●音色——(特质)钢琴吉他小号小提琴声音的主要性质声音具有连续性。在时间轴上是连续信号,具有连续性和过程性声音具有相关性。构成声音的数据,前后之间具有强烈的相关性声音具有实时性。对处理声音的计算机硬件和软件提出很高要求连续性相关性实时性2.2数字化音频转换模拟信号数字信号音频数字化需要考虑的问题采样、量化、编码模拟信号的数字化过程100101100011101音频信号处理过程流程音频信号频率采样频率采样量化保存为声音文件开始结束2.2.2数字音频获取●采样采样过程按固定间隔采样声音波形采样声音波形之后的结果声波是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时应先离散化,即按一定的时间间隔(T)取值,得到x(nT)(n为整数),T称采样周期,1/T称采样频率(每秒钟采样次数),x(nT)称采样值(或离散信号)采样概念离散信号x(nT)是从连续信号x(t)上取出的一部分值,那么用x(nT)能够惟一地恢复出x(t)吗设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT)如果满足:当|f|≥fc(fc是信号高端截止频率)时,有T≤1/(2fc)或fc≤1/(2T)则可由x(nT)完全确定x(t)。当fN=1/(2T)时,称fN为奈奎斯特频率采样定理奈奎斯特(Nyqust)采样定理:只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个点,则理论上就可以完全恢复原来的信号。采样方法语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样前,用一个锐截止模拟低通滤波器对音频信号进行滤波。常用音频采样率:8kHz、11.025kHz、16kHz、22.05kHz、44.1kHz及48kHz2.2.2数字音频获取●采样通过采样得到的表示声音强弱的函数x(nT)是连续的,为把x(nT)存入计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合x(nT)量化概念量化原理先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称为均匀量化。设为量化阶距,量化器最大范围是Xmax,则:=2Xmax/2B根据对人类听觉响度感觉测定:8位量化位数采样可满足于电话通信的要求16位量化位数采样则可从好的家用立体声中重现理想效果,相当于CD音质2.2.2数字音频获取●量化音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程编码概念一种最方便简单的编码方法是脉冲编码调制,常称为PCM(PulseCodeModulation)编码。它是一种未经压缩的数字音频信号,常作为一种参考信号,以便其他编码方法与之比较,或在此基础上作进一步压缩编码PCM编码2.2.2数字音频获取●编码衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声码流速率指的是音频信号编码后每秒钟产生的数据流量,以kbit/s为单位表示,也可以表示为kbps。例如对普通模拟话音用8kHz的频率采样并以8位量化和编码,所形成的音频数字信号的码率便是64kbps。量化噪声是由量化失真引起的噪声,通常表示为量化后的音频信号噪声比,简称信噪比。每增加1位量化精度,信噪比即提高6db。例如在高保真音响系统中,要求信噪比大于90db,则量化精度必须在16位以上。2.2.2数字音频获取●编码2.2.3数字音频音质与数据量音质是指声音的质量,与频率的范围成正比;频率范围越宽,音质越好音质基本概念数据的采样频率及量化位数。采样频率越低,量化位数越少,音质越差影响音质因素采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用,如下表所示:采样频率、采样精度、声道数与存储容量关系声音质量采样频率(KHZ)采样精度(bit)单声道/双声道存储容量(Mb/min)电话音质8810.46AM音质11.025810.63FM音质22.051625.05CD音质44.116210.09DAT音质4816210.99音质是指声音的质量,与频率的范围成正比;频率范围越宽,音质越好音质基本概念数据的采样频率及量化位数。采样频率越低,量化位数越少,音质越差影响音质因素数字化文件数据量(字节/秒)=采样频率(Hz)(量化位数(bit)/8)声道数音频数据大小2.2.3数字音频音质与数据量举例如果采样频率为44.1kHz,分辨率为16位,立体声,录音时间为10s,符合CD音质的声音文件的大小是多少?计算数字音频文件大小44100Hz×(16/8)×2×10s=1764KByte注意几个单位的换算细节时间单位换算:1分=60秒采样频率单位换算:1KHz=1000Hz数据量单位换算:1MB=1024×1024=1048576B数据的采样频率及量化位数。采样频率越高,量化位数越多,数据越大影响数据因素音质是指声音的质量,与频率的范围成正比;频率范围越宽,音质越好音质基本概念数据的采样频率及量化位数。采样频率越低,量化位数越少,音质越差影响音质因素数字化文件数据量(字节/秒)=采样频率(Hz)(量化位数(bit)/8)声道数音频数据大小2.2.3数字音频音质与数据量音质与数字音频参数的对应关系采样频率kHz数据位bit数据量kB/s音频质量声道形式8.000816一般质量双声道8.0001631一般质量双声道11.025822电话质量双声道11.0251643电话质量双声道22.050843收音质量双声道22.0501686收音质量双声道44.100886收音质量双声道44,10016172CD质量双声道由此可见,数字化音频文件所需要的存储容量相当可观。如果对声音的质量要求不高,则可以通过降低采样频率和量化位数来获取较小的数据2.2.3数字音频音质与数据量2.2.4数字音频文件格式常见的声音文件格式文件格式说明WAVWindows采用的波形声音文件存储格式VOCCreative公司波形音频文件格式MP3MPEGLayerIII最常见的音乐压缩文件MIDIWindows的MIDI文件存储格式WMA流式音频文件RARealNetworks公司的流式声音文件格式PCM数字音频文件●定义:一种最直接的表达声音波形的数字音频文件,主要用于自然声音的保存与重放。●特点:声音层次丰富、还原性好、表现力强;如果采样率高,其音质极佳;但数据量大,与采样频率、量化位数、声道数成正比。●应用:电子幻灯片PowerPoint软件、各种算法语言及多媒体平台软件可直接使用,适合多媒体系统、音乐光盘制作等。●波形音频文件WAV2.2.4数字音频文件格式●波形音频文件VOC●定义:一种Creative公司研制的波形音频文件格式,也是声霸卡(SoundBlaster)使用的音频文件格式。●特点:由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始的指针;数据块分成各种类型的子块。●应用:利用声霸卡提供的软件可实现VOC和WAV转换:VOC2WAV转换VOC到WAV;WAV2VOC转换WAV到VOC。2.2.4数字音频文件格式●定义:一种计算机数字音乐接口生成的数字描述音频文件,文件中包含音符、定时和多达16个通道的乐器定义。●特点:文件不记载声音本身波形数据,用数字形式记录声音特征,演奏MIDI乐器或重放时,将数字描述与声音对位处理;数据量小。●应用:适合应用在对资源占用要求苛刻的场合,比如多媒体光盘、游戏制作、背景音乐等。主要用于计算机声音的重放和处理。●MIDI音频文件MID扩展名为RMI的文件是Microsoft公司的MIDI文件格式,可包括图片、标记和文本2.2.4数字音频文件格式●定义:采用MPEG标准音频数据压缩编码中层Ⅲ技术压缩之后的数字音频文件。●特点:压缩比高、数据量小、音质好,压缩比例有10:1、17:1,甚至70:1;数据率可以是64kbps,也可以是320kbps。●应用:可以在个人计算机、MP3半导体播放机和MP3激光播放机上进行播放;适合用在国际互联网和各个领域。●压缩音频文件MP32.2.4数字音频文件格式MP3播放器WinampMP3是Internet上流行的音乐格式●流式音频文件WMA●定义:Microsoft研制的一种压缩离散文件或流式文件,它提供了一个MP3之外的选择机会。●特点:相对于MP3具有较高压缩率和良好音质。当小于128kbps时最为出色且编码后音频文件很小;当大于128kbps时音质损失过大。●应用:支持WMA格式的MP3随身听,Internet,以及VOIP网络电话(VoiceOverInternetProtocol,基于IP协议的语音通信)。2.2.4数字音频文件格式●流式音频文件RA●定义:Realnetworks推出的一种音乐压缩格式,其压缩比可达到96:1因此在网上比较流行。●特点:经过压缩的音乐文件可以在通过速率为14.4kbps的Modem上网的计算机中流畅回访。●应用:国际互联网,采用流媒体的方式可以实现网上实时播放,即边下载边播放。2.2.4数字音频文件格式●数字音频文件PCM●定义:模拟的音频信号经过模数转换(A/D转换)直接形成的二进制数字序列,该文件没有附加的文件头和文件结束标志。●特点:音源信息完整,但冗余度过大;音源信息保存完整,音质好;信息量大,体积大,冗余度过大。●应用:因为能够达到最高保真水平的就是,所以被广泛用于素材保存及音乐欣赏。比如AudioCD(72min/6
本文标题:多媒体技术及应用 第二章 音频信息的获取与处理
链接地址:https://www.777doc.com/doc-46899 .html