您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 会议纪要 > 第2章 数字音频处理
第2章数字音频处理本章重点:•模拟音频与数字音频的概念•数字音频的获取•音频信号压缩编码•音乐合成和语音识别2.1概述声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,10%是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。2.1概述幅值t一个周期-+空气压强图2.1空气压强振荡的波形示意图0人耳能识别的声音频率范围大约在20~20kHz,通常称为音频(audio)信号。音频信号所携带的信息大体上可分为语音、音乐和音效三类。语音,指具有语言内涵和人类约定俗成的特殊媒体。音乐,指规范的符号化了的声音。音效,指人类熟悉的其他声音。在多媒体系统中,处理的信号主要是音频信号。2.1.1声音的基本特征振幅周期基线声音是振动波,具有振幅、周期和频率。声波的频率(Frequency)描述每秒钟振动的次数,反映出声音的音调:声音尖细表示频率高声音低粗表示频率低。声音的基本特征次声主要来自大自然,如地震、火山、台风、海啸、大气湍流等自然现象;超声既可以来自大自然的风声、水浪,又可以来自一些动物的发声器官,还可以来自各种人造超声源;次声波可听声超声波20Hz20000Hz20~20000Hz次声波长最小也大于17米,可以走曲线,绕过高山;超声波长最大也不过17毫米;波长很短,可以走直线;穿透障碍声音的基本特征次声可以引起人体内脏器官的共振,造成眩晕,甚至内脏出血,使人丧命;超声可以为病人透视、按摩、治疗疾病,使人健康;还可以清洗、除尘,乳化、粉碎,割焊、钻孔、消毒、杀菌,促进化学反应,影响生物生存。从听觉角度看,声音具有音调、音色和响度(音强)三个要素。(1)音调:在物理学中,把声音的高低叫作音调。[注]音调与声音的频率有关,声源振动的频率越高,声音的音调就越高;声源振动的频率越低,声音的音调就越低。通常把音调高的声音叫高音,音调低的声音叫低音。音调高音调低播放播放播放2.1.2音频参数与声音特性(2)音色:表示人耳对声音音质的感觉,又称音品,与频率有关。[注]一定频率的纯音不存在音色问题,音色是复音主观属性的反映。声音的音色主要由其谐音的多寡、各谐音的特性所决定。各种乐器奏同样的曲子,即使响度和音调相同,听起来还是不一样,就是由于它们的音色不同。2.1.2音频参数与声音特性(3)响度(音强):即声音的响亮程度,也就是我们通常说的声音的强弱或大、小,重、轻。[注]响度与振幅有关,取决于声波信号的强弱程度。由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘20所得值来描述响度,以分贝(dB)为单位,此时称为音量。播放2.1.2音频参数与声音特性声音的三要素声音波形的基频所产生的听的最清楚的音称为基音,各次谐波的微小振动产生的声音称为泛音。所谓纯音或单音,是指单一频率、或振幅和频率不变的声音信号,单音一般只能由专用电子设备产生;在日常生活中,我们听到的自然界的声音一般都属于复音,其声音信号由不同的振幅与频率合成而得到。音质与频率范围成正比,频率范围越宽音质越好基频与音调:基音的频率即为基频,决定整个音的音高。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率ω所决定的。与声音相关的基本概念音乐中音阶的划分是在频率的对数坐标(20×log)上取等分而得的。如表所示,20×log261=48.3,20×log293=49.3等。音阶CDEFGAB简谱符号1234567频率(HZ)261293330349392440494频率(对数)48.349.350.350.851.852.853.8与声音相关的基本概念谐波与音色:其频率为基波的倍数的辅波或分量。n×ωo称为基波ωo的n次谐波分量(n就是高次谐波的方次,n×ωo就是基波ωo的n次谐波),也称为泛音。声音的泛音适中,谐波较丰富,听起来音色就优美动听。幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:动态范围=20×log(信号的最大强度/信号的最小强度)(dB)与声音相关的基本概念音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。动态范围越大,信号强度的相对变化范围越大,音响效果越好。与声音相关的基本概念1020502003.4K7K15K22Kf(Hz)电话AM广播CD-DAFM广播图2.3几种音频业务的频带宽度1020502003.4K7K15K22Kf(Hz)电话AM广播CD-DAFM广播图2.3几种音频业务的频带宽度CD-DA数字音乐、FM广播、AM广播和电话的带宽与声音相关的基本概念声音的质量可以通过信噪比来度量。信噪比(SNR,SignaltoNoiseRatio)是有用信号与噪声之比的简称,定义为:信噪比越大,声音质量越好。噪声的平均功率有用信号的平均功率SNR与声音相关的基本概念音频的分类按用途分类语音是人类发音器官发出的具有区别意义功能的声音。语音的物理基础主要有音高、音强、音长、音色音乐是指有旋律的乐曲,一般采用MID文件。音效是指有特殊效果的声音,例如,汽车声、鼓掌声、打碎碗、玻璃声音等。音频的分类数字化声波。即将麦克风插在计算机的声卡上,利用录音软件,将语音、音乐等波形信息经模/数转换,得到数字化形式进行存储、编辑,需要时再经过数/模转换还原成原来的波形。MIDI合成。利用连接电脑的MIDI(乐器数字化接口),弹奏出曲子,或合成音效录入计算机,再用声音软件编辑。来源于声音素材库。将录音带或CD唱盘等声音素材库中的曲子,用放音设备通过转接线转录到计算机,再用声音软件加以编辑,存成多媒体著作软件可以读取的文件格式。按来源分类音频的分类按格式分类.wav●WAVE(WaveformAudio)波形音频文件多媒体系统、音乐光盘制作,记录物理波形,数据量大.cda●CDA(CDAudio)激光音频文件准确记录声波,数据量大,经过采样,生成wav和mp3音频文件.mid●MIDI(MusicalInstrumentDigitalInterface)乐器接口文件用于合成、游戏,记录音符时值、频率、音色特征,数据量小.mp3●mp3(MPEG音频压缩标准)压缩音频文件必须经过解压缩,数据量小音频的分类频带关系女性语音150Hz~10,000Hz电话语音200Hz~3,400Hz调幅广播(AM)50Hz~7,000Hz调频广播(FM)20Hz~15,000Hz高级音响10Hz~40,000Hz男性语音100Hz~9,000Hz声源种类频带宽度数字音频的获取图2.4音频信息处理框图模拟音频信号采样量化编码码按不同应用目标进行压缩音频信息处理结构框图1、采样图2.5模拟信号的采样所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。2.2声音的数字化声音采样声音采样1101110011001101把声音(模拟量)按照固定时间间隔,转换成有限个数字表示的离散序列每隔一定时间间隔不停地间断性地在模拟音频的波形上采取一个幅度值,这一过程我们称之为采样;为了把采样得到的离散序列信号存入计算机,必须将其转换为二进制数字表示,我们称这一过程为量化编码。模拟数字采样时间间隔称为采样周期t,其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。根据奈奎斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。声音采样采样频率是指计算机每秒钟对声波幅度值样本采样的次数,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准,计量单位为Hz(赫兹);采样通常采用三种频率:11.025KHz、22.05KHz、44.1KHz。语音效果,称为电话音质音乐效果,称为广播音质高保真效果,CD唱盘模拟数字声音量化采样得到的样本需要量化,所谓的量化位数也称“量化精度”,是描述每个采样点样本值的二进制位数。量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以8bit或16bit的方式来划分纵轴为例,其纵轴将会被划分为28个和216个量化等级,用以记录其幅度大小。模拟数字2、量化(2)离散数据声音信号(3)幅值量化(1)连续模拟声音信号均匀量化非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。模拟信号经过采样和量化以后,形成一系列的离散信号。这种数字信号可以以一定的方式进行编码,形成计算机内部运行的数据。经过编码后的声音信号就是数字音频信号。数字音频的技术指标衡量数字音频的主要指标包括:采样频率量化位数通道(声道)个数数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:数据传输率=采样频率×量化位数×声道数例:假定语音信号的带宽是50Hz—10kHz,而音乐信号的是15Hz—20kHz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率=2×10kHz=20kHz;比特率=20k×12=240kbit/s音乐信号:取样频率=2×20kHz=40kHz;比特率=40k×l6kbit/s×2=1280kbit/s(立体声)所需存储空间=1280k×600/8=96MB音频的数字化(1)声音适配器(声卡)8bit、16bit、…128bit¥80.00~3800.00(2)声卡驱动软件以及各种声音处理软件声音重放数字模拟声音重放11011100把数字化声音转换成模拟量,经过音响单元重放出来设备和软件音频的数字化数字模拟采样频率Hz数据长度bit数据量/分钟11,02580.66MB22,05081.32MB44,10082.64MB11,025161.32MB22,050162.64MB44,100165.29MB音质评价低一般良好中良好优秀音质与数据量重放频率=采样频率÷2重放频率(模拟量)与采样频率(数字量)的关系:[例]采样频率为44,100Hz的数字音频信号还原成声音后,为22,050Hz附:音乐合成使用电子元器件(或计算机)生成音乐的技术称为电子音乐合成模拟式电子合成器是通过对震荡器的控制来实现音乐合成的,主要有减法合成和加法合成两种。数字式合成器不是由电子元器件制成的信号发生器来产生声音中的各种频率成分,而是直接通过数字的方法来造出波形,然后转换为声音信息。其实数字式合成器就是一台特殊的计算机,也是软硬件的综合体。数字合成法主要有FM(FrequencyModulation)频率调制合成和乐音样本合成两种。音乐合成用数字信号来表示不同乐音的波形,然后把它们组合起来,再通过数模转换器(DAC)生成乐音播放。FM频率调制合成特点:结构简单,成本低,模仿能力很差用FM合成法产生各种逼真的乐音很困难,有些乐音几乎不能产生,目前只有低档次的声卡采用FM合成法。中高档的声音卡一般采用乐音样本合成法,即波表(WaveTable)合成法。音乐合成波表合成采用一种称之为“波表查找”技术来产生MIDI音乐,其实它是将各种真实乐器(如大提琴、小提琴、钢琴、鼓等)所能
本文标题:第2章 数字音频处理
链接地址:https://www.777doc.com/doc-3750104 .html