您好,欢迎访问三七文档
数字语音编码•多媒体数字信号编解码器•COder和DECoder•作用:对视频、音频信号进行压缩和解压IP网络语音处理过程PCMPCM的产生脉冲编码调制—将模拟调制信号的采样值变换为脉冲码组。PCM编码包括如下三个过程。•抽样:将模拟信号转换为时间离散的样本脉冲序列。•量化:将离散时间连续幅度的抽样信号转换成为离散时间离散幅度的数字信号。•编码:用一定位数的脉冲码组表示量化采样值。抽样•模拟声音在时间上是连续的,而数字音频是一个数字序列,在时间上只能是断续的。因此当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,称之为采样(抽样),采样的时间间隔称为采样周期(倒数为采用频率)抽样量化•在数字音频技术中,把采样得到的表示声音强弱的模拟电压用数字表示。模拟电压的幅值仍然是连续的,而用数字表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示,即把某一幅度范围内的电压用一个数字表示,这称之为量化量化和编码为什么要使用CODEC?•*采样频率是指单位时间内的采样次数。•*奈奎斯特(HarryNyquist)采样理论:只要采样频率f(1/T)高于输入信号最高频率的两倍,则经过采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。•*电话话音的信号频率约为3.4kHz,采样频率就选为8kHz。以8kHz的频率对语音信号进行采样。PCM中每个采样点用16位来表示,那么一秒钟要传输:16×8000=128000(b)也就是要达到128kps的传输速率,才可以传送一路语音信号。因此必须对语音信号进行压缩。语音压缩就是要去除传输信号的冗余信息。语音压缩——去除语音信号样本的冗余信息客观冗余--信号本身特征(1)语音信号样本间的相关性很强(8kHz时两点相关0.85)(2)浊音段的准周期性(3)声道的形状及其变化比较慢(4)静止系数(语音间隔,有静音期)主观冗余--人的听觉特性听觉掩蔽特性听不到或不灵敏的语音分量视为冗余语音编码分类根据编码器的实现机理,分成三大类波形编码参数编码混合编码1、波形编码从语音信号的波形出发,对波形的抽样值、预测值、预测误差进行编码,它以重建语音波形为目的,力图使重建波形接近原信号波形。特点:利用抽样定理,恢复原始信号的波形优点:适应能力强,重建语音质量好缺点:编码速率较高类型:PCM,自适应增量调制(ADM),自适应差分编码调制(ADPCM),自适应预测编码APC速率通常在16------64kbit/s范围非均匀量化进行压缩均匀量化与非均匀量化非均匀量化•对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。•对大信号来说,虽然绝对量化误差较大,但是因为:(1)大信号出现的机会不多,(2)信噪比(相对误差)与小信号是一致的,所以对总的话音质量影响不大。•非均匀量化也是一种压缩。(如PCMU和PCMA,每个样本的精度为8位,输出的数据率为64kb/s)•2.参数编码提取语音的一些特征信息进行编码,在收端利用这些特征参数合成语音。•优点:编码速率低。•缺点:语音的音质和自然度较差,很难辨别说话人。(有一定的可懂度)•类型:LPC线性预测编码速率通常是在4.8kbit/s以下话音的形成原理•肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。•气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。•话音信号具有很强的相关性(长期相关、短期相关)。等效为激励源+声道+喇叭口话音的分类•浊音(voicedsounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。•清音(unvoicedsounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。•爆破音(plosivesounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。2.3.2语音的时间波形和频谱特性•看一段实际语音放大结论1:时间的连续函数、频率幅度随时间变化是随机的•元音其中一段再放大结论2:短时间内近似认为不变结论3:元音是准周期函数(基频)基音周期•清音结论4:清音为随机起伏语音信号产生的数字模型•理想模型标准–准确但不可能,必近似、简化–简单最好用成熟的理论•线性模型线性系统语音信号脉冲序列脉冲序列-激励源,线性系统-声道+喇叭口激励源-周期序列(浊音)/随机序列(清音)线性系统-短时内不变清/浊转换声道模拟滤波器基音周期脉冲序列发生器随机噪声发生器输出语音s(n)LPC系数增益x(n)u(n)声道模型•无损声管模型用于理论研究,对复杂的音无法模拟•共振峰模型将声道模拟成一个谐振腔,谐振频率就是共振峰频率。元音用3个共振峰就可以了,鼻音等要用到5个共振峰以上。1、声管模型“短时”间声道是一个形状稳定的级联管道声音在不同截面积间传输会有反射。A1A2A3….2、共振峰模型根据声道近似为谐振腔的特性,有另外模型-模拟其共振峰用串联网络模拟声道。一般元音用全极点模型,系统函数:G-幅值因子Ak-模型系数P-极点个数(阶数)P、ak决定了声道地特性(人的特征),p越大越吻合。一般p=8~12全极点模型•语音信号由本身的若干次过去值和当前的激励值线性组合产生:系统函数:求解过程•求解系数的过程,其实就是找出共振峰频率的过程。系统函数取极值的点,就是共振峰频率所在的点。•求解方法多样,其中之一是自相关法。自相关法3.混合编码•介于波形编码和参数编码的一种编码。即在参数编码的基础上引入了波形编码的一些特征。波形编码+参数编码可在4----16kbit/s范围内达到良好的语音质量清/浊转换声道模拟滤波器基音周期脉冲序列发生器随机噪声发生器输出语音s(n)LPC系数增益x(n)u(n)LPC语音合成图索引a增益a0255子帧延迟自适应码本索引s随机码本0511增益s线性预测滤波器线谱参数语音信号更新CELP语音合成示意图AMR•发送端接收端解码器
本文标题:数字语音编码技术
链接地址:https://www.777doc.com/doc-3163507 .html