您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 第3章 语音压缩编码1024
语音压缩编码----1、概述吉林大学通信工程学院通信系课程安排•背景介绍•DPCM和ADPCM•SBC子带编码•VQ量化背景介绍•课题背景•国内外研究现状•常用编码算法简介语音编码发展方向•极低速率语音编码–比特率低于2400bps的编码–保密通信、语音邮件、网络通信、IP电话•变速率语音编码–在合成语音质量和系统容量中灵活折中–CDMA通信系统中,且前景广阔•不压缩语音编码–压缩费用超过传输费用–光纤通信、微波通信压缩的意义•为什么需要压缩编码技术–PCM编码占用带宽大•8000Hz采样速率,每样本8位码•数码率:64kbps–有线传输中可以找到大容量传输介质:光纤–无线接入侧的频谱资源相当紧张GSM频点分配理论基础•定义:–低于64kbps的编码方案称为语音压缩编码•压缩依据–语音信号中存在的冗余–人类的听觉感知机理信号冗余•采样数据之间的相关–8kHz速率时,相邻样值相关系数高达0.85•周期相关:–浊音的准周期性•幅度的非均匀分布–小幅度概率高,信息集中在低功率•语音间隙的存在•声道的形状及其变化速率有限听觉感知机理•人耳对不同频段的声音敏感度不同–低频比高频更敏感•人耳对语音信号的相位不敏感•人耳有掩蔽效应(maskingeffect)–强音抑制弱音语音编码的极限速率•语音最基本元素-音素:大约128~256个•通常说话速度:每秒平均发10个音素•信息率:I=[log2(256)10]bps=80bps•把发音看成是以语音速率传送,则语音编码的极限速率为80bps•从数字化标准的编码速率64kbps,到极限速率80bps之间的距离,压缩比可达64kbps/80bps=800•对于理论研究和实践有着极大的吸引力压缩编码方法分类•波形编码–原理简单,失真小–数码率高•参数编码–数码率低–音质较差,复杂度高•混合编码–较低的比特率上获得较高的语音质量语音信号压缩编码的评价系统•语音质量–(1)广播级:•宽带(0-7000Hz)高质量的语音,感觉不出噪声存在–(2)网络或电话级:•200Hz-3200Hz,信噪比大于30db。–(3)通信级:•完全可以听懂,但和长途电话相比,有明显失真。–(4)合成级:•80%-90%可懂度,音质较差,听起来像机器讲话,失去了讲话者的个人特征。语音信号压缩编码的评价指标•编码质量–MOS(MeanOpinionScore)•编码速率–适当选取•编解码复杂度–不影响实时处理•编解码时延–不能超过100ms–若超过必须采取回声抵消或回声抑制等措施内容提要•课题背景•国内外研究现状•常用编码算法简介ITU-T的正式标准•G.711(1972)64kbps–PCM用于固网•G.721(1984)32kbps–ADPCM用于卫星、海缆、VRC•G.728(1992)16kbps–LD-CELP低延迟-码激励线性预测–无绳电话、SCSC卫星、海事卫星、DSI设备、录音、移动系统等•G.729(1996)8kbps–CS-ACELP(共轭结构-代数数码激励线性预测技术)–可与32kbps的ADPCM同质量–用于个人移动通信、低C/N卫星、高质量移动无线通信,分组语音•G.722.2–AMR-ACELP(自适应多速率)–用于WCDMA和TD-SCDMA系统现状•主流:CELP(码激励线性预测)–4.8kbps的数码率上获得较高质量的语音发展方向•中低速率的语音编码的实用化–降低复杂度–减少时延–提高抗干扰、抗噪声能力•进一步降低编码速率–目前5-6kbps的速率--较高质量重建语音–目标4kbps得到短时延、高质语音发展方向•中长延时编码–400-1200bps得到高质语音–新算法•正弦变换编码(STC)•混合激励线性预测编码(MELPC)•时频域插值编码(TFI)•基音同步激励线性预测编码(PSELP)–新分析技术•非线性预测•多精度时频分析•高阶统计分析内容提要•课题背景•国内外研究现状•常用编码算法简介–波形编码技术–参数编码技术一、PCM编码•PCM:PulseCodedModulation•抽样:8000Hz•量化:非均匀A律87.6/13折线压扩特性•编码:8位码–极性码:第1位–段落码:第2-3位–段内码:第4-7位二、DPCM编码•差分PCM编码–对相邻样本的差进行PCM编码–由于样本差值的动态范围远小于样本动态范围,因此达到相似性能可以减小编码位数•技术实现关键问题–编码位数的选取–预测器系数选取:LMSDPCM框图三、ADPCM•自适应DPCM–自适应预测系数调整–自适应编码位数调整•技术实现关键–自适应预测器:指预测器的预测系数能随话音瞬时变化作自适应调整,从而得到高预测增益–自适应量化器:指量化器的量化级(阶距)能随话音瞬时变化作自适应调整,从而得到高的量化信噪比。•3.子带编码(SubbandCode;SBC)子带编码(SBC)是首先用带通滤波器将语音信号分割成几个不同的频带分量(子带),再分别对每个子带进行抽样和编码。编码后的码流通过复接器复接,送到信道上传输。接收端再将它们分接、译码,并组合起来重建原始的输入信号。下图就是子带编码的原理方框图。在语音信号的子带划分上,应考虑到各频段对主观听觉贡献相等的原则做合理的分配,使低频段的子带宽度较窄,高频段的子带宽度较宽。通常语音信号经带通滤波器组滤波后分成4~6个子带,子带之间允许有小的间隙,如图所示。子带编码原理•在子带编码器的设计中,必须考虑子带数目、子带划分、编码的参数、子带中的比特分配以及带宽等主要参数。•设一个子带编码系统包括m个子带,各子带带宽为Bk(k=1,…,m),每个子带信号经过频率为fsk=2Bk的抽样后,使用Rk个比特来进行量化和编码,那么该系统总的编码速率I应为式(3-3)mBBfkk22smkkskRfI1各子带带宽相等,即等带宽子带编码,有式(3-4)式(3-3)可化简为式(3-5)※mkkRmBI12例:一个4子带的SBC系统,子带分别为(0~800Hz),(800Hz~1600Hz),(1600Hz~2400Hz),(2400Hz~3200Hz),如果忽略同步的边带信息,子带的比特分配分别为3、2、1、0比特/样值,则SBC编码系统总的传输速率为mkkRmBI12设B=3200Hz,m=4,R1=3,R2=2,R3=1,R4=0,代入上式kbit/s6.90123432002)(I全带抽样编码的平均比特数为mkkRmR1bit5.10123411)(矢量量化•标量量化和矢量量化•矢量量化(VectorQuantization;VQ)•应用很广:语音压缩编码;参数编码;图像压缩编码例:在矢量量化器的设计中,设抽样频率为16kHz,码本由256个4维矢量组成,1)求矢量量化器输出的数码率?2)系统满意工作的最大消息带宽是多少?内容提要•课题背景•国内外研究现状•常用编码算法简介–波形编码技术–参数编码技术语音生成机构•声源:–声带•共鸣机构:–声道(鼻腔、口腔与舌头)•放射机构:–嘴唇或鼻孔语音产生机理•浊音–气流通过声门时,声带的张力刚好使声带产生张弛振荡式振动,产生一股准周期脉冲气流,激励声道产生浊音•轻音–声带不振动,而在某处收缩,迫使气流高速通过这一收缩部分产生湍流就产生清音•爆破音–声道完全闭合的情况下突然释放产生爆破音语音信号产生模型清/浊开关声道模拟滤波器基音周期脉冲序列发生器随机噪声发生器LPC系数增益Gu(n)输出语音s(n)050100150200清音语音浊音语音振幅时间(样点)清音/浊音示意图:a1语音输出x’(n)线性预测分析基音频率清/浊音判别参数合成a2ap基音频率输入语音x(n)清/浊音标志G)()()(1knxanuGnxqkk模型中的参数•清浊音判决•基音周期•时变滤波器–增益常数G–数字滤波器参数ai•特点:随时间缓慢变化优点•能够用线性预测分析方法对滤波器参数ai和增益常数G进行非常直接和高效的计算LPC模型阶数p的选择•保证有足够的极点模型化声道响应的谐振结构–通常10kHz时有5个共振峰,一对极点对应一个共振峰,取p=10–弥补鼻音中存在的零极点和其他因素的偏差–取p=12~14二、LPC-10编码器•美国确定LPC-10作为2.4kb/s速率上的推荐编码形式,用于第三代保密电话中•发送端,原始语音信号采用8kHz采样,然后每180个采样值分为一帧(22.5ms),提取语音特征参数并加以编码传送。•每帧总共编码为54bits,每秒传输44.4帧,因此总传输速率为2.4kb/ss(n)采样(8kHz)基音检测(AMDF)清/浊音检测预加重线性预测分析反射系数增益G参数编码NiisNG12)(1c(n)LPC-10编码器发送端预加重:•提高语音谱中的高频共振峰,使语音频谱较为平滑,从而提高谱参数估计的精确度•预加重滤波器的传递函数为:19375.01)(zzH基音周期•利用短时平均幅度差函数(AMDF)计算1301|)()(|)(mnnnkmxmxkF增益G•S(i)为经过预加重的数字语音•N为分析帧的长度NiisNG12)(1c(n)解码清/浊音开关反射系数转换为预测系数基音增益G合成器去加重噪声产生s'(n)LPC-10编码器接收端课后需要自学补充的知识•ADPCM•LMS算法•语音信号产生模型•LPC-10编码器
本文标题:第3章 语音压缩编码1024
链接地址:https://www.777doc.com/doc-3244285 .html