您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 7.6现代通信中的语音信号编码方法
7.6現代通信中的語音信號編碼方法2012/11/242随着通信技术的发展和人们对通信需求的不断变化,以TDMA或窄带CDMA为核心的第二代数字蜂窝系统由于容量小和业务种类有限,已不能满足飞速发展的移动通信业务量的需要,因此第三代移动通信3G系统的主要目标是为用户提供高速率的无线接入多媒体应用业务。3第三代移动通信系统(3G):3G与2G的主要区别是在传输声音和数据的速度上的提升,它能够在全球范围内更好地实现无线漫游,并处理图像、音乐、视频流等多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务,同时也要考虑与已有第二代系统的良好兼容性。为了提供这种服务,无线网络必须能够支持不同的数据传输速度,也就是说在室内、室外和行车的环境中能够分别支持至少2Mbps(兆比特/每秒)、384kbps(千比特/每秒)以及144kbps的传输速度(此数值根据网络环境会发生变化)。4国际电信联盟(ITU)在2000年5月确定WCDMA、CDMA2000、TD-SCDMA三大主流无线接口标准,写入3G技术指导性文件《2000年国际移动通讯计划》(简称IMT—2000);2007年,WiMAX亦被接受为3G标准之一。CDMA是CodeDivisionMultipleAccess(码分多址)的缩写,是第三代移动通信系统的技术基础。第一代移动通信系统采用频分多址(FDMA)的模拟调制方式,这种系统的主要缺点是频谱利用率低,信令干扰话音业务。第二代移动通信系统主要采用时分多址(TDMA)的数字调制方式,提高了系统容量,并采用独立信道传送信令,使系统性能大大改善,但TDMA的系统容量仍然有限,越区切换性能仍不完善。CDMA系统以其频率规划简单、系统容量大、频率复用系数高、抗多径能力强、通信质量好、软容量、软切换等特点显示出巨大的发展潜力。下面分别介绍一下3G的几种标准:5WCDMA全称为WidebandCDMA,也称为CDMADirectSpread,意为宽频分码多重存取,这是基于GSM网发展出来的3G技术规范,是欧洲提出的宽带CDMA技术,这套系统能够架设在现有的GSM网络上,是当前世界上采用的国家及地区最广泛的,终端种类最丰富的一种3G标准,占据全球80%以上市场份额。CDMA2000CDMA2000是由窄带CDMA(CDMAIS95)技术发展而来的宽带CDMA技术,也称为CDMAMulti-Carrier,它是由美国高通北美公司为主导提出的,是从窄频CDMAOne数字标准衍生出来的6TD-SCDMA全称为TimeDivision-SynchronousCDMA(时分同步CDMA),该标准是由中国大陆独自制定的3G标准,1999年6月29日,中国原邮电部电信科学技术研究院(大唐电信)向ITU提出。TD-SCDMA具有辐射低的特点,被誉为绿色3G。该标准将智能无线、同步CDMA和软件无线电等当今国际领先技术融于其中,在频谱利用率、对业务支持具有灵活性、频率灵活性及成本低等方面的独特优势。但相对于另两个主要3G标准CDMA2000和WCDMA它的起步较晚,技术不够成熟。WiMAXWiMAX的全名是全球微波互联接入(WorldwideInteroperabilityforMicrowaveAccess),又称为802·16无线城域网,是又一种为企业和家庭用户提供“最后一英里”的宽带无线连接方案。WiMAX是一项新兴的宽带无线接入技术,能提供面向互联网的高速连接,数据传输距离最远可达50km。7通常话音质量和系统容量是矛盾的,为了更加充分利用有限的无线频带资源,无线通信系统都采用了语音编码技术来减少在空中接口中(AirInterface)传送比特数。因此当前语音编码的研究主要致力于如何在较低数据速率的条件下提高声码器的语音质量使之尽量接近有线话音质量。1995年,就在13kbit/s的CDMA语音编码器正式推出之际,美国电信工业协会(TIA)就开始着手为第三代移动通信系统的语音编码器做准备。至此,增强型变速率语音编码器(EnhancedVariable-RateCoder)就被选为新标准的核心算法,并在1996年7月,作为IS-27标准正式推出,成为了IS-95的可选语音服务标准和第三代无线通信系统CDMA2000的语音编解码标准。8EVRC算法基本原理作为目前CDMA系统中,最接近语音质量和比特速率的最佳结合点的语音编码器,EVRC的核心算法是基于贝尔实验室在1994年提出的RCELP(RelaxedCode-ExcitedLinearPrediction)算法。RCELP是一种广义的CELP语音编码算法,它尤其适于变速率编码,并且具有良好的抗干扰能力。EVRC采用8kHz采样频率的16bit线性PCM信号作为输入信号,以20ms(即160个采样点)为一帧进行编解码。它能够根据输入信号的特点来选择编码速率。最后编码结果的比特速率为8.5kbit/s(全速率),4kbit/s(半速率)或0.8kbit/s(1/8速率)。9EVRC使用了3种类型的参数来表征语音模型——线性预测系数(LPC),基音参数,激励信号。与传统CELP模型一样,EVRC也采用基音周期来表征声道模型,但它不再是在5~10ms的子帧内采用闭环的合成分析法寻求一个最优解,而是采用两步法:①在20ms内开环搜索得到一个最佳基音周期;②线性内插得到基音曲线,用自适应码本来映射长时相关性。这样做可以减小基音的比特速率,因而激励信号的固定码本的比特速率可以得到相应的提高,这是EVRC语音质量较好的原因之一。10图7.6.1EVRC模型的语音合成示意图11传统的CELP合成分析法中,总是试图让合成的语音信号逼近原始信号,而在EVRC中,它逼近的是经过时域变形的残差信号。这样的方法会使计算变得复杂,但它使得在每一帧的数据包中基音的比例减小,从而改进语音自然度的激励信号将得到更多的比特数,进而改善语音质量,同时因为基音信号对语音的影响非常大,所以比特数下降也会改进整个语音编码器的抗干扰能力。12图7.6.2EVRC算法顶层示意图13EVRC的编码器经8kHz采样,16bit量化后得到的线性PCM信号s(n)首先被送到预处理模块。在这里,信号首先经过一个截止频率在120Hz的高通滤波器,目的是抑制非人声的噪音分量,包括50Hz的交流噪声。然后再对语音进行噪声抑制。经过了预处理后,语音中的大部分干扰信号被滤去了,这时候进行短时预测分析得到的数据就能够更接近人声道的谐振特性。在该模块中,经过预处理的信号sp(n)进行加窗自相关后,得到10个线性预测系数{ai,i=1,2,…,10}。为了降低误码率对声码器的干扰,系统将LPC系数转换成LSP来表达。这主要考虑到LSP系数能够保证线性预测滤波器的稳定性并且它的误码不会影响到整个包络。14利用LPC系数,我们就可以使用线性预测分析滤波器得到短时残差信号ε(n)。下一步就是要从ε(n)中提取长时相关性。EVRC采用的是广义CELP,它不再进行闭环的基于子帧的基音搜索,而是采用开环的“简略的”基音提取,然后再进行插值。所以在长时相关性模块中,它采用的较为简单的自相关法,首先在被4倍压缩的语音信号中根据最大相关性找出粗略的基音周期,然后再在原始的残差信号中找出这帧(20ms)的精细的基音周期。这种方法能够有效的减小运算量,提高开环搜索的精度。数据速率判别模块,是根据输入语音的特征来决定语音的编码速率(8.5kbit/s、4kbit/s、0.8kbit/s)。一般地,全速率对应的是浊音,1/8速率对应的是清音,1/2速率通常为过渡音。在该模块中,根据基音信息,语音的相关性和以前几帧的情况来自适应的调节速率。15根据不同的速率,EVRC采用了不同的激励源。对于1/8速率,也就是清音,采用随机噪声来激励;而对于全速率和1/2速率,则采用特定的规则信号来激励。EVRC把每帧分成3个子帧,分别为53、53、54个样点;以后的编码都是基于子帧的。在EVRC中,用来产生清音激励信号的是0均值,单位方差的高斯白噪声。首先生成均匀伪随机噪声,然后对均匀伪随机噪声作适当的转化,生成高斯伪随机噪声。将所得的0均值的单位方差伪高斯白噪声序列乘以量化能量增益γq,便可得到每一语音子帧的激励信号。16EVRC的解码器EVRC的解码器主要有3个模块:帧错误检测;数据包解码;后滤波器。当编码后得到的数据包通过信道传送到解码器时,它将根据信道指示的速率来解包,并由此判断是否存在帧错误。17(1)帧错误检测帧错误主要类型:①速率指示为1/4速率(2.4kbit/s);②接收到的是空白帧;③上一帧为全速率,而当前帧为1/8速率;④当速率为全速率和1/2速率时,解包得到基音DELAY大于100;⑤LSP中存在非严格递增的现象。以上任何一个条件满足,EVRC将把帧错误标志FER_FLAG设为TRUE,反之设为FALSE。然后,系统将根据帧错误标志来解码。18(2)解码部分当没有发生帧错误时,解码的过程实际上就是编码的逆过程。全速率和1/2速率:根据基音周期进行内插得到每个子帧的基音轮廓→将它映射到自适应码本,得到长时相关分量→由固定码本索引求得相应固定码本分量,也就是激励信号分量→两个分量分别和解包得到对应的增益相乘后,相加就得到了短时预测残差信号→将该信号经过共振峰合成滤波器,得到的就是重建语音。对于1/8速率,解码器在解包后得到一个能量矢量的索引,查表后得到各个子帧的能量增益,再和一个0均值,单位方差的高斯噪声相乘即可得到该序列。19纠错方法:LSP系数:直接引用上一帧数据包中的LSP系数。LPCFLAG=TRUE,且上一帧也为TRUE:意味着可能大量数据包有错,此时若继续引用上一帧LPC进行内插,则可能与原始时语音有较大偏差,处理办法是让语音平滑过渡到白噪声。此时EVRC对内插后的子帧LPC系数进行谱扩展。20若当前帧为错帧,则直接用上一帧的基音周期τ(m-1)代替。当基音周期的变化被限制在2ms(±16点,fs=8kHz)内时,将不会影响语音的听觉效果。因此编码端使用了5bit的DDELAY来记录当基音变化小于2ms时的基音差Δτ=τ(m)-τ(m-1)。在解码端,如果上一帧为正确帧,而当前帧为错帧且速率为1时,则用基音差来重建上一帧的基音τ’(m-1)=τ(m)-Δτ;对于大于2ms的基音变化,则统一用2ms的基音增幅来代替τ’(m-1)。这样可以在不损伤听觉感受的情况下,最大程度地恢复基音轮廓。自适应码本增益gp和固定码本增益gc:所有错帧采用上一帧的gpavg和gcavg。正确帧更新这两个平均增益。连续出现错帧时,gpavg需要每次递减25%。这样可以防止多帧出错时,自适应码本的记忆对后面的正确帧造成较大影响,同时也让音量逐渐减弱。21固定码本索引:全部抛弃。因此,此时的短时残差信号仅由自适应码本组成。另外,为了防止抛弃固定码本分量后语音能量大幅度下降,当gpavg0.4时,补充部分随机噪声0.1*gpavg*random。1/8速率遇到错帧时,它的能量增益也采用上一帧的增益矢量。22(3)自适应后滤波器后滤波器主要是为了改进合成语音的听觉感受,并校正部分编码中带来的误差。包括倾斜度补偿滤波器,短时预测残差补偿滤波器,长时预测校正滤波器,短时预测校正滤波器和归一化增益。因为采用大量的矢量量化,必然会引进量化误差,而加权滤波器并未完全补偿这部分误差,倾斜度补偿滤波器则主要对此进行简单的校正。长时预测校正滤波器则是为了增强谱的精细结构,同时平滑连续性不好的基音轮廓。短时预测校正滤波器和归一化增益主要是为了突出共振峰结构,并补偿量化造成输出语音的增益损失。23EVRC算法有较好的语音质量和抗干扰能力的原因:①采用了RCELP,增大了固定码本的比特速率;②基于ACELP的码本结构,使得码本激励更接近于实际的激励信号;③大量采用矢量量化,使得在保证量化精度的同时,降低比特率,增强抗干扰性;④采用LSP系数代替LPC系数;⑤变速率既使得平均速率减低,又保证了语音质量;24⑥基于听觉特
本文标题:7.6现代通信中的语音信号编码方法
链接地址:https://www.777doc.com/doc-3140480 .html