第12章--语音增强技术

第12章语音增强技术§12.1语音增强技术的概念和研究的意义§12.2噪声度量、特性和评价§12.3语音增强的原理和方法§12.1语音增强技术的概念和研究的意义一、语音增强的定义二、语音增强研究的意义一、语音增强的定义语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。二、语音增强的意义1.日常生活中，经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话，旁人的喧闹声，马路旁和市场里的公用电话等。2.军事通信中，指挥员的作战命令和战斗员的战情汇报都需要用语音来表达，由于战斗环境中的声环境恶劣，特别是炸弹产生的冲击性噪声，使有用信号完全淹没在噪声中。（3）窃听技术中需要语音增强（4）语音识别技术需要语音增强在实际生活中，语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合，噪声达120dB以上。§12.2噪声度量、特性和评价一、噪声的分类和度量二、噪声的特性一、噪声的分类和度量1.噪声的定义：噪声是扣除被测信号真实值后的各种测量值，可能来自外界环境、物理系统、操作人员等。广义将噪声称为干扰。按产生原因和按噪声性质分类。（1）产生原因：产生于物理系统外部，并以声、光、电、机械等方式作用于物理系统，称为外部噪声；物理系统内部产生的噪声称为内部噪声，例如量子噪声等。2.噪声的分类（2）按性质分为：脉冲噪声（爆炸、撞击和放电）和连续噪声；周期性周期（如交流电的干扰）和非周期性噪声；按统计特性分为：平稳噪声（如白噪声）和非平稳噪声（如色噪声）；按噪声和信号相关的性质分为加性噪声和乘性噪声。我们研究的噪声是声音的一种，它具有声波的一切特性，称之为声噪声。3.噪声的度量声压、声强和声功率（1）声压级(SPL)：Lp=20lg(P/P0)P0＝20uPa（2）声强级：LI=20lg(I/I0)I0=1012W/m2（3）声功率级：Lw=20lg(W/W0)W0=1012W噪声源和噪声环境声压/Pa声压级/dB飞机附近200140织布车间20100地铁0.6390繁华街道0.06370普通谈话0.0260安静房间0.00240耳语0.0006330树叶沙沙声0.000220农村静夜0.00006310听阈0.000020声压和声压级表征声音在物理上的强弱，它是对噪声的客观评价，不能表征人对声音的主观感觉。响应级和响度是人耳对噪声的主观评价的基本量之一。响度的单位为宋（Sone）响度级的单位为方（phon），在数值上等于1kHz纯音的声强级。噪声度量的另一个参数就是信噪比。SNR=SNRout/SNRin二、噪声的特性从统计特性的角度讲：平稳噪声和非平稳噪声。白噪声是平稳噪声中的一种，其频谱和功率谱为常数，其概率密度分布是满足正态分布。§12.3语音增强的原理和方法一、频域语音增强技术二、时域语音增强技术三、时频语音增强技术四、麦克风阵列语音降噪技术一、频域语音增强技术是语音信号中的一种重要技术，由于其原理简单所以被广泛使用，如手机中的降噪处理就是采用的此方法，美国NCT的ClearSpeech产品中，就是应用的这技术。谱相减法是频域语音增强技术的常用方法。1.谱相减法的基本原理描述2.谱相减法的数学推导3.谱相减法的特点1.谱相减法（SpectralSubtraction）的基本原理描述DFT平方平方DFT＋－插入相位开方IDFT含噪语音x(n)=s(n)+d(n)|X(ejw)|d'(n)|D'(ejw)|纯噪声|S'(ejw)|ejarg(X(jw))s'(n)原始语音谱幅度的估值将含噪语音信号和有声/无声判别得到的纯噪声信号进行DFT变化，从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方，然后开方，得原始语音谱幅度的估值，再借用含噪语音的相位，进行IDFT变化，得到增强的语音。2.谱相减法的数学推导首先假设语音和噪声信号是线性叠加的，且噪声是平稳的，噪声与语音信号不相关。x(n)=s(n)+d(n)X(ejw)=S(ejw)+D(ejw)简写为：X(w)=S(w)+D(w)X(w)•X*(w)=(S(w)+D(w))•(S(w)+D(w))*展开得到：|X(w)|2=|S(w)|2+|D(w)|2+S(w)•D*(w)+S*(w)•D(w)对上式两边取数学期望有：E[|X(w)|2]=E[|S(w)|2]+E[|D(w)|2]+E[S(w)•D*(w)]+E[S*(w)•D(w)]由于噪声与语音信号不相关，且傅立叶变换不会改变信号之间的相关性，上式中，最后两项均为0。则上式简化为：E[|X(w)|2]=E[|S(w)|2]+E[|D(w)|2]利用语音信号的短时平稳性，加之噪声信号的平稳性。由于傅立叶变换不会改变信号的统计特性，在一帧中，X(w)、S(w)和D(w)都是平稳的。因此，在一帧内可用单个值来代替均值。|X(w)|2＝|S(w)|2+|D(w)|2利用有声/无声判决的纯噪声信号d'(n)与d(n)不完全一致，因此：|S'(w)|2＝|X(w)|2－|D'(w)|2＝|S(w)|2+|D(w)|2－|D'(w)|2s'(n)=IDFT[|S'(w)|ejarg(X(jw))]3.谱相减法的特点(1)原理简单，只需要一个话筒，故又称为单话筒语音降噪。话音噪声谱相减法处理输出话筒(2)需要无声和有声判决，在信噪比大的情况下，使用短时平均能量等参数可达到效果。(3)由于该方法存在的前提条件要求噪声平稳，因此当噪声特性变化时，消噪效果可能会变差，这时需要重新拾取噪声特性。(4)由于噪声的随机分布的范围广，因此相减时，若该帧某频率点上的噪声谱幅度分量大时，就会有很大一部分残留，在频谱上呈现随机起伏的尖峰。在听觉上形成有节奏的类似音乐的残留噪声，又称为背景音乐噪声。背景音乐噪声损伤了语音的质量，降低了可懂度和清晰度，是该类方法最大的缺点。蓝色为原始含噪语音黄色为谱相减处理的结果二、时域语音增强技术语音增强中另一常用技术，其特点是对语音的损伤小。在消噪过程中，一般需要二个以上话筒，采用自适应滤波算法。故常常将时域语音增强技术称为自适应语音降噪技术（AdaptivenoisecancelingANC）。主话筒和参考话筒获得的信号是语音和噪声在话筒处迭加后的混合信号。话音噪声+自适应滤波器主话筒+输出参考话筒-主信号s+n0，为有用信号s（来自信号源）和一个与它不相关的噪声信号的混合而成。n1为另外拾取的噪声参考信号，与n0相关。主输入信号x=s+n0+输出s’参考输入n1自适应滤波器+n’-1.自适应消噪的基本原理描述将参考信号n1通过自适应滤波器后，得到信号n’(n)，此信号与n0(n)基本一致。x(n)-n’(n)=s(n)+n0(n)-n’(n)=s(n)+e(n)=s’(n)s’(n)中仍然包含部分噪声(e(n))，要使这部分噪声小，达到完全消除噪声的目的(e(n)=0)，则n’(n)尽可能与n0(n)一致。常常引入s’(n)调节滤波器的参数，形成自适应地修改滤波器的参数，使e(n)的均方误差最小。滤波器为FIR滤波器，其直接结构为：n1(n)z-1z-1z-1h(0)h(1)h(2)h(N-1)n’(n)每一时刻刷新滤波器系数h(i)n’(n)=n1(n)h(0)+n1(n-1)h(1)+…+n1(n-N+1)h(N-1)s’(n)=x(n)-n’(n)如何更新滤波器的系数，采用e(n)的均方误差最小的准则，形成LMS（LeastmeanSquare）算法。为了便于讲解，将第n个时刻的所有滤波器系数h(i),写为hi(n),则有：n’(n)=n1(n)h0(n)+n1(n-1)h1(n)+...+n1(n-i)hi(n)+...+n1(n-N+1)hN-1(n)第n个采样时刻：（1）拾取x(n)和n1(n)信号（2）n’(n)=n1(n)h0(n)+n1(n-1)h1(n)++n1(n-i)hi(n)++n1(n-N+1)hN-1(n)（3）s’(n)=x(n)-n’(n)（4）hi(n+1)=hi(n)+2*u*s’(n)*n1(n-i){i=0~N-1}（5）输出s’(n)n1(n)n1(n-1)n1(n-N+1))1()()1()()(2)()()()()1()1()1()1(1111110110NnninnnnnnnsunhnhnhnhnhnhnhnhNiNin1(n)z-1z-1z-1h0(n)h1(n)h2(n)hN-1(n)n’(n)++＋－s’(n)x(n)2.自适应消噪的实现框图模拟放大两路A/D输出抗混叠滤波DSP一路D/A输入在DSP中实现核心LMS算法，采样率为8kHz,利用DSP串行口或定时器中断，每隔125us中断一次，读入两路数据，将参考数据按照先入先出的顺序排列，进行滤波，用主通道信号减去滤波后的数据，得到增强后的信号，将此信号输出，修改滤波器权系数。020004000600080001000012000-0.8-0.6-0.4-0.200.20.40.60.8抗交叉串扰自适应滤波消噪输出结果020004000600080001000012000-0.8-0.6-0.4-0.200.20.40.60.8主输入信号（收音机失谐纯噪声）3.影响自适应消噪效果的因素（1）参考信号中含有语音成分，则通过滤波后，n’(n)信号中含有有用信号成分，经过相减后，将主通道信号减去一部分，损伤了有用信息。话音噪声+自适应滤波器主话筒+输出参考话筒-可以证明，输出信号的信噪比和参考信号的输入信噪比有如下关系：参出＝nSnSPPPP1可见，当参考通道的输入信噪比愈强，噪声抵消系统输出信噪比愈差，所以，为了获得好的噪声抵消系统性能，应使参考通道检测的信号尽可能小。（2）主输入信号和参考输入信号中含有非相关的噪声成分m0和m1。自适应滤波只能将两个输入中的噪声相关部分滤掉，则当信号不相关时，则无法消除。话音噪声+自适应滤波器主话筒+输出参考话筒-m0m1原始含噪语音基本自适应抗噪输出结果三、时频语音增强技术为了达到更好的消噪效果，可将自适应消噪技术和谱相减结合起来。自适应消噪主输入信号参考信号谱相减消噪增强语音00.511.522.533.5x104-0.8-0.6-0.4-0.200.20.40.6原始含噪语音自适应抗噪与谱相减相结合后的输出结果基本自适应抗噪输出结果ClearSpeechSpeakerListPrice:$179.95OurPrice:$149.95ClearSpeechSpeakerisadigitalspeakerthatremovesupto95%ofbackgroundnoisefromthereceivesideofanytwo-wayradiocommunication.Themostcommoncomplaintaboutmobilecommunicationsisbackgroundnoise.ClearSpeech™-Speakerisahigh-tech,lowcostsolutionthatenhancestheaudioqualityofcarandtruckfleet,emergencyvehicle,marine,andhamradiocommunications.四、麦克风阵列语音降噪技术由于自适应语音降噪技术消除的是两个话筒中的噪声相关部分。因此当增加一个话筒，则增加一份与主话筒噪声相关的部分，采用自适应滤波，则可将主话筒的噪声消除一部分。话音噪声+主话筒+输出自适应滤波器参考话筒2-自适应滤波器参考话筒1-蓝色为原始噪声；黄色为双话筒自适应语音降噪处理结果；紫色为三个麦克风自适应语音降噪处理

第12章--语音增强技术

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

河南省居住建筑节能设计标准(暖通空调部分)

第4章模板工程

金融机构反洗钱工作面临的形势和任务

图书编校质量差错认定细则

第7章投资决策原理2

企业经营管理优秀实践案例文化深耕与文化制胜

(XXXX1214)企业战略管理期末复习(文本)

媒体群和媒体圈策略

如何成为有魅力的组织领导者

268德勤—企业组织结构和部门职能(看过)

相关文档

相关搜索