您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > ch12语音增强.ppt
第12章语音增强技术(SpeechEhancement)§12.1语音增强技术的基本知识§12.2语音增强的原理和方法§12.1语音增强技术的基本知识一、语音增强的定义二、语音增强的意义三、噪声的分类一、语音增强的定义语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。Speechenhancementspeechnoisenoisyspeech()sn()dn()xn()()()xnsndnBackgroundNoiseEstimatethenoisecomponentfromthenoisyspeechMulti-Speaker:cocktailpartyeffect123()()()()ynsnsnsnSpeaker1Speaker2Speaker3Blindsourceseparation:SeparateonespeechsourcefromanotherOriginalspeechcompressionFadingChannelEnhancementdegradedspeechrestoredspeechChannelImpairment二、语音增强的意义保证通信的正常进行,需要语音增强。1.日常生活中,经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话,马路旁和市场里的公用电话等。2.军事通信中,指挥员的作战命令和战斗员的战情汇报都需要用语言来表达,由于战斗环境恶劣,特别是炸弹产生的冲击性噪声,使有用信号完全淹没在噪声中。(3)侦听技术中需要语音增强(4)语音识别技术需要语音增强在实际生活中,语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合,噪声达120dB以上。三、噪声的分类1.噪声是扣除被测信号真实值后的各种测量值,可能来自外界环境、物理系统、操作人员等。广义将噪声称为干扰。2.按性质分为:脉冲噪声(爆炸、撞击和放电);周期性噪声(如交流电的干扰);平稳噪声(如白噪声)和非平稳噪声(如色噪声);按噪声和信号相关的性质分为加性噪声和乘性噪声。我们研究的噪声是声音的一种,它具有声波的一切特性,称之为声噪声。ImpulsivenoisewhitenoisepinknoisebrownnoiseWhitenoise1Whitenoise2Whitenoise1-Whitenoise2aeciphone.wav012345678910x104-0.8-0.6-0.4-0.200.20.40.6asfalarm.wav024681012x104-0.8-0.6-0.4-0.200.20.40.6asfradio.wav012345678x104-0.4-0.3-0.2-0.100.10.20.30.40.5asfsportscar.wav024681012x104-0.8-0.6-0.4-0.200.20.40.60.8rnfmusic.wav01234567x104-0.5-0.4-0.3-0.2-0.100.10.20.30.40.5rnfwailsiren.wav012345678x104-0.8-0.6-0.4-0.200.20.40.60.81§12.2语音增强的原理和方法一、频域语音增强技术二、时域语音增强技术三、时频语音增强技术四、麦克风阵列语音降噪技术一、频域语音增强技术(宽带噪声)是语音信号中的一种重要技术,由于其原理简单所以被广泛使用,如手机中的降噪处理就是采用的此方法,其中谱相减法是频域语音增强技术的常用方法。1.谱相减法(SpectralSubtraction)的基本原理2.谱相减法的数学推导3.谱相减法的特点4.改进的谱相减算法1.谱相减法的基本原理(流程图描述)+-含噪语音纯噪声原始语音谱幅度的估值()()()xnsndn()jXe()dn()sn()jDearg(())jjXee22()()jjXeDe22()()()jjjXeDeSe()xnDFT2()jXe插入相位DFT2()jDeIDFTarg(())()jjjXeSee原始语音的频谱的估值将含噪语音信号和有声/无声判别得到的纯噪声信号进行DFT变化,从含噪语音幅度谱的平方中减去纯噪声的幅度谱的平方,然后开方,得原始语音谱幅度的估值,再借用含噪语音的相位,进行IDFT变化,得到增强的语音。谱相减法的基本原理(文字描述)2.谱相减法的数学推导首先假设语音和噪声信号是线性叠加的,且语音和噪声是平稳的,噪声与语音信号不相关。()()()()()()jjjxnsndnXeSeDe**()()()()()()jjjjjjXeXeSeDeSeDe2****222**()()()()()()()()()()()()()()()()jjjjjjjjjjjjjjjjXeSeSeSeDeDeSeDeDeXeSeDeSeDeDeSe对上式两边取数学期望有:由于噪声与语音信号不相关,且傅立叶变换不会改变信号之间的相关性,上式中,最后两项均为0。则上式简化为:222**()()()()()()()jjjjjjjEXeESeEDeESeDeEDeSe222()()()jjjEXeESeEDe利用语音信号的短时平稳性,加之噪声信号的平稳性。由于傅立叶变换不会改变信号的统计特性,在一帧中,、和都是平稳的。因此,在一帧内可用单个值来代替均值。()jXe()jSe()jDe由于平稳噪声的功率谱在发声前和发声后可以认为基本没有变化,利用有声/无声判决的纯噪声信号来估计噪声的功率谱,从而有:222()()()()()()jjjXSDXeSeDePPP21()()jXPXeN()dn()DP222()()()()()()SXDjjjPPPSeXeDe开方后,再借用含噪语音的相位arg(())()()jjjXeSeesn(1)噪声与语音信号不相关;☆幅度谱平方运算的原因222**()()()()()()()jjjjjjjEXeESeEDeESeDeEDeSe(2)平稳噪声的功率谱在发声前和发声后可以认为基本没有变化。利用有声/无声判决的纯噪声信号来估计噪声的功率谱222()()()jjjEXeESeEDe222()()()()()()jjjXSDXeSeDePPP()dn()DP☆幅度谱直接相减的缺点()()()()()()jjjxnsndnXeSeDe利用有声/无声判决的纯噪声信号来估计噪声的幅度谱()dn()jDe()()()()jjjjXeSeDeDe残留很多噪声。☆谱相减时,为了防止出现负功率谱的情况:()()()()()0()()XDXDSXDPPPPPPP☆算法流程利用窗函数进行分帧,对含噪语音进行有声无声判决,得到无声帧,统计噪声的幅度谱平方的均值,得到纯噪声幅度谱平方的估值;求含噪语音帧的幅度谱平方;将含噪语音帧的幅度谱平方减去纯噪声的幅度谱平方的估值,进行判断,开方,得到语音幅度谱的估值;借用含噪语音的相位,进行傅立叶逆变换,得到增强语音。3.谱相减法的特点(1)原理简单,只需要一个话筒,故又称为单话筒语音降噪。话音噪声谱相减法处理输出话筒(2)需要无声和有声判决,在信噪比大的情况下,使用短时平均能量等参数可达到效果。信噪比小的情况下用功率谱来进行判决。(3)由于该方法存在的前提条件要求噪声平稳,因此当噪声特性变化时,消噪效果可能会变差,这时需要重新拾取噪声特性。利用功率谱的统计进行有声和无声的检测含噪语音信号的短时功率谱统计,对每一帧输入信号,通过与预先设定的一系列门限值比较来判断该帧是信号帧还是噪声帧。(4)在谱相减过程中,是以无声帧统计噪声的幅度谱的平方(功率谱)来代替当前分析帧内中各频率点幅度谱的平方。由于噪声的随机分布的范围广,因此相减时,若该帧某频率点上的噪声幅度谱分量大时,就会有很大一部分残留,在频谱上呈现随机起伏的尖峰。在听觉上形成类似音乐的残留噪声,又称为背景音乐噪声。背景音乐噪声损伤了语音的质量,降低了可懂度和清晰度,是该类方法最大的缺点。蓝色为原始含噪语音黄色为谱相减处理的结果4.改进的谱相减算法(消除音乐噪声)进行了谱相减后,背景噪声变成了音乐噪声。如能得到音乐噪声的估计帧,就可以消除音乐噪声。音乐噪声是如何产生的:含噪语音帧和纯净噪声帧在进行谱相减后,残留的噪声引起的。含噪语音帧标准纯噪声帧纯语音的幅度谱的平方幅度谱的平方幅度谱相减残留的音乐噪声幅度谱的平方☆音乐噪声帧的获得将任意两帧纯噪声的幅度谱的平方进行相减,可作为音乐噪声幅度谱的平方的估计值。将多帧纯噪声的幅度谱的平方减去同一帧纯噪声(标准纯噪声)的幅度谱的平方,得到不同的音乐噪声幅度谱的平方的估计值。第一帧第四帧第三帧第二帧不同的音乐噪声幅度谱的平方噪声噪声的幅度谱的平方谱相减music1music2music3标准纯噪声第一次谱相减:将含噪语音的幅度谱的平方减去标准纯噪声的幅度谱的平方。第二次谱相减:将第一次谱相减的结果减去第一帧音乐噪声的幅度谱的平方。第三次谱相减:将第二次谱相减的结果减去第二帧音乐噪声的幅度谱的平方。依次类推级联谱相减含噪语音含噪语音幅度谱平方第一次谱相减标准纯噪声标准纯噪声幅度谱的平方第二次谱相减第三次谱相减第四次谱相减第一次谱相减music1music2music30100020003000400050006000700080009000050001000200030004000500060007000800090000500010002000300040005000600070008000900005000100020003000400050006000700080009000020040001000200030004000500060007000800090000200400基于DSP的谱相减算法的实时实现二、时域语音增强技术语音增强中另一常用技术,其特点是对语音的损伤小。在消噪过程中,一般需要二个以上话筒,采用自适应滤波算法。故常常将时域语音增强技术称为自适应语音降噪技术(AdaptivenoisecancelingANC)。1.自适应消噪的基本原理描述2.自适应滤波器的权系数的求解3.自适应消噪的实现4.影响自适应消噪效果的因素主话筒和参考话筒获得的信号是语音和噪声在话筒处迭加后的混合信号。话音噪声+自适应滤波器主话筒+输出参考话筒-主信号,为有用信号(来自信号源)和一个与它不相关的噪声信号的混合而成。为另外拾取的噪声参考信号,与相关。主输入信号+输出参考输入自适应滤波器+-1.自适应消噪的基本原理描述()xn()sn0()dn1()dn0()dn0()()()xnsndn1()dn0()dn()sn将参考信号通过自适应滤波器后,得到信号,此信号与基本一致。中仍然包含部分噪声,要使这部分噪声小,达到完全消除噪声的目的,则尽可能与一致。常常根据的均方误差最小的准则来调节滤波器的参数,形成自适应地修改滤波器的参数。1()dn0()dn0()dn()sn()en0()dn0()dn000()()()()()()()()xndnsndndnsnensn()en滤波器为FIR滤波器,其直接结构为:每一时刻刷新滤波器系数1()dn
本文标题:ch12语音增强.ppt
链接地址:https://www.777doc.com/doc-7107255 .html