您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 基于小波变换的语音消噪pdf
摘要语音是语言信息的载体,是人类交流信息最自然、最有效、最方便的手段。在许多情况下,人们所关心的语音信号不可避免地被其他信号所污染,影响了人们的听辨。小波变换在当今信号处理领域中是一种十分活跃的理论,小波阈值消减法是对小波分解系数进行阈值化的降噪技术。本文简要介绍了语音增强技术,主要针对基于小波变换的阈值去噪方法进行了研究,对小波阈值消噪从两个方面进行改进。一方面,通过对传统小波阈值消噪算法中的软阈值函数和硬阈值函数以及LBreiman提出的非负死区阈值函数进行分析,提出了两种改进的阈值函数。另一方面,受到谱减法思想的启发,提出了新的阈值估计思想。经实验证明,本文阈值函数和阈值估计的消噪结果保持了信号的边缘特性,并且提高了语音信噪比。关键词:小波消噪阈值估计阈值函数高斯白噪声AbstractSpeechsignalisthecarrierofthespeechinformation,andalsoisthemostnature,convenientandshortcutwayofintercommunication.Howeverinmostcases,speechsignalisdisturbedandpollutedinevitablysothatwecan'tcatchtheexplicitmeaningofthespeechsignal.Wavelettransformtheoryisoneofthemodemanalysismethods.Waveletthresholdde-noisingisade-noisingtechniquebasedonthethresholdofthewaveletcoefficients.Inthispaper,severalapproachesofspeechenhancementareintroducedbriefly-Waveletthresholdde-noisingisthemainpartinthispaper•Twoaspectsimprovementispresentedinthispaper.Inoneaspect,twonewthresholdfimctionispresentedbasedontheanalysisofthetraditionalsoft-threshold,hard-thresholdfunctionsandthethresholdfimctionpresentedbyL.Breiman.Intheanotheraspect,anewideaaboutthresholdestimationwhichisaffectedbytheideaofspectralsubtractionisproposed.Experimentresultsdemonstratethatthismethodiseffectiveinaspectofremaininggeometricalcharacteristicsofsignalandimprovingthesignal-to-noiseratio(SNR).Keywords:waveletde-noisingthresholdestimationthresholdfunctionswhiteGaussiannoise第一章绪论语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。在高度发达的信息社会,用数字化的方法进行语音的传送、存储、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。同时,语言不仅是人类相互间进行沟通最自然和最方便的形式,也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为计算机、自动化系统等建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化和自动化程度。语音处理技术,其中最重要的包括语音编码、语音合成、语音识别、说话人识别及语音增强,它的应用极其广泛,包括工业、军事、交通、医学、民用等各个领域。目前,语音处理技术处于蓬勃发展的时期,己有大量产品投放市场,并且不断有新产品被开发研制,具有及其广阔的市场需要和应用前景。在语音增强方面,小波变换出现以前,应用最广泛的是傅立叶变换。但是在利用傅立叶变换分析信号时,存在着某些缺陷,即总是假定信号为周期性信号,将待分析信号分解成周期性的正弦信号,然后根据分解得到的正弦信号提取待分析信号的频率信息和相位信息。为了分析信号的局部特征,发展了短时傅立叶变换,但是在利用短时傅立叶变换分析信号时,由于在时频平面的不同位置处分析单元的形状保持不变,既不具有频率降低时视野自动放宽的特点,也不具有频率特性品质因数恒定的特点。由于语音信号的复杂性,以及在某些方面与小波变换的相似性,从而使得小波变换在语音信号处理中有着很广泛的应用。本文主要对小波变换在语音信号处理中的应用进行了深入的研究。1.1课题的研究背景及意义语音是语言信息的载体,是人类交流信息最自然、最有效、最方便的手段。在许多情况下,人们所关心的语音信号不可避免地被其他信号所污染,即语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、电器设备的噪声以及其他说话人干扰等等。环境噪声会影响语音质量,严重的情况下语音将完全淹没到噪声中,无法分辨。这些背景噪声对人们得到语言信号中夹带的有效信息产生了很大的干扰,会引起有用语音信息的相对失效。计算机无法准确地分离出噪声与有用信息,因此要让它准确无误地执行所要求执行的操作,就必须对语音进行降噪处理。研究如何进行语音去噪的科学意义很大,它能帮助人们解决很多问题,同时它具有广阔的应用前景。较好的降噪处理结果,有利于语音信号的编码,从而也会减少数据的存储量,利于在网络中的传送。语音增强技术就是从噪声背景中提取、增强有用的信号,抑制、降低噪声干扰的技术。语音增强技术在语音识别、语音编码等方面很有应用价值。比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量就会急剧恶化。此时如果采用语音增强技术进行预处理,将有效的改善系统性能。语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。由于干扰通常都是随机的,因而从带噪语音中提取完全纯净的语音几乎不可能。因此实际语音增强的目标主要有改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦,同时提高语音可懂度,方便听者理解。但这两个目的往往不能同时实现。语音降噪处理的意义非常重大,它可以帮助我们解决许多有关听辨的问题。但是当今从事语音降噪处理研究的机构和单位并不是很多。在国外虽然有一些这方面的产品,但是这些产品往往不成熟,在实际应用中,这些产品并不能有效的降低语音信号中的噪音,提高信噪比。在国内,从事这方面研究的机构己经做成语音降噪产品的单位很少,而且在对语音降噪处理过程中并没有用到什么新的数字语音处理技术,也没有什么独特的方法,未取得较大的突破。随着社会生产的发展,对于语音信号要求更为精确细致,有用信号的提取是一种有效实用的技术,具有广泛的应用前景。由此可见,开展这方面的理论研究并能应用于实际,具有重要的现实意义^1.2语音增强的基础知识语音增强不但与信号处理技术有关,而且涉及到人的听觉感知和语音学。另外,噪声来源不同,特性也不相同,因而很难找出一种适用于各种噪声环境的增强算法。对不同噪声必须使用不同的语音增强方法。语音增强算法的基础是对语音和噪声特性的了解和分析。1.2.1语音信号的特点语音是时变的、非平稳、非遍历的随机过程。语音发声是一个时变过程,很多因素造成了发声系统的时变性,例如声道的面积随着时间和距离改变,气流速度随着声门处压力变化而变化等。但是在一段时间内(10ms-30ms),人的声带和声道形状是相对稳定的,可认为其物理特性与频谱特性近似不变,因而语音的短时谱具有相对稳定性。语音的短时特性是语音信号分析和处理的基础,利用这一特性就可以应用平稳随机过程来分析与处理语音信号。在语音分析中可以把语音信号分为若干帧,每一帧的语音可以认为是准稳定的。语音可以分为周期性的浊音和非周期的清音。浊音和清音经常在一个音节中同时出现。浊音部分和音质关系密切,在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内,是语音中大幅度高能量的部分,清音则没有明显的时域和频域特征,类似于白噪声,能量较小,在强噪声中容易被掩盖,但信噪比较高时能提供较多的信息。在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音与宽带噪声则难以区分。根据中心极限定理,傅里叶展开系数被认为是独立的高斯随机变量,均值为零但方差是时变的。语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。这种高斯模型应用于有限帧长时只是一种近似的描述,在宽带噪声污染的带噪语音的语音增强中,这种假设可作为分析的前提。1.2.2人耳的感知特性人耳的感知特性对语音增强有着重要的作用,这是因为语音增强的最终度量是人的主观感受。人的听觉系统所具有的功能是复杂的。由于人耳对背景噪声有很大的抑制作用,所以了解其机制可以在语音增强中减少运算代价。实践证明,人的主观感受(听觉)和客观实际(语音波形〉并不完全一致。语音增强一般都是作为语音识别过程中的预处理环节,其目的是从带噪语音中削减噪声,从而提取尽可能纯净的原始语音或原始语音参数,以提高语音质量。任何复杂的声音对于人耳的感觉都可以用响度、音调和音色三个特征量来描述。其中响度是人耳对声音轻重的主观反应,它取决于声音的幅度,主要是声压的函数,但与频率和波形也有关。音调是人耳对声音频率的感受。音调与声音的频率的关系是:频率高的声音听起来感觉它的音调“高”,而频率低的声音听起来感觉它的音调“低”。但音调与声音的频率并不成正比,它还与声音的强度及波形有关。音色是由于波形和泛音不同而造成的声音属性,人根据音色在主观感受上区分具有相同响度和音调的两个声音。音色是由混入基音的泛音所决定的,每个基音有其固有的频率和不同音强的泛音,因而每个声音具有各自不同的音色。语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个复杂的问题,有待进一步研究。但目前已有一些结论可以利用:(1)人耳对语音信号的幅度谱较为敏感,对相位不敏感。这一点对语音信号的恢复很有帮助。(2)人耳对于声波频率高低的感觉与实际频率的高低并不呈线性关系,而近似与该频率的对数成正比。(3)人耳具有听觉掩蔽效应,即会产生一个声音由于另外一个声音的出现,而导致该声音被感知的阈值提高的现象,也就是说强声音信号对弱声音信号有抑制作用。掩蔽的程度是声音强度与频率的二元函数。频率邻近分量的掩蔽比频差大的分量有效。(4)共振峰对于语音感知很重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。(5)人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。人类具有的这种分离语音的能力与人耳的双耳输入效应有关,称为“鸡尾酒会效应”。1.2.3噪声特性噪声的来源很多,因此噪声的特性也是多样的。根据噪声对语音频谱的干扰方式,噪声主要分为加性噪声和乘性噪声。当噪声对语音的干扰表现为两者信号在时域进行相加时,该噪声被称为加性噪声。显然噪声和语音在频域也为相加关系。在实际环境中,背景噪声可以看作加性噪声,加性噪声是对背景噪声一种比较贴切的表述。乘性噪声是指噪声和语音在频谱上是相乘的关系,在时域则是卷积的关系,因此也称为卷积噪声。有些乘性噪声可以能过变换加性噪声。从能量角度,看背景噪声和语音的声强是相加关系,因此两者共同作用所形成的含噪语音信号就是
本文标题:基于小波变换的语音消噪pdf
链接地址:https://www.777doc.com/doc-2574804 .html