您好,欢迎访问三七文档
摘要语音增强的目的是减少或消除带噪语音信号中的噪声或干扰,得到纯净语音,提升语音质量。但是,具有一般性意义的语音增强处理方法是很难找到的。语音信号和噪声信号在数学上难以区分。所以,语音增强问题是一种信号估计的问题。其解决不仅劲与语音信号的数字处理技术有关系,还会涉及对语言学和人的听觉感知特性的了解。本文介绍了目前语音增强算法的相关背景,并对基于多通道方法的ICA语音增强算法进行了详细论证和仿真。做为比较,还对同样以统计学为基础的PCA算法进行了论证和仿真。结果证明,ICA算法的语音增强能力比PCA算法要强得多。第一章绪论当今世界正处于信息时代。计算机、电子和信息技术的高速发展,推动着人类社会向信息社会不断进步。语音是人类相互之间进行交流最自然和最方便的形式之一,语音通信是一种理想的人机通信方式。人们一直梦想有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,使得计算机或家用电器可以像人一样听懂人的话语,看懂人的动作,执行人们所希望的任何任务。而语音数字信号处理正是其中一项至关重要的应用技术。语音数字信号处理是一门涉及面很广的交叉学科,其研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生理学和语言学等许多学科。其在数字话音通信、声控打印机、自动语音翻译和多媒体信息处理等许多方面都有着非常重要的应用。语音数字信号处理包含的内容十分广泛:如包括语音编码、语音识别、语音合成、说话人识别和语音增强等。在语音数字信号处理的诸多研究领域中,语音增强是语音数字信号处理系统进入实用阶段,保证语音识别系统、说话人识别系统和各种实际环境下语音编码系统性能的重要环节。人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声,通信设备内部噪声,乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语声已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。环境噪声污染使许多语音处理系统的性能急剧恶化。语音增强作为预处理手段,可以改善这些系统的性能。语音增强可以应用到许多领域中:(1)语音识别已经取得重大进展,正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。(2)低速率语音编码,特别是参数编码,也遇到类似问题。由于语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中的背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。(3)在家电智能化的实用过程中,由于噪声和其它干扰的存在,使得仅需要小词汇量的语音识别系统的识别率下降,家电对语音命令的理解受到影响。如何从背景噪声中提取语音命令信号,是语音增强算法需要完成的课题。(4)在医学领域中,在复杂语音环境下,需要帮助听力障碍的人获取正常人的听力,正确分辨说话人的位置,选择所听取的语音信号。(5)在军事领域中,如情报搜集过程中,在被监听人有意产生强干扰噪声条件下,窃听、增强出所需的有用语音信息。(6)在音乐会或影视剧同期现场录音时,有时也需要对某人的语音信号或乐器的音乐信号进行特殊的增强或抑制处理。通常情况下,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰往往都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高可懂度,这是一种客观度量。这两个目的往往不能兼得。目前,一些对低信噪比带噪语音进行语音增强的方法可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下降。由于人们对噪声的认识仍存在很大的局限性,难以找到一种通用的噪声数学模型和统一的信号处理方法。并且,语音信号和与之特性相近的噪声信号在数学上不易区分。所以,语音增强是一个特殊的信号估计问题。这一问题的解决不仅与语音数字信号处理技术有关,还涉及到对语言学和人的听觉感知特性的深入了解。在不同的条件下,语音增强的方法是不同的。例如,干扰噪声的种类不同;噪声混入纯净信号的方式不同;用于增强算法的输入通道数量不同,增强所采用的方法均有所不同。多年来,人们针对加性噪声研究了各种语音增强算法。尽管目前语音增强在理论上并未完全解决,但一些算法已证明是有效的。按输入通道的不同,语音增强算法可分为两大类:一种是基于多通道输入的语音增强算法,另一种是基于单通道输入的语音增强算法。1.1基于单通道输入的语音增强算法1.1.1基于小波变换的语音增强算法近年来,小波变换在许多领域中得到应用,其中包括语音和图像的去噪、压缩、检测和模式识别等。小波分析是近年来发展起来的一种时频局域化分析方法,特别适用于非平稳时变信号分析。小波变换能将信号在多个尺度上进行分解。由于信号和噪声在不同尺度上进行小波分解时,存在一些不同的传递特性和特征表现。所以,如果采用小波分解法,就可以通过选择不同的基,使得在相应坐标系统内的信号同噪声重叠尽可能的小,从而使信噪分离成为可能。信号的小波变换结果可以看作是信号通过一组滤波器的结果。小波变换具有一种集中的能力,可以使一个信号的能量集中于少数系数上。那么,相对来说这些系数的取值必然大于在小波变换域内能量分散于大量小波系数上的噪声的小波系数值。这就意味着可以采用对变换系数进行切割、阀值处理等方法去除噪声。基于小波变换的从带噪语音信号中估计纯净语音的一种简单方法是:首先对带噪信号进行离散序列小波变换,得到带有噪声的小波系数;然后,用设定的阀值作为门限对小波系数进行处理,仅让超过门限的那些显著的小波系数用于小波反变换来重构语音信号。算法的实现过程描述如下:(1)对带噪语音信号进行分帧;(2)对每一帧信号进行离散小波变换,得出带噪语音各尺度上的小波系数;(3)利用语音信号间隙估算噪声强度,确定各尺度;(4)对小波系数用门限进行处理,得出小波系数估计值;(5)用小波系数估计值进行离散子波反变换,得出增强后的语音信号。实验发现,运用简单的统一的阀值并不能准确的将语音信号从带噪语音中分离出来。原因是:带噪语音中,清音部分的能量和噪声能量近似。对所有的小波系数运用统一的阀值,既压缩了加性噪声,又压缩了语音中的清音分量。结果,增强后的语音质量受到影响。因此,出现了将其它一些信号处理工具和小波变换结合起来,用于语音增强处理的新方法。这些方法包括:小波域的维纳滤波算法,基于减谱法的小波滤波器组方法等。1.1.2基于听觉掩蔽效应的语音增强算法语音信号处理的基础理论和各种算法的研究包括紧密结合的两个方面。一方面是将语音作为一种信号,运用各种数字信号处理算法来对语音信号进行加工。另一方面是从语音的产生和语音的感知来对语音进行研究。语音增强算法的研究亦包括这两个方面。近年来,人们针对听觉外周提出了一些计算模型,并在语音编码、音频压缩、音质的客观度量和语音增强等方面获得了应用。在语音增强中应用的比较成功的是听觉掩蔽效应。文献中指出,语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪音信号,而使得这部分噪声不为人所感知。1.1.3信号子空间的语音增强算法在信号处理的许多领域中,有用的信息需要从一个在宽带噪声中观测的低秩向量过程中抽取。协方差矩阵的特征值分解可以揭开隐藏的低秩信息。特别地,利用特征值的大小,我们可以将协方差矩阵的几何子空间即特征子空间分解为信号子空间和噪声子空间两部分。所谓的特征子空间方法,就是用信号或噪声子空间来提取低秩信息。近年来,特征子空间方法广泛的应用在高分辨率谱估计、ARMA建模、谐波恢复、传感器阵列处理、系统辩识和信号增强中。在这些问题中,都需要从一个大的空间提取出低维子空间。这样一个步骤称为子空间分解。为了同时提高语音的音质和可懂度,YarivEphraim等人提出了基于信号子空间的语音增强算法。首先,将带噪语音信号的向量空间分解为信号子空间和噪声子空间。然后,将噪声子空间去除。最后,从剩余的信号子空间中估计出纯净语音信号。通过对带噪信号的Karhunen−Loe&ve变换(KLT)完成子空间的分解。利用两种估计准则来分别完成纯净信号的线性估计。一个准则为:使信号畸变的能量最小,同时残余噪声的能量保持在给定的阀值之下。另一个估计准则为:信号畸变的能量最小,同时保证对于每个谱分量上残余噪声的能量保持在给定的阀值之下。后一准则通过对残余噪声的频谱整形(使之近似于语音信号的频谱),使得人耳对噪声的感知较小。两种线性估计均需要估计出信号和噪声的协方差阵。假设噪声的协方差阵为正定阵,并且可以从带噪语音帧的间歇期中估计。纯净语音向量的协方差阵并不要求正定。实验证明,大部分语音向量的协方差阵有零特征值。纯净信号的协方差阵中的零特征值表明:纯净语音信号限定在带噪语音的欧氏空间的子空间中。噪声的特征值均为正值,所以噪声分布在整个向量空间中。因此,带噪语音的向量空间由信号加噪声子空间(简称信号子空间)和噪声子空间组成。通过去除噪声子空间,并从信号子空间中估计出纯净语音。线性估计通过调整KLT系数来完成,调整的过程运用了一个由估计准则决定的增益函数。1.2基于多通道输入的语音增强算法近20年来不少研究者提出了使用一个或两个麦克风来去除噪声,但由于实际环境噪声的复杂性均不能达到满意的消噪要求。而阵列信号处理采用广义旁瓣对消思想,即用“电子瞄准”的方式从声源位置获取较高品质的语音信号同时抑制其他说话人的声音及环境噪声,具有很好的空间选择性。由此麦克风阵列明显优于具有高方向性的单麦克风系统,使其成为20年来语音信号处理的一个重要分支,以及拾取语音时减小噪声和混响颇具前景的技术之一。如果系统的算法精简得当,麦克风阵列可应用于许多场合,如视频会议、机器人语音识别、车载系统环境、大型场所会议、助听装置等。麦克风阵列通过对拾取的多路语音信号进行分析与处理,使阵列形成的波束方向图主瓣对准目标语音,“零点”指向干扰源以抑制干扰信号,从而尽可能地获取目标语音。其中波束方向及波束主瓣宽度与麦克风的间距、麦克风数目、麦克风的摆放位置、声源入射角及采样频率紧密相关。波束的形成不仅消除了使用单个麦克风时需人工调节麦克风指向性问题,而且可以使输出语音的信噪比大幅度提高,从而无需人工干预亦可获得高质量的语音。1.3ICA算法介绍近几年出现了一种快速ICA算法(FastICA),该算法是基于定点递推算法得到的,它对任何类型的数据都适用,同时它的存在对运用ICA分析高维的数据成为可能。又称固定点(Fixed-Point)算法,是由芬兰赫尔辛基大学Hyvärinen等人提出来的。是一种快速寻优迭代算法,与普通的神经网络算法不同的是这种算法采用了批处理的方式,即在每一步迭代中有大量的样本数据参与运算。但是从分布式并行处理的观点看该算法仍可称之为是一种神经网络算法。FastICA算法有基于四阶累积量、基于似然最大、基于负熵最大等形式。此外,该算法采用了定点迭代的优化算法,使得收敛更加快速、稳健。用流程图的形式表现算法的流程如图:图1.11)对观测信号去均值是ICA算法最基本和最必须的预处理步骤,其处理过程是从观测中减去信号的均值向量,使得观测信号成为零均值变量。该预处理只是为了简化ICA算法,并不意味着均值不能估计出来。2)一般情况下所获得的数据都具有相关性,通常都要求对数据进行初步的白化或球化处理,因为白化处理可去除各观测信号之间的相关性,从而简化后续独立分量的提取过程。通常情况下,数据进行白化处理与不对数据进行白化处理相比,算法的收敛性较好,有更好的稳定性。3)对多个独立分量的估计,需要将最大非高斯性的方法加以扩展。对应于不同独立分量的向量在白化空间中应是正交的,算法第6步用压缩正交化保证分离出来的是不同的信号,但是该方法的缺点是第1个向量的估计误差会累计到随后向量的估计上。简单地说快速ICA算法通过三步完成:首先,对观测信号去均值;然后,对去均值后的观测信号白化处理;前两步可以看成是对观测信号的预处理,通过去均值和白化可以简化ICA算法。最后,独立分量提取算法及实现流程见流程图。Fas
本文标题:ica论文
链接地址:https://www.777doc.com/doc-4904535 .html