您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 会议纪要 > 会议语音的混响消除及其大词汇量连续语音识别的研究
厦门大学硕士学位论文会议语音的混响消除及其大词汇量连续语音识别的研究姓名:崔文迪申请学位级别:硕士专业:计算机应用技术指导教师:蔡骏20080501会议语音的混响消除及其大词汇量连续语音识别的研究作者:崔文迪学位授予单位:厦门大学相似文献(5条)1.学位论文谢锋基于麦克风阵列的声源定位方法研究2008基于麦克风阵列的声源定位是有效声源提取的前提和基础,其技术在多媒体通信中得到了广泛的应用。麦克风阵列已广泛应用于音/视频会议、语音识别及增强等领域。声源定位是阵列信号处理的主要任务之一,是实现空间滤波的基础。基于阵列的定位算法分为超分辨算法和非超分辨算法。非超分辨类算法的定位精度受到阵列孔径的限制,只能用于定位精度要求较低的情况。超分辨类算法定位精度可以突破瑞利限,在一定条件下可以实现任意定位精度,具有极大的应用价值。传统的超分辨算法假设信源为窄带远场平稳信号,而麦克风阵列处理主要针对宽带短时平稳的语音信号,且声源可能位于阵列的近场,这导致DOA估计算法不能通用。本文从上述应用背景出发,讨论了基于麦克风阵列的声源定位技术,分析了该技术所涉及的相关算法,包括四个部分:谱抵消、多频非平稳信号处理、改进的Music算法、近场最小方差波束形成。本文还讨论了基于阵列麦克风的通用阵列语音信号处理系统硬件平台的设计。该硬件平台可为实现各种阵列语音信号处理算法提供硬件支持,以AD-DSP-DA为核心,使用12通道AD采样语音,在DSP中完成浮点算法,最终DA得到处理后的语音。2.学位论文居太亮基于麦克风阵列的声源定位算法研究2006麦克风阵列已广泛应用于音/视频会议、语音识别及增强等领域。声源定位是阵列信号处理的主要任务之一,是实现空间滤波的基础。基于阵列的定位算法分为超分辨算法和非超分辨算法。非超分辨类算法的定位精度受到阵列孔径的限制,只能用于定位精度要求较低的情况。超分辨类算法定位精度可以突破瑞利限,在一定条件下可以实现任意定位精度,具有极大的应用价值。传统的超分辨算法假设信源为窄带远场平稳信号,而麦克风阵列处理主要针对宽带短时平稳的语音信号,且声源可能位于阵列的近场,这导致DOA估计算法不能通用。基于麦克风阵列的声源多维定位与传统的信源定位相比,主要存在如下问题:1.宽带信号:在窄带条件下,阵元之间的相位差可以近似认为是信号源位置的函数,频率为一常量;而语音信号为宽带非调制信号,阵元之间的相位差为频率和信号源位置的复合函数。2.近场源信号:在麦克风阵列处理中,因为应用环境不同,声源可能位于阵列的近场或远场,而传统的阵列信号处理均假设信源位于阵列的远场。3.空间干扰源:在室内环境中,空间干扰源和语音信号同时辐射到阵列上,严重影响定位性能。4.多维定位:麦克风阵列应用一般需要二维/三维定位,传统的阵列处理算法主要针对一维DOA估计。本文围绕这些问题,提出了几种声源定位算法,实现了声源多维定位,主要工作如下:1.提出了基于麦克风阵列的近场信号模型:根据语音的传播特性和阵列处理的要求,提出了基于球面波前的近场信号模型,该模型综合考虑了阵元之间的幅度衰减和时延两个因素。当信源与阵列的距离较远时,阵元接收信号之间的幅度差异减小,该模型可以退化为远场信号模型。针对多维定位问题,提出了麦克风阵列的一般设计原则,并设计三种麦克风阵列:二维均匀圆环麦克风阵列、三维均匀直线麦克风阵列和三维均匀球面麦克风阵列。2.提出了声源多维定位MUSIC算法:把接收信号分成若干个窄带信号,根据子空间分解原理,把这些窄带信号划分为信号子空间和噪声子空间,推导出了声源多维定位MUSIC算法。3.提出了声源多维定位聚焦算法:根据聚焦理论,以每个频率点的相关矩阵和参考频率点的相关矩阵的均方误差最小为最优聚焦准则,提出了一种不需要预估计和迭代的声源多维定位聚焦算法,减少了运算量,提高了定位性能。4.提出了色噪声下的声源多维定位子阵算法和预白化算法:根据室内环境噪声分布特点,把阵列分成两个位置不同的子阵,调节子阵的位置,使阵列接收相同的语音信号和不相关的方向噪声,利用两个子阵的互相关矩阵,实现声源定位,抑制方向噪声的影响。由于通道不一致以及回声等因素的影响,使得阵列接收的噪声信号不满足空间白,本文提出了一种预白化算法,来抑制色噪声对声源定位的影响。采用二维均匀圆环麦克风阵列、三维均匀直线麦克风阵列和三维均匀球面麦克风阵列,通过MATLAB仿真,验证了本文提出的几种声源多维定位算法。3.学位论文马晓红传声器阵列语音增强中关键技术的研究2006语音信号处理是现代通信、多媒体技术及人工智能系统等众多领域应用的核心技术之一。人们在获得语音信号的同时,不可避免地会受到环境噪声、房间混响以及其他说话人的话音干扰。语音增强作为前置处理方案是抑制干扰的一种有效途径。采用常规的单传声器技术,虽然可以对噪声进行一定的抑制,但由于可利用的信息仅限于时/频信息,因此,在强混响环境下,或者是存在干扰语音源时,其干扰抑制效果并不理想。利用传声器阵列提供的空域和时/频信息,则有可能较好地解决这些问题。传声器阵列系统已经广泛应用于视频会议、语音识别、说话人识别、汽车环境语音获取、混响环境声音拾取、声源定位和助听装置等场合和设备中。上述这些应用情况归纳起来,最主要的两大类应用是传声器阵列声源定位和传声器阵列语音增强。传声器阵列语音增强作为传声器阵列技术的重要应用之一,涉及时延估计、语音活动检测和语音增强方法三项关键技术。本文重点研究了这三项关键技术。1.研究了互功率谱相位时延估计方法。该方法是基于时延估计问题的理想模型提出的,仅适用于高信噪比和弱混响情况。为了使该方法适用于低信噪比和中度以上混响情况,本文对互功率谱相位时延估计方法的性能进行了分析,找出了低信噪比和中度以上混响时其性能下降的原因,给出了两种改进的加权函数形式,改善了该方法在低信噪比和中度以上混响情况下的时延估计性能。2.在混响情况下,研究了自适应特征值分解时延估计方法。本文对该方法的时延估计性能进行了分析,表明该方法仅适用于弱噪声情况。针对这一问题,本文给出一种小波域的自适应特征值分解时延估计方法,并对其收敛性能进行了分析。该方法利用小波变换抑制噪声,在信噪比最高的尺度下,应用自适应特征值分解方法进行时延估计,改善了自适应特征值分解时延估计方法在低信噪比情况下的时延估计性能。3.现有的传声器阵列语音活动检测方法大都是基于单路信号的检测技术,即每一路传声器信号利用单路语音活动检测方法分别进行检测,运算量较大。针对这一问题,本文利用传声器阵列中声源信号之间仅存在时间延迟这一特点,通过对增强后的语音信号进行语音活动检测,以该语音活动检测结果为参考,分别平移相应的时间,同时获得了阵列多路信号的语音活动检测结果。针对相关噪声情况,本文给出一种结合独立分量分析的传声器阵列语音活动检测方法;为了将该思路推广到不相关噪声情况,本文给出一种基于噪声类型判别的传声器阵列语音活动检测方法。4.针对仅存在噪声的情况,研究了波束形成类传声器阵列语音增强方法。考虑到固定波束形成方法仅适用于抑制不相关噪声,为了使其适用于相关噪声情况,本文给出一种基于小波变换和波束形成的语音增强方法,并对小波阈值去噪方法进行了改进,给出一种自适应小波阈值去噪方法;广义旁瓣抵消器仅适用于抑制相关噪声,为了使其对不相关噪声也同样具有较好的噪声抑制能力,本文将独立分量分析技术引入其中,给出一种基于独立分量分析和波束形成的语音增强方法。5.针对同时存在噪声和混响的情况,研究了子带盲源分离和后置处理语音增强方法。理论分析和计算机仿真实验结果表明,该方法对混响、不相关噪声和弱相关噪声的抑制效果不明显,并且对语音信号有一定程度损伤。为了将该方法应用于实际环境,对基于子带盲源分离和后置处理的语音增强方法进行了改进,仅在分离效果不佳的子带内进行自适应噪声抵消,从而进一步提高了语音信号的质量。4.学位论文吴俣基于麦克风阵列的声源定位技术的研究2008麦克风阵列已广泛应用于音/视频会议、语音识别及增强等领域。声源定位技术是基于麦克风阵列的阵列信号处理的关键技术之一,是语音信号处理领域的一个新的研究热点。本论文针对基于麦克风阵列的声源定位技术展开研究,主要做了以下几方面工作:总结归纳了目前基于麦克风阵列的声源定位技术的几类基本方法的原理及优缺点,并利用声线跟踪法建立了混响环境下的房间脉冲响应模型。由于语音信号及室内声场环境的特殊性,提出了语音信号的预处理,包括预滤波、加窗分帧处理、语音端点检测等。在实际应用中,语音信号有可能位于近场,也可能位于远场,所以分别对近场、远场这两种情况下的声源定位技术进行了研究。在近场的情况下研究了近场可控波束定位算法和基于高阶统计量的近场声源定位算法两类。对于近场可控波束定位算法,在传统定点约束波束形成的基础上,推导出了近场定点波束新的表达式,把基于自校正的稳健的自适应波束形成应用于近场。对于基于高阶统计量的近场声源定位算法,把传统的近场源定位方法和3-D类ESPRIT算法用于研究声源定位问题,都得到了很好的定位效果。在远场的情况下研究了基于子空间的声源定位算法。基于子空间的远场声源定位分为两个步骤:估计语音信号的二维角度和确定语音信号的位置。2-DMUSIC算法能够精确的估计基于任意阵列的语音信号的二维角度——俯仰角和方位角,然后把基于子空间的测向算法和定位算法结合起来,提出了新的基于麦克风阵列的远场定位算法——垂心定位法。该方法与传统的测向交叉定位法相比精度更高,抗噪性更好。5.学位论文肖华麦克风阵列的校正方法研究2008传统单只麦克风系统只能在时域、频域对语音进行处理,而麦克风阵列系统引入了声源的空间信息,增加了空域处理,可实现声源定位、方向性干扰抑制、语音分离等功能。它可广泛应用于助听器、车载电话、视频会议、语音识别、多媒体教室、战场侦听等环境。目前,基于麦克风阵列的语音处理算法层出不穷,仿真结果证明这些算法的有效性。但在实际应用中,以子空间算法、自适应波束形成算法为代表的麦克风阵列语音定位、增强算法性能不理想。为了提高这些算法在实际应用中的性能,本文对此进行了初步的研究。本文首先阐述了两种典型的麦克风阵列语音定位、增强算法,将它们作为算法性能分析基础。其次研究了造成这些算法性能下降的主要原因,即麦克风阵列误差。利用系统的观点和方法,对其建模。在此基础上,提出了一种包含麦克风阵列误差的改进阵列模型。其次研究了解决方法,即麦克风阵列模型误差校正方法。按照校正声源位置是否已知,麦克风阵列校正方法可划分为有源校正和自校正。利用子空间特性,提出了一种有源校正方法,并在此基础上提出了一种鲁棒的声源定位算法。利用对称性,提出了一种自校正方法。最后给出两种方法的比较和结论。本文的创新点在于:(1)提出了一种改进的麦克风阵列模型。该模型考虑了麦克风阵列幅度、相位以及阵元位置误差,可应用于任意几何形状的平面阵列,可推广到多维阵列。与传统麦克风阵列模型相比,该模型更接近实际情况。(2)提出了一种有源校正方法。该方法可对麦克风阵列幅度、相位以及阵元位置误差进行校正,具有较高的精度。为解决该方法的相位模糊问题,提出了一种改进的模型误差估计算法,并在此基础上,提出了一种鲁棒的声源定位算法。在麦克风阵列存在误差的情况下,该定位算法仍然保持较好的性能。(3)提出了一种自校正方法。该方法不需要校正声源的精确方位,利用对称性,可对麦克风阵列幅度、相位误差进行校正。它具有性能较好,运算量小,方便易行的特点。本文链接:授权使用:上海海事大学(wflshyxy),授权号:d3346bd4-90b3-4d13-b326-9e08014f72ed下载时间:2010年10月7日
本文标题:会议语音的混响消除及其大词汇量连续语音识别的研究
链接地址:https://www.777doc.com/doc-907107 .html