您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于视觉信息的语音识别技术研究
上海大学硕士学位论文基于视觉信息的语音识别技术研究姓名:刘家涛申请学位级别:硕士专业:计算机应用技术指导教师:陈一民20080201基于视觉信息的语音识别技术研究作者:刘家涛学位授予单位:上海大学相似文献(10条)1.期刊论文刘鹏.王作英.LIUPeng.WANGZuoying多模式语音端点检测-清华大学学报(自然科学版)2005,45(7)在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息.该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统.实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降.这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法.2.学位论文叶甜香语音信号中类视频特征的提取方法研究2006在过去的几十年中,语音识别技术取得了巨大进展,特别是1984年Petajan开拓性的将视觉信息引入语音识别研究后,听觉视觉双模态语音识别(Audio-visualbimodalSpeechRecognition,AVSR)技术比单纯的听觉语音识别在性能上有了显著提高。但是视觉信息(主要指口型信息)的提取和处理却存在一些困难和缺陷,为了克服这方面的困难并尽量保持口型信息对语音识别的辅助作用,本文根据语音产生的双模态性,从挖掘语音信息和视觉信息固有关系的角度提出了从语音信号映射出类视频口型特征的新的口型特征的提取方法。本文以汉语普通话为例,对从语音信号中提取用于辅助语音识别的类视频口型特征的方法进行了探讨性的研究。本文首先分析了汉语发音的特点,并根据声母和韵母的发音特点分别对声、韵母的口型进行了聚类分析,再按类定义了表征类视频口型特征的一组参数。接着对语音信号特征进行分析比较,选取了LPCC倒谱系数作为声学特征,并对特征参数提取的实现方法进行了较详细的说明;另外还对映射方法进行了分析比较,选取了具备映射动态特征功能和适应时变特性能力的Elman递归神经网络作为映射工具。然后利用前面的准备工作进行具体的实验研究,通过一系列的实验、实验结果分析比较、实验改进、再实验过程,得到了较好的音视频映射结果,也验证了从语音信号中提取用于辅助语音识别的类视频口型特征的可能性。3.学位论文陈庆利基于音频和视觉特征的语音端点检测2007随着语音识别技术越来越广泛的应用,语音识别技术也受到越来越多的重视。语音识别技术在50年来取得了很大进展,识别的正确率得到了很大的提高,使得语音识别技术在教育、电子商务、电话语音拨号、各种语音门户、语音玩具等领域的应用越来越广泛,并逐渐覆盖各个应用领域。语音端点检测技术是利用数字处理技术检测出语音信号中的各种段落的起始点和终点位置,其目的就是在复杂的带噪声环境下的声音信号中分辨出语音信号和非语音信号,它是语音识别中最关键的技术之一,其性能的优劣将直接影响到语音识别系统的正确率。传统的基于音频的语音识别技术是单一地关注声音信号的研究,这种只将音频信号作为研究对象的的最大缺点就是系统的噪声鲁棒性差,特别是在强噪声环境下,这些语音系统的识别率会显著地降低,使得语音识别的应用受到很大的限制。同时,人类的语音过程不仅仅是声音信号的产生,它还伴随着与之相关的发声器官的视觉体现,其中又以唇形的变化最为重要。由于语音信号的这种特殊性,语音的音频信号和视觉信号之间必然存在内在的联系,语音信号的声学特征和视觉特征具有很好互补性和冗余性。因此将和语音信号相伴的语音视觉信息引入到语音端点检测将有助于语音识别率的提高,这也正是本文最大的贡献。第一章是绪论部分,介绍了语音端点检测的概念、基于音频的传统语音端点检测的弊病以及引入语音视觉特征的意义。第二章阐述了基于听觉特征的语音端点检测的过程以及语音端点检测的常用技术,并给出了一种时频和频域方差的语音端点检测算法,它能检测出语音端点的4种状态:无语音状态、过渡状态、语音状态和结束状态,并给出了这4种状态之间的转换关系。第三章介绍了引入语音视觉特征原因,并对人脸检测的算法作了一个概要性的描述,给出了现在常用的几种方法:特征组分析法、ASM法以及线性子空间法。考虑了2个对视觉信息有影响的主要的因素:光线和人的头部的运动,并给出了相应的解决办法。给出了嘴唇定位和提取的过程;ROI定位、PCA、LDA提取,通过这些方法能从图像中检测到人脸,并定位到嘴唇信息。最后介绍了一种将前面的特征法和线性子空间法结合在一起的分段人脸特征检测算法——分和法,并给出了详细的描述。第四章提出了基于视觉特征的3种语音端点检测技术:基于图像的比较方法(将图片中的嘴唇部分提取出来和无语音状态下的嘴唇图像进行比较,如果该图像和无语音状态的图像之间的不同像素点数在一个门限值以上,则认为这2幅图片不一样,即说明该图像是处于语音状态)、基于FAP的方法(检测出嘴唇的FAP点,判断这些点与MPEG-4中定义的FAPSilence点是否相同,若相同,则表示是非语音状态,否则表示为语音状态和FAP点距离的判断进行判断是否处于语音状态)以及基于唇动函数的方法(给出一个内外嘴唇函数,通过这个函数描述,判断嘴唇是否处于运动状态,若是则为语音状态,否则为无语音状态),并给出了这些方法的具体实现。第五提出了基于音频和视频融合的端点检测技术,讨论了基于音频和视频在不同噪声状态下各种技术的适用情况:当语音信号很强时,则以音频识别为主,辅助视觉检测;当噪声很强时,以视觉识别为主,辅助音频检测;当2者相差不多时,同时结合2者进行识别:详细讨论了各种可能出现的状态下的语音端点检测。做了以上分组实验,给出了具体的实验结果,实验表明基于音频和视频的联合语音端点检测技术有助于语音识别率的提高。第六章是全文的总结,给出了基于音频和视频的语音端点检测技术存在和问题和今后研究方向的探讨。4.会议论文刘鹏.王作英多模式汉语连续语音识别中视觉特征的提取和应用2003本文讨论了多模式汉语语音识别系统的整体模型和视觉特征利用中的若干关键技术.我们给出了基于多流隐马尔科夫模型(Multi-streamHiddenMarkovModel,MSHMM)的听视觉融合方案,并对于用最小错误准则进行音频和视频流权重训练进行了简单介绍.并着重对系统中有关视觉特征的几项主要技术:嘴唇定位、视觉特征提取(VisualFeatureExtraction,VFE)和听视觉融合加以详细讨论.首先,我们研究了基于模板匹配的嘴唇跟踪方法;然后研究了基于数据驱动的线性变换的低级视觉特征提取方法,并与基于唇形的动态形状模型特征提取作了比较;实验结果表明,引入视觉信息以后,在干净的语音环境下,连续语音识别系统的声学层产首选字错误率相对一降了36.09﹪,而在噪声环境下,系统的鲁棒性也有明显提高.5.学位论文吕品轩基于唇语身份识别的特征鉴别力分析2007现在出现了许许多多的语音识别系统,而且也取得了不错的识别效果。但语音识别系统忽略语言的视觉特性,仅仅利用听觉特性,使得语音识别系统在噪声环境下,识别率大大下降。生活经验告诉我们,在人与人交流的过程中,人们在理解他人讲话内容时不仅通过声音来感受信息,而且还用眼睛观察对方口型、表情的变化,视觉信息是对声音信息的有利补充。所以要克服语音识别系统的弱点,利用唇语是一个不错的解决方法。初步的研究表明,将听觉语言与嘴唇视觉信息进行融合能有效地改善识别率,特别在噪声环境下,效果更为明显。所以有必要对唇语进行研究。目前唇语识别的研究主要包括两个方面,基本内容的认知和人物身份的鉴别。现阶段,国内外一些学术机构对唇语的研究主要是基于说话者内容的识别,而对人物身份的鉴别研究相对较少。鉴于此,本文将对基于唇语识别的身份识别进行尝试性研究,着重对表征嘴唇模型所用不同的特征和特征组合进行特征鉴别力分析,以期获得更好的视觉特征来描述嘴唇轮廓。本文首先介绍了唇语识别技术的发展历史和现状,而后根据经典唇语识别系统识别流程,详细介绍了各个流程所涉及的理论背景和关键技术。其中,特征选取与提取的部分是本文研究重点,最后通过分析隐马尔科夫分类器的识别结果作为判别各种特征及特征组合辨别力高低的标准。嘴唇特征的提取是唇语识别系统最为重要的一环,能否选择有效的嘴唇特征来描述嘴唇模型,对整个识别过程起着至关重要的影响,特征类型多种多样,纷繁芜杂,需要通过大量的实验积累和数据分析,才能分辨出不同特征组合鉴别力的优劣和高低。特征的选取取决于特征提取的算法,本文采用的是14点主动形状模型。相应地,我们选择了嘴唇模型的宽,高形状特征,通过曲线拟合得到的参数组合作为几何特征,以及几何和形状特征对应的一阶二阶动态特征,再对这些特征进行不同的组合,通过大量的实验进行特征辨别力分析。实验结果表明,本文所取特征均为有效特征,能够达到一定的识别率,但与国外的研究结果还有一定差距,所以个人还有更多的工作要做,还有更长的路要走。6.学位论文王晓平计算机唇读技术研究2009人类对语言的感知是多通道的,人在识别和理解他人说话内容时除了利用听觉来感知信息外,常常还利用了视觉信息如唇动来提高准确性。对于噪声环境下或是听力障碍者的语言感知而言,视觉信息的重要性则更为突出。计算机唇读技术正是在这样一种背景需求下产生并涉及到计算机视觉、图像处理、模式识别、人机交互等诸多领域,它是指利用计算机对说话者的唇动等视觉视频信息进行分析以识别出说话内容的过程,并可与听觉语音信息融合以进一步提高识别率,从而使人机交互更加自然。本文在建立了汉语视音频双模态数据库SEU-CAVD的基础上,针对非特定人自动语音识别技术进行了系统研究,主要创新点如下:1)在语料库的分割方面:将语音波形图的聚类问题转化为图像处理中的直方图分割问题并进而提出了一种新的连续语音分割方法,有效避免了传统方法依据预设阈值分割可能产生的误检、漏检,提高了分割的准确性。2)在唇部定位及跟踪方面:提出了一种结合YCbCr、HSV两种颜色空间优点的(CbCrS)肤、唇色模型,增强了肤、唇色的分离效果,并通过在Fisher变换的基础上加入亮度预处理、Otsu法、唇色验证的级联后处理环节,获得了更好的二值化结果,提高了唇部定位的精确性。同时提出采用高斯混合模型对嘴唇区域进行采样、建模,将传统的肤色和唇色分开处理的过程合二为一,不但使采样操作量减少了一半,而且通过一次建模即可同时获得二者的聚类分布,符合了人机交互走向自然化的趋势。3)在唇动特征提取方面:针对形状参数特征可靠性低和信息的不全面性,引入精定位区域参数特征和能量特征进行唇读识别,在依然具有低维度优点的前提下,纯视觉通道最高识别率从36.25%提高到44.25%。在基于能量的唇动视觉特征提取方面,提出结合全局低频信息和局部增强边缘信息进行唇读识别,识别性能优于其中任一单特征的识别性能,并在二维DCT系数维数取49和99时分别获得了54.00%和55.50%的纯视觉通道识别率。4)在视、音频通道融合方面:从改进融合模型的角度出发,在邓勇方法[127]的基础上,提出了综合考虑证据可信度和重要度的改进融合方法,并改进了音频权系数与信号信噪比之间的关系式,据此可按音频质量自动确定更合理的融合系数,融合识别性能优于经典Dempster-Shafer方法和邓勇方法。7.期刊论文刘鹏.王作英多模式汉语连续语音识别中视觉特征的提取和应用-中文信息学报2004,18(4)本文对在汉语多模式汉语语音识别系统中利用视觉特征进行了研究,给出了基于多流隐马尔科夫模型(Multi-streamHMM,MSHMM)的听视觉融合方案,并对有关视觉特征的两项关键技术:嘴唇定位和视觉特征提取进行了详细讨论.首先,我们研究了基于模板匹配的嘴唇跟踪方法;然后研究了基于线性变换的低级视觉特征,并与基
本文标题:基于视觉信息的语音识别技术研究
链接地址:https://www.777doc.com/doc-46867 .html