您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 第十一讲 语音信号处理第9章
回顾9.2动态时间规整DTW9.3孤立词语音识别9.4连续语音识别9.1语音识别概述一、语音识别的定义二、语音识别的应用三、语音识别的类型四、语音识别的方法五、语音识别的主要问题一、语音识别的定义语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。二、语音识别的应用语音识别技术是以语音为研究对象,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。随着语音识别技术的逐渐成熟,语音识别技术开始得到广泛的应用,涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业,通过采用语音识别技术,可以极大的简化这些领域的业务流程以及操作;提高系统的应用效率。1.语音识别以IBM推出的ViaVoice为代表,国内则推出Dutty++语音识别系统、天信语音识别系统、世音通语音识别系统等。2.数据库检索:对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方便。3.特殊的环境所需的语音命令:用语音发出操作指令。语音识别应用实例采用语音识别和语音合成技术,能与客户进行交互式对话,帮助客户找到他们所需要的商品。一个动作传感器可以启动系统,询问顾客“需要我帮你寻找什么吗?”如果顾客回答说“我在找面包。系统将会告诉顾客:“面包在第11过道,就是直接往前第3个过道,我们今天有WHEATIO面包特惠,需要我为您打印一张优惠券吗?语音识别用于商场导购三、语音识别的类型1.以所要识别的对象来分,有:(1)孤立词识别(字或词间有停顿,用于控制系统)(2)连接词识别(十个数字连接而成的多位数字识别或由少数指令构成词条的识别,用于数据库查询、电话和控制系统)(3)连续语音识别和理解(自然的说话方式)(4)会话语音识别(识别出会话语言)2.根据识别的词汇量来分,有:(1)大词汇(1000个以上的词汇,如会议系统)(2)中词汇(20~1000个词汇,如定票系统)(3)小词汇(1~20个词汇,如语音电话拨号)3.根据讲话人的范围来分,有:(1)单个特定人(2)多讲话人(有限的讲话人)(3)与讲话者无关四、语音识别的方法模板匹配法DTW随机模型法HMM概率语法分析法神经网络方法模板匹配法将测试语音与模板的参数一一比较特定人、小词汇、孤立词识别系统动态规划,动态时间规正DTW判决依据失真度最小准则距离最小准则相似度最大准则难以实现鲁棒语速,讲话人,噪声…随机模型法利用HMM概率参数来对似然函数进行估计与判决,从而得到识别结果的方法通过HMM的状态函数,较好地利用了语言结构的动态特性概率语法分析法利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决区别性特征+语法规则+知识形式语法参数方法概率估计的非参数方法结合适用于大长度范围的连续语音的识别1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。2.语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。五、语音识别的主要问题3.语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。4.上下文影响。单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。5.环境噪声和干扰对语音识别有严重影响,致使识别率低。9.2动态时间规整一、动态时间规整的定义二、动态时间规整的原理描述三、动态时间规整的应用一、动态时间规整的定义一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序。其中各音素持续时间的长短与音素本身以及讲话人的状况有关。为了提高识别率,克服发同一音而发音时间长短的不同,采用对输入语音信号进行伸长或缩短直到与标准模式的长度一致。这个过程称为时间规整。二、动态时间规整的原理描述60年代由日本学者提出,算法的思想是把未知量伸长或缩短(压扩),直到与参考模板的长度一致,在这一过程中,未知单词的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。DTW是把时间规整和距离测度计算结合起来。测试语音参数共有N帧矢量,而参考模板共有M帧矢量,N和M不等,寻找一个时间规整函数m=,它将测试矢量的时间轴n非线性地映射到模板的时间轴m上,并使该函数w(n)满足:原理描述()1min[(),(())]NnnDdTnRn第n帧测试矢量T(n)和第m帧模板矢量R(m)之间的距离测度D:最优时间规整情况下所有矢量帧间的距离,代价函数[(),(())]dTnRn()nABmnmn时间规整函数m=为了使T(测试)的第n个样本与R(参考)的第m个样本对正,其对应的点不在直线对角线上,得到1条弯曲的曲线。m=称为规整函数。()n()n时间规整就是按照两模式之间的所有矢量帧间的距离最小(D,代价函数最小)的原则,不断计算两模式间的距离,以寻找最优的路径,一般应使规整函数满足下列条件:规整函数在A和B的端点必须匹配,有:起点:n(i)=m(i)=1终点:n(i)=Nm(i)=M为了防止漫无目的从(1,1)搜索到(N,M),因此对两点之间路径的斜率予以规定,最大为2,最小为1/2。时间规整过程()n()nnmMN11(1,1)(N,M)m-M=(n-N)/2m-M=2(n-N)m=n/2m=2n全局最优nm(ni-1,mi-1)(ni-1+1,mi-1+1)(ni-1+1,mi-1)(ni-1+1,mi-1+2)(ni,mi)=(ni-1+1,mi-1+2)(ni,mi)=(ni-1+1,mi-1+1)(ni,mi)=(ni-1+1,mi-1)()iimn(ni,mi)nm(ni-1,mi-1)(ni-1,mi-2)(ni-1,mi)DTW算法的实现123t为测试特征模板,r为参考特征模板n为测试特征模板长度(帧数)m为参考特征模板长度(帧数)比较两帧的欧式距离(i,j)DTW算法的实现DTW的高效算法(Xa,y)C(Xb,z)OA,B,C三点的坐标如图所示,且直线OA,BC的斜率k1=2,直线OB,AC的斜率k2=0.5,所以列写直线OA和CA的方程并整理可得上式。k1=2k2=0.5[1,Xa][Xa+1,Xb][Xb+1,N]XaXbNMxyDTW的高效算法DTW高效算法程序见《MATLAB扩展编程》第347-349页.三、动态时间规整的应用DTW算法简洁,运算量小,适合小型的孤立词的识别。例如语音计数器,语音呼叫电话等。语音采样和量化端点检测LPC倒谱分析DTW的识别算法语音模板识别结果输出开始9.3孤立词语音识别系统由于在孤立字(词)识别中,单词之间有停顿,可使识别问题简化;单词之间的端点检测比较容易;单词之间的协同发音影响较小;一般对孤立单词的发音都比较认真等。所以这种系统存在的问题较少,较容易实现。由于此系统本身用途甚广,且其许多技术对其他类型系统有通用性并易于推广,所以稍加补充一些知识即可用于其他类型系统(如在识别部分加用适当语法信息等,则可用于连续语音识别中)。训练孤立词语音识别系统框图特征提取模板(模型)语音结果模式匹配拒识匹配结果基于DTW的模式匹配;基于VQ的模式匹配;基于HMM的模式匹配;基于SVM的模式匹配;基于混合技术的模式匹配识别9.4连续语音识别系统在连续语音识别系统中,一段语音信号(例如一个句子)经特征提取后,得到一个特征矢量的时间序列,假设该特征矢量序列可能包含的一个词序列为,那么连续语音识别的任务就是找到对应观测矢量序列的最可能的词序列。这个过程如果按照贝叶斯准则就是:在连续语音识别系统中利用语言模型的目的是找出符合句法约束的最佳单词序列,并且减少观测矢量序列和词序列的匹配搜索范围,提高识别效率。IaaaA,,,2112...nAˆ)()/(maxarg)()()/()/(maxargˆAW声学处理语音解码词表匹配语音模型词表语言模型语言解码语音信号音节阵列连续语音识别原理图声学特征词阵列声学模型HMM连续语音识别一般过程1.前向后向算法计算P(O|λ);2.Baum-Welch算法求出最优解λ*=argmax{P(O|λ)};3.Viterbi算法解出最佳状态转移序列;4.根据最佳状态序列对应的λ给出候选音节或声韵母5.通过语言模型形成词和句子Baum-WelchRe-estimationSpeechdatabaseFeatureExtractionConverged?l1l2lNHMMwaveformfeatureYesNoendHMM语音识别训练过程MAXRecognizedwordSpeech特征提取似然概率计算l1似然概率计算lV...P(X|l1)P(X|lV)HMM1HMMVHMM语音识别过程...汉语语音建模基元比较建模基元模型数目可训练性稳定性应用情况音节约400个一般好较普遍声韵母约60个较好较好很普遍音素约40个好一般较少HMM用于SR的参数设置状态数目Rabiner等人1983年的实验表明,状态数目超过5个对识别率没有改善很多的实验也认为具有5~6个状态的HMM对孤立词的识别已足够了而对音素或声韵母的HMM模型,一般2~3个状态就比较合适了适用于语音识别的HMM模型结构“从左到右”的HMM模型普通的HMM被认为是全状态转移的,但在应用中可以对状态转移加以适当的限制通常把状态转移矩阵A限制为上三角的,这样状态转移只发生在Si到Sj之间(ij),这样的HMM称为“从左到右”的HMM这种模型的拓扑结构包含了时间信息,因为前面状态的输出观察值必定在后面状态的输出观察值之前,从而适应了语音的时序性对于“从左到右”模型,其初始状态始终在第一个状态,并且认为多套训练样本是相互独立的,因此稍微修改可以得到其训练算法。作业1.编程实现基于DTW的10个数字0~9的识别2.编程实现基于HMM的10个数字0~9的识别
本文标题:第十一讲 语音信号处理第9章
链接地址:https://www.777doc.com/doc-3189816 .html