您好,欢迎访问三七文档
随机过程在测控技术与仪器中的一些应用摘要随机过程(StochasticProcess)是一连串随机事件动态关系的定量描述。随机过程论与其他数学、物理分支如位势论、微分方程、复变函数论、力学等有密切的联系,是在自然科学、工程科学及社会科学各领域研究随机现象的重要工具。随机过程论已得到广泛的应用,在诸如天气预报、统计物理、天体物理、运筹决策、经济数学、安全科学、人口理论、可靠性及计算机科学等很多领域都要经常用到随机过程的理论来建立数学模型。本文主要针对随机过程在测控技术与仪器中语音识别系统中的一些应用。关键词隐马尔科夫模型语音识别随机过程概率模型Viterbi算法一、语音识别技术概述语音识别系统本质上是一种模式识别系统,目前有很多语音识别算法,但其基本原理和基本技术相似。一个完整的语音识别系统一般都包括有特征提取、模式匹配和参考模式库3个基本单元,它的基本结构如图1所示。(1)特征提取所谓特征提取就是从语音信号中提取用于语音识别的有用信息,其基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质特征的参数抽取出来,如平均能量、平均跨零率、共振峰、LPC系数、MFCC系数等。(2)模式匹配这是整个语音识别系统的核心,它是根据一定规则(如HMM)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与参考模式库之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息,得到最佳的识别结果。(3)参考模式库在识别之前首先建立参考模式库,通过讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。二、隐马尔科夫模型介绍隐含马尔可夫模型是一种随机过程模型,该模型假设外界可观察到的观察矢量序列是由模型隐含层中的一串状态序列产生的。在语音识别系统中,模型的观察矢量即为语音特征矢量,而模型中的状态序列则对应了语音的内容,一套隐含马尔可夫模型由三组参数唯一确定,状态初始概率分布矢量,转移概率矩阵和输出概率密度分布函数矩阵。隐马尔可夫模型(HiddenMarkovModel,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:1.隐含状态S这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如S1、S2、S3等等)2.可观测状态O在模型中与隐含状态相关联,可通过直接观测而得到。(例如O1、O2、O3等等,可观测状态的数目不一定要和隐含状态的数目一致。)3.初始状态概率矩阵π表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵π=[p1p2p3].4.隐含状态转移概率矩阵A。描述了HMM模型中各个状态之间的转移概率。其中Aij=P(Sj|Si),1≤i,,j≤N.表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。5.观测状态转移概率矩阵B(英文名为ConfusionMatrix,直译为混淆矩阵不太易于从字面理解)。令N代表隐含状态数目,M代表可观测状态数目,则:Bij=P(Oi|Sj),1≤i≤M,1≤j≤N.表示在t时刻、隐含状态是Sj条件下,观察状态为Oi的概率。总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。三、语音识别三种主流技术比较2.1基于动态时间规整DTW(DynamicTimeWarping)的识别算法DTW和模板匹配技术直接利用提取的语音特征作为模板,此算法从20世纪90年代就进入成熟期,其应用动态规划方法成功解决了语音信号特征参数序列比较时长不等的难题,在孤立词语语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型所取代。2.2基于隐马尔科夫模型HMM(HiddenMarkovModel)的识别算法HMM方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM的。HMM算法很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音识别模型。不足之处在于统计模型的建立需要依赖一个较大的语音库,这在实际工作中占有很大的工作量,且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大。2.3基于人工神经网络ANN(ArtificialNeuralNetwork)的识别算法神经网络的概念也已经被应用于语音识别中,其中最有效的一种方法是使用多层神经网络,不同层之间的神经元通过一定的加权系数相互连接,这些加权系数可以在训练中进行学习,每一个神经元对所有输入进行读取,然后把结果传给下一层的神经网节点上。神经网络的主要缺点是不容易解决时间轴动态归一化问题,目前主要用于小词汇量的语音识别系统中。四、基于离散马尔科夫模型识别系统的实现HMM是一组用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔科夫链演变来的。在语音识别领域中所指的随机过程,一般都是有限长的随机序列,统称观察序列,记为O=(o1,o2,⋯oT)。一个有N个状态(记为s1,s2,⋯sN)的HMM可用三元组参数λ=(π,A,B)表示。其中π=(π1,π2,⋯,πN)为初始分布矢量,用于描述观察序列O在t=1时刻所处的状态。A为状态转移概率分布,Aij={aij|i,j=1,2,⋯N}为状态转移概率矩阵,其元素aij是指t时刻状态为Si,而在t+1时刻转移到状态Sj的概率,即A={aij},aij=p[qt+1=sj|qt=si],1≤i,j≤N。B是状态sj的观测符号概率分布,这个分布有离散型和连续型两类,分别对应于离散HMM(DHMM)和连续HMM(CHMM)。在DHMM情况下,观察序列为符号序列,B为一概率矩阵:B={bj(k),j=1,2,⋯,N;k=1,2,⋯,M},它满足,其中M为编码符号集中符号的总数,通常采用K2Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(VectorQuantization),此时,M就是码本的大小。4.1前端处理语音的前端处理主要包括对语音的采样、A/D变换、分帧、端点检测和特征提取。其中特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取新的依赖于时间的序列。由于语音特征的短时平稳性,其频谱特性和某些物理特征参量可近似看作不变,通常帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,这部分重叠的帧长称为帧移,帧移通常选为帧长的1/2。特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,通常使用24维特征矢量,包括12维MFCC(MelFre2quencyCepstrumCoefficient)和12维一阶差分MFCC。4.2结构和状态数的选取理论上讲,状态数是越多越好,这是因为随着状态数的增加,识别的错误率会降低到一个很稳定的程度,然而由于训练样本是有限的,所以状态数N不能太大,如果实验中N取的过大,则训练后很多状态在参数λ=(π,A,B)对应项中为0或者非常接近于0,成为冗余项,实验中的状态数按其复杂程度固定为从3到8不等的数目。本DHMM识别系统采用的状态数为6。4.3DHMM的VQ码本形成离散型HMM,其每一个状态的输出概率是按照观察字符离散分布的,每一次转移是状态输出的字符,是从一个有限的离散字符集中按照一定的离散概率密度分布选出来的。在语音处理中,语音信号先被分割成若干帧,每帧求取一个特征参数向量,即每帧用一个参数向量表示,并需要将语音特征参数向量的时间序列进行矢量量化(VQ),通过矢量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示的形式,由于矢量量化技术在离散HMM中的应用,必然引入量化误差,降低了系统的识别率,但此方法简化了模型和复杂度,计算量小,便于实时实现。码本容量的大小直接关系到输入矢量同量化后输出矢量畸变的程度,码本容量越大平均失真越小,但当码本容量增大到一定程度时,失真度减小非常缓慢,但存储量和搜索所需的计算量大大增加,目前常用的容量值一般取为64,128或256。本DHMM识别系统使用的码本大小为128。4.4参数模型的获取———DHMM的训练使用观察值序列调整模型参数称为一个训练过程。训练问题是一个非常重要的问题,因为它可以使模型参数最为理想地适应所观察到的训练数据。由生成的VQ码本将训练集中的各个矢量序列量化为观察值符号序列,最后由Baum2Welch算法训练出离散的HMM,并把VQ码本和离散HMM(记为λν)都训练并存储起来。4.4.1前向、后向概率前向概率的递推公式为:(j=1,2,⋯L)(1)后向概率的递推公式为:(j=1,2,⋯L)(2)(m=1,2,⋯M)(M为观察矢量y的维数)其中分子表示只对当前观察矢量yn=νm(观察码字,m=1,2,⋯M)(M时观察矢量y的维数)的计算。在迭代算法中,不仅可以调整DHMM的参数,也可调整与其相关的码本的参数。假设原始HMM模型为λ=f(π,A,B),训练一次以后新的模型为λ′=f(π′,A′,B′)。则可证明新的模型λ′产生观察矢量序列Y的概率比先前的模型参数更大,即p(Y/λ′)p(Y/λ)。因此,使用上述迭代方法,可以逐步调整HMM系统的模型参数,以使得模型产生观察序列的概率不断增加并达到一个极大值点。4.5基于DHMM的识别给定一个观察值序列O=(o1,o2,⋯oT)和一个HMM参数λ=f(π,A,B),在最优意义上确定一个最佳的状态序列来解释观察序列,通常采用Viterbi算法,此算法是一种广泛用于通信领域中的动态规划算法,假设系统的观察矢量序列为Y=(y1,y2,⋯yN),要求一条状态序列X=(x1,x2,⋯xN),使得下式概率达到最大的作为识别的结果:ν3=arcmaxP[X,Y/λν]五、结论及展望基于DHMM的孤立词语音识别技术已经能够满足一些特定领域的应用要求,但此研究仅针对孤立词的识别,研究深度和起点尚有待进一步提高,而由此得出的一些结论仅供参考。目前,语音识别已经发展到比较成熟的阶段,非特定人连续语音识别技术已经成功运用于人工话务台的号码语音查询、语音天气查询、股票交易等诸多领域。我相信,随着语音识别技术和计算机技术的发展,语音识别技术终将走进人们的日常生活中。参考文献[1]高清伦,谭越辉,王佳祯基于离散隐马尔科夫模型的语音识别技术,2007[2]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用,2003.[2]陈建良,吕小红.采用离散HMM的孤立词识别系统,2006[3]苗苗,马海武.HMM在语音识别系统中的应用,2006[4]姚天任.数字语音处理[M].武汉:华中科技大学出版社,2002
本文标题:随机过程的应用
链接地址:https://www.777doc.com/doc-1955765 .html