您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 自适应矢量量化在语音识别中的应用
课程编号07S19C0307课程名称数字语音信号处理学期2010年春学位层次硕士适合专业通信与信息系统共页第页自适应矢量量化在语音识别中的应用张恒河北工业大学信息工程学院通信与信息系统学号:201020195009摘要:介绍了用离散隐马尔可夫模型(DHMM)构造孤立词语音识别系统中的特征向量矢量量化的码书构造过程。以往的矢量量化通常采用基本算法LBG,在此基础上,引入了一种时间复杂性和空间复杂性有所降低的改进算法。该算法的核心是自适应地生成初始码书以及对初始码书的二次构造过程。从降低时间复杂度和节省存储空间,提高识别率的角度,对该算法进行了讨论。关键词:语音识别;矢量量化;LBG;自适应码书1引言现代语音识别中最常用的识别方法是Baum等人提出的隐马尔可夫模型(HMM)。HMM是数学上一类重要的双重随机模型,用概率统计的方法描述时变语音信号,很好地描述了语音信号的整体非平稳性和局部平稳性。HMM的各状态对应语音信号的各平稳段,各状态之间以一定转移概率相联系,是一种较为理想的语音模型。在孤立词语音识别过程中,通常采用离散隐马尔可夫模型(DHMM),取得了比较好的实用效果[2]。在构造离散隐马尔可夫模型(DHMM)过程中,对提取的MFCC特征参数矢量量化的码书构造是其中的一个主要部分,码书的选择会影响时间和空间的复杂度以及整个系统的识别率。目前为止,矢量量化的方法很多,其中最典型的是1980年,Linde,Buzo和Gray提出的LBG算法[3]。他可根据给定的训练序列,经多次递归运算,求出满足要求的码书和输入矢量的划分。LBG算法的突出优点是压缩比大且解码算法简单,已被广泛应用于语音识别或图像编码等领域。2LBG算法LBG算法是一种有效和直观的矢量量化码书设计算法,其具体算法描述如下[4]:训练矢量集为011{,,},MXxxxM为训练适量的个数。(1)给定出师码书:0000011{,,}NCyyy,令迭代次数k=0.平均失真1D,给定相对误差门限(01)。(2)用码书nC中的各码字作为质心,根据最佳划分原则把训练矢量集X划分为N个细胞腔0000011{,,,}NSSSS,niS满足:{|(,)}nniiSvdvy01min(,),{}njjNdvyvX(1)其中01iN。(3)计算平均失真1()0101min(,)MnnijjNiDdxyM(2)判断相对误差是否满足课程编号07S19C0307课程名称数字语音信号处理学期2010年春学位层次硕士适合专业通信与信息系统共页第页(1)()()|/|nnnDDD(3)若满足,则停止算法,码书nC就是所的码书,否则就转步骤(4)。(4)根据最佳码书条件,计算各细胞腔的质心,即:()(1)()1||nininvsiyVs(4)由这n个新质心(1)niy,i=0,1,…,N-1形成新码书,置n=n+1,转步骤(2)。LBG算法有3个主要缺点:(1)码书的自适应性不强,不能根据训练矢量集数据的随机分布自适应地取得初始码书;(2)在每次迭代的最佳划分阶段,从码书中搜索训练矢量的最近码字需要大量的存储空间和繁琐的计算;(3)初始码书的选择影响码书训练的收敛速度和最终码书的性能。传统的初始码书生成方法或者采用随机生成或者采用分裂法[5]。3自适应二阶码书设计算法在这部分中,阐述了一种自适应二阶码书(AutomatorSecondBook,ASB)生成算法,他提高了码书的自适应性能,且设计的时间和占用的存储空间与LBG算法相比均有所降低。3.1自适应码书生成传统的矢量量化方法LBG的一个缺点是自适应性不强,ASB算法自适应的生成一阶码书,提高了码书的自适应性。利用每一语音样本MFCC特征参数iX的2L范数2|||TiiiXXX,求出每一语音样本MFCC特征参数的范数,即iX的欧几里德内积。所有MFCC参数中最小的欧氏距离mind,最大的欧氏距离maxd。N个码字的平均欧氏距离:avg(maxmin)/1dddN(5)在N个等分的同心圆环区域,可以理解为N个同心圆内(如图1所示),自适应的划分任一图像子块落在哪一个区域内[6]。2()((||||min)/)1diiBXfixXdavgd(6)通过式(6)自适应地把距离相近的MFC参数块确定在一个区域范围内,用每一区域内所有子块的平均值作为码字,得到高性能的有代表性的码字。3.2二阶码书的生成通过式(5)和式(6)自适应地生成具有N个码字的一阶码书。为了获得更好的压缩比,节省更多的存储空间考虑对一阶码书进行二次压缩。其中二阶码书的码字个数为M(MN)。经过实验分析,也取得了理想的效果。以一阶码书作为初始向量集,进行如下操作:选定初始向量集中一向量X,每一向量iY与其的余弦夹角,其中iYN为iY的单位化:()cos()*180/iTiYAYaXN(7)所有向量中最小的余弦夹角mina,最大的余弦夹角maxa。M个码字的平均夹角:课程编号07S19C0307课程名称数字语音信号处理学期2010年春学位层次硕士适合专业通信与信息系统共页第页avg(maxmin)/1addM(8)在M个等分的角度空间内,自适应的划分任一向量落在哪一个区域内如图2所示。()((()min)/)1aiiBXfixAYaavga(9)3.3算法步骤(1)设训练矢量集为11{,,}MXxxx,通过欧几里德内积求出每一MFCC特征参数ix的二范数并对其标准化。(2)将二范数的最大值与最小值的N等份,求出每一等份的等均值,N为码字的个数。(3)利用上步所求等均值计算出落在第I(I=1,2,…,N)个码字邻域内的MFCC特征参数值以及MFCC特征参数的个数,将其MFCC特征参数值的和/MFCC特征参数的个数得到一均值,作为新的码字,并记录各码字与各MFCC特征参数之间的对应关系。如果落在某一码字的子块个数为0,则删掉该码字,并把拥有子块个数最多的码字分裂成两个码字。从而生成一阶码书1111011{,,}NCyyy。1111011{,,}NCyyy作为为初始向量集,以其中某一向量为x轴,求出其他向量与他的夹角,将最大夹角与最小夹角的差M等份,求出每一等份的等均值,M为二阶码书码字的个数。(5)利用上步所求等均值计算出落在第j(j=1,2,…,M)个码字邻域内的向量值以及向量的个数,将其向量值的和/向量的个数得到一均值,作为新的码字,并记录各码字与各向量之间的对应关系。如果落在某一码字的子块个数为0,则删掉该码字,并把拥有向量个数最多的码字分裂成两个码字。从而生成二阶码书(2)(2)(2)(2)011{,,,}MCyyy。4仿真实验为了验证自适应二阶码书设计算法的有效性,实验采用1350个语音样本为例,训练矢量设为一个MFCC特征参数的向量。设一阶码书中码字的个数设为N,二阶码书中码字的个数设为N/2。4.1语音库采用表示方向的10个词,共16个人参与录音,前5个人每人每词录5遍,后11个人每人每词录10遍。录音者分别来自黑龙江、河南、山东、湖北、河北、安徽、江苏、新疆、陕西、福建。语音采样率为8K,每帧256个采样点,帧,移50%。4.2实验数据实验数据如表1所示。5结束语通过实验数据可以看出此算法由于提高了自适应性,去掉了比较的过程,因此降低了时间复杂度,减少了存储空间。此算法降低了计算的复杂性,在码字较大时尤为明显。设码书大小为N,矢量维数为k,num为样本总数,则LBG算法中,原始码书(0)C的计算时间为2logN,一子块的量化时间复杂课程编号07S19C0307课程名称数字语音信号处理学期2010年春学位层次硕士适合专业通信与信息系统共页第页度为{+LBCtkN次乘法(1)kN2次加法+(1)}/N次比较输入子块,而ASB算法的时间复杂度为{(1)+LBCtkN次乘法(1)}/kN次加法输入子块,因其自适应性,减少了原始码书(0)C的计算和(N-1)次比较过程,时间复杂性上有所降低。LBG和ASB算,法的空间复杂度为()OkN,但随着N的降低,ASB算法的存储空间减少。LBG算法中码书的自适应性不强,在ASB算法中根据输入矢量自适应的确定其所在的最近的搜索码字的范围的位置。在生成了一阶码书后,在保证精度的前提下,以自适应的一阶码书的为训练矢量,设计了二阶码书,达到了二次自适应的效果,且效果理想。综上所述,将自适应矢量量化算法用于DHMM语音识别中,减少了设计时间,提高了识别率,将有一定的扩展空间。)参考文献:易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.[2]LindeY,BuzoA,GrayRM.AnAlgorithmfotVectorQuantizerDesign[J].IEEETransactionsonCommunicartions,1980,28(1):80-85.[3]DavidSalomon.数据压缩原理与应用[M].2版.吴乐南,译.北京:电子工业出版社,2003.[4]陆哲明.矢量量化编码算法及应用研究[D].哈尔滨:哈尔滨工业大学,2001.[5]GrayM.VectorQuantization.IEEEASSPMagazine,1984,1(2):4-29.[6]GershoA,GrayRM.VectorQuantizationandSignalConrpression[M].KluwerAcademicPublishers,1992.
本文标题:自适应矢量量化在语音识别中的应用
链接地址:https://www.777doc.com/doc-2119534 .html