您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 连续语音识别中半连续HMM硕士论文
连续语音识别中半连续HMM的研究及实现ResearchandImplementofSCHMMinCSR(申请清华大学工学硕士学位论文)院(系、所):计算机科学与技术系专业:计算机应用研究生:李军指导教师:朱小燕教授2002年5月密级:内部独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得清华大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:关于论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。签名:导师签名:日期:I摘要SCHMM作为一种有效的语音识别技术,它充分地吸收了离散HMM和连续HMM的优点,具有识别精度高搜索速度快等特点。特别是它的码本绑定策略,由于从全局的角度来共享和调整码本,所生成的码本性能更好,能够有效地反映语音空间的特征,因此只要少量的码本就能使系统达到较好的性能,大大减轻了码本计算的复杂性,提高了系统识别的速度。研究内容包括如下几个方面:1.在初始码本生成中引入了随机松弛算法,SCHMM的初始码本生成是一个矢量量化的问题,量化的困难是量化结果通常会陷入局部最优,采用随机松弛算法能够比较好地克服这个缺点。2.在连续语音训练中,通过减去句子单元信息,克服了Baum-Welch算法训练不同类型句子时发生数据奇异的缺陷。3.改进了SCHMM的搜索算法,通过对码本进行剪枝,Beam剪枝等措施,在保证一定识别率的前提下,大大减少了搜索在时间和空间上的消耗,加快了搜索的速度。4.实现了一个基于SCHMM的连续语音训练和识别系统。关键词:语音识别,半连续HMM,码本,随机松弛,搜索IIAbstractAsanefficienttechnologyofspeechrecognition,SemiContinuousHMM(SCHMM)integratestheadvantagesofdiscreteHMMandcontinuousHMM,andprovidesahighrecognitionaccuracyandsatisfactoryspeed.Inparticular,sincethesharingandmodificationofcodebooksinglobalscope,thecode-bindingstrategymakesitpossibletogeneratemuchbettercodebooksthatcoulddescribethefeatureofacousticspacemoreaccurately.Insuchacase,smallcodebookscanprovidesatisfactoryperformancesothatthecomputationalcomplexityisreducedandtherecognitionspeedisincreased.Thekeyresearchcontainsthefollows1.Thealgorithmofstochasticrelaxationisintroducedintocodebookinitialization.CodebookinitializationofSCHMMisaproblemofvectorquantification,whosetroubleisthatthequantificationresultoftenreachesthelocalminimalpoint.Theintroductionofstochasticrelaxationovercomesthisprobleminourexperiments.2.Incontinuousspeechtraining,thedisadvantagethatBaum-Welchalgorithmcouldbethrownintodataodditybecauseofdifferentsentencesgivesvariousweightstotheestimationisresolvedbysubtractingsentenceinformation.3.Throughcodebookselection,beampruning,thesearchalgorithmofSCHMMismodifiedsothatthecostofsearchisreducedintermsofbothtimeandspace,incaseofnoaccuracylostevidently.4.AcontinuousspeechrecognitionsystembasedonSCHMMinrealworldisimplemented.目录III目录第一章概述.......................................................11.1语音识别......................................................11.1.1语音识别的应用价值........................................21.1.2语音识别的理论意义........................................41.2国内外发展状况................................................41.3本文主要工作..................................................71.4本文内容安排..................................................8第二章语音识别的基本模型.........................................92.1语音识别的基本结构及方法......................................92.2HMM的基本结构...............................................102.3HMM的三个基本问题...........................................122.4HMM的分类...................................................162.4.1DHMM(离散HMM)...........................................172.4.2CHMM(连续HMM)...........................................172.4.3SCHMM(半连续HMM)........................................18第三章SCHMM的训练方法...........................................193.1SCHMM初始码本生成...........................................193.1.1聚类的基本原理及方法.....................................193.1.2译码器扰动简化随机松弛聚类算法(SR-D).....................213.1.3小结.....................................................233.2SCHMM的训练.................................................233.2.1基于Baum-Welch的前后项训练方法..........................243.2.2溢出的分析及解决.........................................273.2.3句子单元信息.............................................31第四章SCHMM的连续语音搜索方法...................................334.1连续语音的VITERBI解码算法...................................344.2N-BEST搜索算法...............................................35目录IV4.3静音处理方法.................................................364.3.1基于时域的端点检测方法...................................374.3.2基于HMM的音节间检测方法.................................384.4.提高搜索速度的几种方法.......................................384.4.1码本剪枝策略.............................................384.4.2Beam剪枝策略............................................404.4.3降低精度策略.............................................42第五章系统与实验................................................445.1数据库的建立.................................................445.2系统的实现...................................................455.2.1训练程序.................................................465.2.2识别程序.................................................495.3实验和分析...................................................525.3.1码本数对识别结果的影响...................................535.3.2状态数对识别结果的影响...................................535.3.3帧长对识别结果的影响.....................................545.3.4系统的性能和评价.........................................54第六章总结......................................................57参考文献.........................................................60个人简历.........................................................64致谢.............................................................65第一章概述1第一章概述1.1语音识别现代语音识别是用电子计算机从人的语音信号中提取信息,确定其语言含义的过程。它是一门交叉学科,多个领域的研究工作者参与其中,因此又可被归于多个大学科。在计算机
本文标题:连续语音识别中半连续HMM硕士论文
链接地址:https://www.777doc.com/doc-2137136 .html