您好,欢迎访问三七文档
语音识别技术1.声学特征2.声学模型3.语言模型4.语音搜索技术5.系统实现6.语音识别系统的自棒性与鲁棒性7.综合总结声学特征汇报者:线性预测倒谱系数(LPCC)美尔倒谱系数(MFCC)语音动态特征与混合特征仿真与实现线性预测倒谱系数(LPCC)式中,ai为线性预测系数,ci为所求的LPCC参数,P是参数的个数。优点:1.去掉激励信息,主要反映声道特性。2.计算量小-且只需十几个倒谱系数。缺点:1.对辅音的描述能力较差。2.抗噪声性能也较弱。美尔倒谱系数(MFCC)语音信号分帧加窗FFTMel滤波器组Log||DCTMel倒谱动态特征与混合特征参数帧-静态特征LPCCMFCCPLP语音帧短时谱共振峰频率及带宽鼻音联合特征谱相关特征KL特征音调特征每帧所包含的特征:动态特征根据静态特征的差分谱来获取单独一种参数往往难以完全反映出每个说话者的个性特征参与组合的特征应该具有区分性、稳定性和独立性混合特征仿真与实现从训练语音中提取特征矢量,得到特征矢量集,通过LBG算法生成码本1.从输入语音中提取特征参数2.由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差。声学模型汇报者:两声学建模和语言建模现代化的重要组成部分statistically-based语音识别算法。隐马尔可夫模型被广泛地使用在许多系统。还有许多其他语言建模等领域的应用智能键盘和文件自动分类技术.。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。汉英双语混合建模方法直接合并汉英双语的基本建模单元进行汉英双语混合声学建模,一个很自然的方法就是直接合并二者的PhoneSet,然后按照单一语言的声学建模方法训练双语的声学模型。在我们的汉英双语识别系统里,使用的是从左至右的三状态隐马尔科夫模型(HiddenMarkovModel,简称HMM),与两个单语系统是一致的。汉英双语直接合并的PhoneSetIPA映射—基于知识的汉英双语Phone共享IPA映射法就是根据国际音标协会的发音规则,把特定语言的Phone用国际音标来表示。这也是构建多语言的PhoneSet最简便的方法。其映射过程可简要表示为:合并聚类—数据驱动的汉英双语Phone共享自下而上的合并聚类算法在语音识别领域应用很多,是典型的数据驱动的聚类方法。其优点是不需要先验知识的引导。因此,我们考虑利用合并聚类的方法进行汉英双语的Phone共享,使得共享后双语的Phone和IPA映射方法得到的Phone数目相等,以便于进行比较研究。语言模型汇报者:语言模型IBM公司ViaVoice语音识别软件应用了规则与统计相结合的语言模型。其中,统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。语音搜索技术汇报者:语音识别系统模型训练部分识别部分特征提取模型结构的定义在既定的模型结构下,如何选择一种比较好的方法来预测模型的参数采用正确的搜索算法,找到识别基元的边界根据声学模型提供的信息输出合适的声学候选利用语言模型提供的信息得到最终希望的词序列搜索算法的主要目的减少寻找最佳假设的时间和内存的需要,而同时维持最小的搜索错误。搜索的目的获得最佳的词序列,即最大化后验概率,即Pr(x1···xT|w1···wN)2.Bayes判别准则这就是所谓的Bayes判别准则,它的计算需要用到两种类型的概率分布:语言模型,即Pr(w1···wN)声学模型,即Pr(x1···xT|w1···wN)理论基础:1.搜索算法的主要目的时间同步的搜索算法1.一遍DP搜索常用词典:线性词典和树型词典具体步骤:搜索算法1:动态规划递归剪枝操作声学剪枝语言模型剪枝直方图剪枝基本剪枝策略时间同步的搜索算法(续)2.词图算法使用范围:词图搜索算法主要是在词的混淆度比较高时用来处理多个词的候选。优点:声学识别过程可以和复杂语言模型的使用分离开来,使复杂语言模型可以在后续的处理过程中被利用上搜索算法1:采用词图搜索算法的语音识别系统的框架结构如下图所示:时间异步的搜索算法时间异步的搜索算法可以通过堆栈解码器(Stackdecoder)来实现。用到的是一些按照某种分数排序的的假设的列表。排序所基于的分数可以是搜索算法2:部分假设的对数似然度整个完整的句子的对数似然度的预测(A*准则)其它一些能够反映部分假设的正确性的分数引入错误的三个过程解决方法我们从不同的侧面提出了两套判别准则来指明产生识别错误的原因利用时域信息进行切分在语音段内进行帧同步的Viterbi解码在一个连续语音识别系统中,存在着多种有可能引入最终识别错误的因素,例如:不够鲁棒的声学模型,端点的不精确检测,不够完善的状态解码算法等等。如右图所示:简要补充:系统实现----IBM语音识别系统汇报者:Windows系统下的使用说明最低系统配置安装过程中的注意事项一般性限制商标和通告最低系统配置MicrosoftWindows98SecondEdition:IntelPentium300MHz,256KL2缓存(或相当配置,包括AMD-K6处理器,256KL2缓存)Windows2000:IntelPentium300MHz,256KL2缓存(或相当配置,包括AMD-K6处理器,256KL2缓存),96MBRAMWindowsXPHomeEdition/XPProfessionalEdition:IntelPentium300MHz,256KL2缓存(或相当配置,包括AMD-K6处理器,256KL2缓存),192MBRAM安装过程中的注意事项您计算机的系统配置必须满足上述所说明的最低要求;如果您已经安装了一个IBM语音产品,或者您的IBM语音产品准备在多个语言环境中使用,请继续阅读自述文件下面的部分;3)你准备安装ViaVoiceforWindows的磁盘驱动器没有用磁盘压缩工具进行过压缩。一般性限制操作系统/硬件ViaVoice程序听写限制导航限制音频限制(只针对模拟麦克风)商标和通告IBMViaVoice都是国际商业机器公司在美国或/和其他国家的商标或注册商标。例如:WorldBook是WorldBook,Inc在美国或/和其他国家的商标;SoundBlaster是CreativeTechnologyLtd.在美国或/和其他国家的注册商标;Netscape是NetscapeCommunicationsCorporation在美国或/和其他国家的注册商标。系统使用技巧设置麦克风语音设置口音适应在WORD中听写ViaVoice词汇管理器设置麦克风1.启动麦克风设置2.麦克风设置向导程序将检测计算机并显示出它找到的混音器设备3.单击“测试”按钮4.使用麦克风5.正确安装并测试耳机或外部扬声器后,就可安装和设置麦克风6.向导程序将提示你麦克风已设置成功(注意:选择麦克风使用的每一个适配器)语音设置在对麦克风进行正确的安装和配置后,还必须耐心地进行语音设置,否则麦克风不能工作。系统提供一组词组要求我们朗读,语音识别核心根据我们的读音,自动调节麦克风音量和识别核心,以适应我们的声音。进行音量调节时,首先进入音量调节窗口,单击开始按钮后,随着指示框(蓝框)的移动读出当前高亮显示的词。当蓝色框长时间停止不动时,会出现提示信息,说明麦克风检测不到声音,请重新检查麦克风设置。口音适应口音适应分为两部分:1.用户对一组给定的句子进行录音;2.ViaVoice进行口音训练生成语音文件。(某词变红未被识别的原因主要有:1.麦克风未置于正确位置;2.在词间没有停顿;3.某些词发音不符合ViaVoice要求或你念错了某词;4.你的音量必须处于绿色区域里。)在WORD中听写启动WORD听写可谓相当方便。我们可以对准麦克风念“听写到WORD”或从屏幕右下角的图标中启动程序。在WORD里,我们会发现在工具栏上多了一个“听写”菜单。在听写时,发音要清楚,语速要正常,并且念出所有的标点和排版符号。限于各方面的原因,ViaVoice还不能100%识别你的口音,所以完成一段文字的录入后,往往需要校对。ViaVoice词汇管理器ViaVoice词汇管理器是对在个人进行听写、录入产生错误词汇时添加到个人词汇表中的词汇进行管理的工具。当你下次碰到同样的词时,计算机能自动识别,这将大大减少你的工作量。经常对词汇表进行维护,是一个良好的习惯,你还可以用你的方言添加词汇,让你的计算机成为你亲切的“老乡”。通过词汇表管理器,你可以查看加入到词汇表中的所有词汇,并对其进行编辑。ViaVoiceProEditionWindows版参考命令自适性与棒鲁性汇报者:结构引言自适应性及相关算法棒鲁性及相关算法总结引言在实际应用时,有许多原因可能会导致语音识别系统的识别率显著下降,这些原因包括语音采集环境的影响(如加性噪声,录音设备,信道畸变等)和说话人的影响(如说话风格,口音,以及环境影响引起的说话风格的变化等)。为了使语音识别系统在面对这些不利条件时也能具有较好的性能,采用了许多方法来增强系统的鲁棒性(Robustness)。Range-freeSDSI语音识别中的非特定人(SpeakerIndependent,SI)系统是由所有训练者的语音数据统计出来的,它描述了所有训练者共同的声学特性,而牺牲了个人的特性。语音识别中的特定人(speakerDependent,SD),这种语音识别系统只适用于某个特定的用户,并要求该使用者预先提供足够多的个人语音数据以训练系统。目前语音识别系统采用的最实用的框架自适应与相关算法说话人自适应(SpeakerAdaptation,SA)算法有效地解决了特定人和非特定人系统各自的问题。该方案利用系统使用者的少量训练语音,调整系统的参数,使得系统对于该使用者的性能有明显的提高。自适应算法目前语音识别技术中使用的自适应方法主要分为两大类基于最大后验概率基于变换的方法Range-freeMLLR算法MAP算法MAP算法MAP(最大后验概率)算法的原理:基本准则是后验概率最大化,利用贝叶斯(Bayes)学习理论,将SI系统的先验信息与被适应人的信息相结合实现自适应.性能及使用范围:MAP具有良好的渐进性,但收敛性较差。在小词表的语音识别任务中具有很好的性能,但在大词汇量语音识别系统中MAP算法却具有自适应速度缓慢的缺点。)|(maxargXPiii.MLLR算法MLLR(最大似然线性回归)算法原理:估计SI系统模型与被适应人之间的变换关系,对SI系统的模型或输入语音特征作变换,减少SI系统与被适应人之间的差异。性能:ⅰMLLR在很大程度上改善了收敛性,但其渐进性却不如MAPⅱMLLR算法是基于变换的自适应最成功、应用最广的算法鲁棒性与相关算法为了提高语音识别系统的鲁棒性,这里引入了一种特征参数规整的优化算法环境选择MFCC差分扩展(MelFrequencyCepstrumCoefficient)Mel频率倒谱系数均值方差规整ARMA滤波器平滑MVN的基本原理:MVN是目前比较有效的鲁棒性
本文标题:语音识别系统
链接地址:https://www.777doc.com/doc-7183310 .html