您好,欢迎访问三七文档
9.5连续语音识别系统9.6连续语音识别系统的性能评测9.6.1连续语音识别系统的评测方法以及系统复杂性和识别能力的测度9.6.2综合评估连续语音识别系统时需要考虑的其他因素9.5连续语音识别系统在连续语音识别系统中,一段语音信号(例如一个句子)经特征提取后,得到一个特征矢量的时间序列,假设该特征矢量序列可能包含的一个词序列为,那么连续语音识别的任务就是找到对应观测矢量序列的最可能的词序列。这个过程如果按照贝叶斯准则就是:上式表明,要找到最可能的词序列,该词序列必须使P(W)与P(A/W)的乘积达到最大。第一项P(W)是W独立于语音信号特征矢量的先验概率,由语言模型决定。P(A/W)的特征矢量序列A在给定W下的条件概率,由声学模型决定。IaaaA,,,2112...nAˆ)()/(maxarg)()()/()/(maxargˆˆW在连续语音识别系统中利用语言模型的目的是找出符合句法约束的最佳单词序列,并且减少观测矢量序列A和词序列W的匹配搜索范围,提高识别效率。传统的连续语音识别方法中,语音识别处理和语言句法分析过程一般都是采用阶层性的处理方式进行统合,即先用语音的声学模型和输入信号进行匹配,求得一组候选单词串(列),然后利用语音的语言模型找出符合句法约束的最佳单词序列。这种方法存在如下两方面的问题,①语音处理和语言处理相互之间不施加约束,必然增加许多不必要的中间结果,从而既增加计算量又增加误识别的可能;②两个非紧密结合的模块之间传递信息时,一般要产生信息丢失,因而影响识别精度。较好的方法应该是把句法分析的语言处理过程结合进语音识别过程中,实现帧同步的语音—语言处理的统合。当然,这样实现起来就复杂的多,一般采用的方法往往是把声学模型和语言模型结合在一个有限状态自动机的框架里进行处理。下面我们举例来说明这种识别方法。ˆW上面的计算过程对于输人观测矢量序列i=1,2,...,I以及有限状态自动机中全部状态反复进行后,最终识别结果的单词序列可以由下列算法从语句最后一个单词开始顺序求得(Back-Trace方法,简称为回溯法)。声学基元模型:识别模型的基元单位的选择对于识别性能影响很大。对于汉语而言可以采用韵母和声母作为识别用基元模型。由于汉语中韵母和声母的长度不同,所以如果采用HMM作基元模型的话,可以采用两种不同长度构造的HMM。系统语言模型:一般来说,对于词汇量较大的连续语音识别系统,用CFG、双词文法和三词文法建立语言模型的较多。假定用CFG来建立系统的语言模型,则能够描述连续语音识别系统整个被识别语句的CFG的非终端记号数、终端记号数和改写规则数反映了语言模型的规模;而系统语言模型的复杂度(Perplexity)则反映了该连续语音识别系统的语句识别难易程度。句法分析和单词的预测方法:为了说明句法分析和单词的预测方法,我们可以考虑图9-7中“我要预约….”部分句子以及它的右侧单词预测过程根据以上的过程,从终端记号num、adj、pron、noun可以预测出单词“二间、双人的、我、女同志、房间、停车场”。在上述的单词预测和路径更新法中,可以通过限制路径长度,避免由于左递归规则而引起的无限循环。9.6连续语音识别系统的性能评测近年来语音识别尤其是连续语音识别的研究已取得了可喜的进步,正向实用系统发展。在这样的系统纷纷推出的时候,如何合理地评价和比较它们的性能,对于改进和完善现有系统设计,提高系统性能,便于优势互补,减少研究工作的重复性和盲目性,适时地引导语音识别研究向着期望的目标发展,都有着重要意义。9.6.1连续语音识别系统的评测方法以及系统复杂性和识别能力的测度语音识别系统的评价研究就是要研究一套公认的评价标准和科学合理的评测方法,来衡量、评定不同识别系统和不同处理方法之间的优劣,预测在不同使用条件下的系统性能。然而不同的连续语音识别系统一般都是针对不同的识别任务,各自具有不同的任务单词库和任务语句库。和孤立字识别系统可以采用共同的任务和词库进行评测相比,较难制定统一的评价标准和方法。现在一些国家采用的方法主要有和标准的系统比较的方法、和人的知觉能力进行比较的方法以及使各系统适用于标准的单词库后再进行比较的方法等。在这些评测比较中使用的标准系统的一般配置主要是:使用LPCMCC(LPC美尔倒谱系数)或者MFCC特征参数、Bi-Gram语言模型以及2段DP匹配法(由基元模型联结得到最佳单词序列)等。系统识别性能的评价测度主要有系统识别率、信息损失度、使系统的识别率和人的听取率相当而应附加给系统的噪声级别大小等。1.评价连续语音识别系统性能的系统识别率等测度连续语音识别系统中一般采用音素、音节或单词的识别率来评测系统性能。这时除了有正确率的指标,错误率中还必须考虑置换率、插入率和脱落率各占多少。一般常用的系统指标有如下所示的正确率(PercentCorrect)、错误率和识别精度(Accuracy):以上的识别结果中的正确说、插入数、置换数和脱落数的求取,可以采用目测的方法求得。也可以分别把识别结果和输入语句用音素、音节或单词序列表示,然后通过用DP法对两虚列进行匹配求得。2.评价系统识别任务复杂性的测度在连续语音识别系统中不仅要考虑词库中的单词数,而且还要考虑系统识别任务中被识别语句的数量和难易程度。一般来说,在连续语音识别系统中都是利用语言模型来描述系统识别任务的,在这种描述中系统受语法的限制越小则识别越困难,反之则越容易。因此在对系统进行比较评价时,必须首先判断系统识别任务语句受语法约束的程度,既所谓系统识别任务复杂度,然后在此基础上通过比较系统识别精度,来评价系统识别算法的好坏。表示在语言模型规定下的系统识别任务复杂性的测度主要有系统静态分支度(StaticBranchingFactor,简称为)和平均输出数(Fanout,简称为)、系统识别任务的熵(Entropy)和识别单位的分支度(Perplexity)等。SFAF系统静态分支度和平均输出数:为说明的方便,设语言L是由有限状态自动机描述的。是状态j的出现概率、n(j)表示在状态j输出的识别单位语数(单词、音节或音素等)。则系统静态分支度和平均输出数由下列式(9-26)和式(9-27)定义:当各状态的出现概率相等时系统静态分支度和平均输出数相等,并且系统静态分支度和平均输出数的值和描述的语言模型有关。系统的静态分支度和平均输出数的值越大,则系统识别复杂度越高。)(j系统识别任务的熵和识别单位的分支度:设在由语言模型规定的语言L中,S、P(S)、K(S)分别表示识别处理单位语的时间序列、序列S出现的概率和S的长度(当S=时K(S)=k),则语言L中每一序列的平均信息量(熵:Entropy)可用下列式定义:同时,语言的语句集中每一个识别处理单位的熵,可由如下式表示:k)(log)()(2SPSPLHS)(log)()(1)(20SPSPSKLHS从而我们可以知道,因为语言L每一个处理单位的熵是。所以,从前一个单位语预测后续单位语时,平均需要有回的的判断操作。也就是说,要从个出现概率相等的单位语中选择1个单位语。因此下列式被定义为系统任务语言模型的分支度(Perplexity):因为这里的不依赖于识别处理的单位,而且和描述系统任务语句的语言模型的形式无关,因此比较适合用于比较各系统任务的复杂程度。显然分支度越大则识别工作越困难,反之这个值越小在识别时后续预测单词就越容易确定,有利于提高系统的识别率,所以系统分支度是一个评测系统的重要指标。)(0LH)(0LHNoYes/)(02LH)(02)(LHpLF)(LFp)(LFp下面我们就不同的语言模型来考虑系统任务语句的熵和分支度的计算方法。设语言L是由有限状态自动机规定的。表示在状态j单位语的出现概率。则在状态j的每一单位语的熵由下列式定义:语言L中每一个单位语的熵由下列式定义:)|(jwPwSjwPjwPjwH)|(log)|()|(20当语言L是由上下文无关文法(CFG)规定的时候,各语句的长度分布可以由实际的抽样算出。则系统任务的熵以及分支度可由下列步骤求出。设和分别表示语句长度为k的概率以及由语言L生成的长度为k的语句的总数。则有:同时语言L的语句集中每一个识别处理单位的熵,可由如下式表示:kPkN当语言L是由双词文法(Bi-Gram)或三词文法(Tri-Gram)规定的时候,则系统任务的熵以及分支度可由下列步骤求出:一般来说对于某测试输入语句,分支度也可由如下方法直接计算求得。假定系统的测试语句输入是,则从单词(或音节、音素等)出现概率的角度,测试分支度定义如下:其中,#和*分别表示句头和句尾。n11111213121)),,|(*1),,|(1),|(1)|(1)|#(1(nnnnPwwP另外如果我们从单词预测的角度去考虑测试分支度,即假定在部分单词序列后面被预测到的单词数是(即分支数),则测试分支度可由如下式定义,它是由各个时刻分支数几何乘积平均得到的。我们可以利用上述方法求出每一测试输入语句的分支度,然后取平均值既得到测试语句集的分支度。12,1..........t).........(9.6.2综合评估连续语音识别系统时需要考虑的其他因素连续语音识别系统的性能,最终是以识别率来评价的。但识别率除了决定于识别算法等中心技术以外,还受到其他因素的影响,例如,①识别对象中词汇量的多少,识别对象间声学特性的相似程度等。②系统是针对特定话者还是多数话者或者非特定话者的识别系统,即使是特定话者识别系统,也有容易识别的话者(sheep)和较难识别的话者(goat)之间的区别。③系统是孤立发音(单词或音节单位)、词组单位发音(例如汉语习惯上的发音停顿的位置)、还是连续发音;是正规的朗读语音还是较自由的会话语音。④发音环境的情况,是隔音室、安静的房间还是噪声环境。⑤话筒的位置在什么地方,是否是位置自由的。⑥语音的频带限制等处理设备的电器效应,例如是否是电话语音带宽等。⑦)其他方面,如通用性、经济性、鲁棒性、识别速度,是否能够进行在线识别(On-Line)、语言模型的覆盖率等。另外特征参数、匹配时的距离尺度和使用的模型以及噪声环境、频带限制等处理设备的电器效应等也可以对于识别系统的识别性能有很大的影响。例如,即使是采用同样的模型和识别算法的系统,由于特征参数的不同以及模型精度的差异,识别效果也将产生很大的差别。从以上的分析可以知道连续语音识别系统的评价是很困难的工作,因为实用系统评价不仅要测试系统识别性能方面的指标,还必须动态地测试一些影响识别性能的其他因素指标。另一方面,建立有效的语音数据库对于系统评价着这重要的作用。数据库中应包括一般目的的数据和诊断数据,系统可以通过测试诊断数据达到充分表征性能的目的。在语音识别数据库的基础上,建立性能测试系统并对测试结果进行综合分析和评估。语音识别是难度很大的发展中课题,语音识别技术的突破和产业化,不仅依赖于语音处理方法的进展,也依赖于语音识别数据库和语音识别系统评价这些基础性研究工作的支持。另一方面,要真正实现语音输入的目标,必须解决连续语音识别和理解的问题,孤立字识别方式大大地限制了语音识别系统的应用,也是将系统推向实用的主要障碍之一。
本文标题:语音信号处理第9章
链接地址:https://www.777doc.com/doc-2030052 .html