您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 交互式语音识别系统研究
第8卷第5期信息技术快报Vol.8No.5InformationTechnologyLetterSep.201051交互式语音识别系统研究李新辉王向东钱跃良林守勋摘要:为了实现大词汇量连续语音识别技术的实际应用,本文提出了交互式语音识别的概念并着重研究其中的各项关键技术。所谓的交互式语音识别,是指为语音识别系统配置一位操作员,该操作员在语音识别过程中对识别系统进行指导监督并修正识别结果。同时,识别系统对交互信息进行学习,根据操作员的指导信息和修正信息对内部模型进行自适应调整,从而提高系统的识别性能。本文的研究工作是对当前大词汇量连续语音识别技术实际应用的发展和创新,具有重要科学技术意义和产业应用前景。同时,对语音识别在其他方向(如实时字幕生成,图书馆音频资料整理等)的应用具有实际的借鉴作用。关键词:语音识别交互式语音识别语音语句提取汉语候选生成交互式声学模型自适应1引言语音是人类最自然、最重要的交流方式[1]。因此,在计算机相关技术中,自动语音识别作为一种自然、高效的人机交互方式,长期受到各国政府和研究者的高度关注。近年来,语音识别技术取得了长足的进展。面向特殊应用的中小词汇量语音识别技术已经比较成熟[2,3],产生了诸如手机语音拨号系统、电话查询系统等实际应用系统。然而,由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,大词汇量连续语音识别的研究仍然停留在实验室阶段,面向真实场景的大词汇量连续自动语音识别系统性能远远无法满足实际应用要求。在已有的语音识别技术相关研究中,虽然尚没有明确提出交互式语音识别的概念,但已有一些在语音识别过程中引入交互的研究工作。早期研究的代表单位是美国IBM公司、卡内基-梅隆大学(CMU)、密歇根大学(UniversityofMichigan)等。其研究主要集中于语音识别的错误纠正技术,即在一句话识别后由说话人对识别结果的错误进行纠正。系统可同时提供多通道的交互方式,包括单词重新发音(re-speaking)、单词拼写(spelling)、键盘输入、手写输入、笔形设备点击、拖动输入、从前N个候选(N-best)中选择等[4-7]。近期研究的代表性工作是日本国立高等工业科技研究院(AIST,NationalInstituteofAdvancedIndustrialScienceandTechnology)的“音声订正”(speechrepair)系统[8]。该系统对每个单词给出多个候选,并提供相应的交互界面,允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该研究主要针对无噪声的朗读语音,可以达到实时应用,修正后正确率达96%以上。但该系统只提供用户选择界面,没有其它交互功能,也没有利用用户修正信息进行模型自适应,在会议场景等真实自然语音的情况下性能将有较大下降。总的来说,交互式语音识别的相关研究较少,而且多数集中在对结果的修正上,缺乏利用多种交互手段,以及利用交互信息进行声学模型自适应的研究。为了将大词汇量连续语音识别技术推向实际应用,本文提出了交互式语音识别的概念,研究交互式语音识别中的关键技术,并构造了一个完整的系统。本文所谓的交互式语音识别,是指:为语音识别系统配置一位操作员,在语音识别过程中由其与系统进行交互。其交互方式主要分为两类:一是根据先验知识或当前说话人语音的特点对系统进行适当的指导,例如指示说话人切换、主题切换,指出说话人性别、方言口音类型,甚至将部分先验语料输入系统等;二是根据听觉对当前语音识别结果进行人工修正。考虑到效率和交互的友好性,这类交互式语音识别系统研究52交互主要采用候选选择的方式,即对一句话进行识别后,为其中的每个字提供多个候选。当第一候选不是正确结果时,操作员可以在其它候选中进行选择或输入正确的内容来纠正识别错误。在交互式语音识别中,系统不仅可以通过操作员的快速修正来修正识别错误,而且可以根据操作员的指导信息和交互信息对内部模型进行选择和自适应。这样模型更加接近当前说话人的发音特点和语音内容,系统输出的候选越来越准确,操作员的修正效率也越来越高,从而满足实际的应用需求。语音识别自适应语句提取候选生成模型选择与离线自适应声学模型语言模型文本语音本文提出的交互式语音识别系统的流程如图1所示。在识别开始前,操作员向系统输入待识别对象的信息和谈论主题信息,系统根据操作员的指导信息选择最匹配的声学模型和语言模型。在语音识别过程中,语音经语句提取模块处理后送语音识别模块识别并生成识别中间结果。候选生成模块对识别中间结果图1.交互式语音识别流程图进行处理后生成候选。操作员通过选择候选或终端输入来修正识别错误。同时,系统利用提取到的语音语句和对应的修正后文本对声学模型和语言模型进行自适应调整。交互式语音识别系统主要包括声学模型、语言模型两个核心模型和语句提取、识别引擎、自适应和候选生成四个核心模块。在本文的研究中,采用了目前世界上较先进的开源HTK语音识别引擎[9],该引擎融合了目前主流的语音识别解码技术。由于生成候选的质量好坏决定了操作员在整个识别过程中的工作效率,同时也决定了交互式语音识别是否能够满足实际应用的需求,本文将研究重点聚焦于如何实时地生成高质量的候选。2语音语句提取语音语句音频文件麦克风分段采集缓冲池端点检测在语音识别中,为得到好的结果通常是对一整句话识别完之后输出结果。因此,在对一段语音识别时需要预先提取该段语音中的语句,然后再进行识别。目前主要采用端点检测的方法来提取语音语句。端点检测技术是指从包含语音的一段信号中确定出语音的起始点和结束点。在语音识别中,有效的语音语句提取不仅能减少系统的处理时间、提高系统处理的实时性,而且能排除无声段的噪音干扰,从而使后续的识别性能得以较大提高。图2.交互式语音识别中语音语句提取流程图在交互式语音识别中,识别对象的语音输入既可以是事先录好的音频文件,又可以是实时的语音,语音语句提取模块在这两种情况下都应该能够提取出语音语句。图2为交互式语第8卷第5期信息技术快报Vol.8No.5InformationTechnologyLetterSep.201053音识别中的语音语句提取流程图。在交互式语音识别系统中,对于音频文件输入,系统直接采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音输入,系统实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。为了在后一种情况下能够实时地提取语音语句,本文采用分段采集和缓冲池的方法,即每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。这种方法中,音频固定长度的选取是关键问题:长度过长使得端点检测等待时间过长而影响实时性,长度过短会产生许多无用检测,从而降低系统资源的利用率。本文设定的长度值为3秒,因为根据实验统计,大多数情况下,一句话都在3秒钟内。3汉语候选生成在交互式语音识别中,候选生成方法直接决定了所生成的候选的质量,而候选的质量好坏决定了操作员在整个识别过程的工作量和工作效率。在国外,主要采用混淆网络生成候选的方法,即利用混淆网络算法(confusionnetwork)[10-12]将词网格压缩成混淆网络来得到候选。使用该方法生成候选必须满足词网格中每条弧对应的对象为一个单独的不可再分割的词。在英语词网格中每条弧对应的词为一个单独的英语单词,因此利用该方法可以生成合适的英语候选。然而,在汉语词网格中每条弧对应的词由一个或多个汉语字组成,每个词可能拆分为两个以上的字(如“中国”,可拆分为“中”和“国”),因此不能利用该方法来生成合适的汉语候选。通过分析交互式语音识别系统中的需求,我们认为交互式语音识别中的汉语候选生成应满足以下三个约束条件:(1)具有竞争关系的候选应该属于同一候选列中。这使得操作员只需要在一个候选列中查找正确的候选。(2)所有候选列应该按照识别时间的先后顺序排列,从而使用户能够按照识别顺序从前往后遍历一次就能够修正所有识别错误。(3)在每个候选列中,所有候选应该按照识别过程中的得分从高到低排列。得分越高说明该候选为正确词的可能性越大,操作员自上而下查找候选时越容易看到。3.1基于字的汉语候选生成方法为了生成高质量的汉语候选,按照上述提出的汉语候选生成约束条件,我们提出了一种基于字的汉语候选生成方法[13]。在该方法中,首先使汉语词网格对齐,生成对齐网络,然图3.基于字的汉语候选生成方法示意图后在对齐网络的基础上将词按字切分生成候选。图3为基于字的汉语候选生成示意图。图3(a)为汉语词网格对齐生成对齐网络;图3(b)为对齐网络按字切分生成基于字的候选。在本交互式语音识别系统研究54文中,我们分两部分对该方法进行算法描述,一部分为词网格对齐,一部分为字候选生成。在对算法描述之前,我们先给出一些定义:(1)汉语词网格一个汉语词网格由,LNE=来表示,其中012{,,,,}INnnnn=为汉语词网格中所有结点的集合,012{,,,,}JEeeee=为汉语词网格中所有弧的集合。inN∀∈,()itn表示结点对应的时间。keE∀∈,都用一个五元组{},,,,kkkkkeeeeeSFWAL来表示,其中keS表示弧ke的起始结点,keF表示弧ke的结束结点,keW表示弧ke上的汉语词,keA表示弧ke的声学概率得分,keL表示弧ke的语言概率得分。(2)对齐网络一个对齐网络由012{,,,}′′′′=AKEEEEE来表示,其中AE为对齐网络中所有对齐类的集合,′kE表示第k个对齐位置上的弧集合。(3)汉字候选一个汉字候选由012{,,,,}′′′′=LCCCCC来表示,C为候选中所有候选列的集合,012{,,,,}′=lKCcccc表示第l个候选列上所有候选集合,′∀∈klcC都用一个二元组{,}kkccWP表示,其中kcW表示候选kc对应的候选词,kcP表示候选kc对应的得分。3.1.1对齐网络的生成我们可以通过对汉语词网格中的弧进行聚类将汉语词网格对齐,形成对齐网络。聚为一类的弧应满足以下两个条件:(1)每条弧对应词假设的最后一个汉字存在语音相似。(2)弧之间存在时间重叠。以下为对齐网络生成算法的描述:步骤1:利用前后向算法[10]计算词网格中每条弧e的后验概率()pe。步骤2:将弧集合E中的所有的弧,按弧的结束时间()ketF递增排序,对于结束时间相等的弧,按弧的开始时间()ketS递增排序。步骤3:初始化0Enull′=,对于E中的弧e,如果()0ketS=,则00EEe′′=∪。步骤4:对于E中的每条弧ie,0,1,,iJ=⋅⋅⋅,假设1iIeE−′∈:(a)若1()()iieetStS−=且1()()iieetFtF−=,则IIiEEe′′=∪。(b)若iIeE′∃∈,使得()()iieetStF=,则11IIiEEe++′′=∪。IeE′∃∈,若(,)(,)ijSIMeeSIMee,则11IIEEe++′′=∪,\IIEEe′′=。其中(,)((),())(,)SIMeesimceceoverlapee′′′=×用于计算两条弧之间的竞争程度,()ce和()ce′分别表示弧e和e′对应词的最后一个汉字,(,)sim⋅⋅⋅⋅⋅⋅为使用最合适的语音基本公式计算得到的两个汉字的声学相似性,(,)overlapee′为平滑后的弧e和e′的时间重叠程度。第8卷第5期信息技术快报Vol.8No.5InformationTechnologyLetterSep.201055(c)若jKeE′∃∈且KI,使得()()ijeetStF=且1min{()}()lIieElKueue′′∈=+′=∑,则IIiEEe′′=∪。其中()ue表示弧e对应汉语词所包含的汉字个数。(d)若jKeE′∃∈且KI,使得()()ijeetStF=且1min{()}()lIieElKueue′′∈=+′∑,则11IIiEEe++′′=∪。(e)若jKeE′∃∈且KI,使得()()ijeetStF=且1min{()}()lIieElK
本文标题:交互式语音识别系统研究
链接地址:https://www.777doc.com/doc-5121570 .html