您好,欢迎访问三七文档
多策略的机器翻译王海峰东芝(中国)研究开发中心北京100738wanghaifeng@rdc.toshiba.com.cn摘要:统计机器翻译方法由于其良好的数学模型、无指导的学习能力、良好的鲁棒性等优点而备受重视。基于规则的机器翻译方法对语言规律良好的概括和描述能力以及基于实例的机器翻译方法对相似句子相当精确的翻译也颇有价值。多种方法相融合的机器翻译策略正在成为机器翻译发展的重要方向。本文全面介绍东芝对规则、实例、统计等各种机器翻译方法的研究,以及在融合各种方法方面的探索。关键词:机器翻译,基于规则的机器翻译,基于实例的机器翻译,统计机器翻译,多策略机器翻译Multi-StrategyMachineTranslationWangHaifengToshiba(China)Research&DevelopmentCenterBeijing100738wanghaifeng@rdc.toshiba.com.cnAbstract:StatisticalMachineTranslation(SMT)isverypopularforitsadequatemathematicalmodel,unsupervisedlearningcapacity,androbustness.Rule-BasedMachineTranslation(RBMT)andExample-BasedMachineTranslation(EBMT)methodsarealsovaluable.Rulesaregoodatmodelinglinguistictheoryandphenomena.EBMTmethodisabletotranslatesimilarinputverywell.Multi-strategymachinetranslationbecomesmoreandmoreimportantinthemachinetranslationcommunity.ThispaperintroducesToshiba'seffortsonRBMT,EBMT,SMTandthecombinationofthethreemethods.Keywords:MachineTranslation,Rule-basedMachineTranslation,Example-basedMachineTranslation,StatisticalMachineTranslation,Multi-StrategyMachineTranslation1引言在三种主流机器翻译方法中,统计机器翻译方法正受到学术界更多的关注。一方面,在具有广泛影响力的NIST机器翻译评测中1,统计机器翻译系统连连胜出;另一方面,在ACL等主流学术会议上,也是多数机器翻译方面的论文都集中在统计方法上。那么,是不是基于规则的机器翻译方法和基于实例的机器翻译方法就已经江河日下,行将退出历史舞台了呢?让我们首先关注一下规则方法和实例方法的现状。规则方法虽然已经较少出现在主流学术会议上了,但一个有趣的现象是,目前真正为用户所使用的机器翻译产品大多都是基于规则的。同时,规则方法也并不是停滞不前了,而是仍有不断提高的潜力[1]。目前来看,实例方法不如规则方法在产品中应用广泛,也不如统计方法在学术会议上广受重视及在评测中胜出,但实例方法也依然活跃并富有潜力。在2005年的机器翻译峰会(MTSummitX)上,实例方法仍然是与会学者大量讨论的话题,而且MTSummitX还专门组织1了一个基于实例机器翻译的Workshop,著名的机器翻译专业国际期刊“MachineTranslation”也将在2006年下半年发行基于实例机器翻译的专刊。从译文质量的角度,实例方法也毫不逊色甚至还能做得更好[2,3,4]。虽然统计方法由于其良好的数学模型、无指导的学习能力、良好的鲁棒性等优点而备受重视,但规则方法对语言规律良好的概括和描述能力及实例方法对相似句子相当精确的翻译也无疑是颇有价值的。事实上,多种方法相融合的机器翻译策略正在成为机器翻译发展的重要方向。例如,基于语法的模型越来越多的出现在统计机器翻译的研究中[5,6,7,8];Groves和Way提出了StatisticalEBMT[9]和Example-basedSMT[3]的概念,等等。而更多的机器翻译系统则是在一种翻译策略为主体的前提下,在系统的不同模块分别使用了不同的技术,例如[4]就在基于实例的机器翻译框架下使用了基于规则的分析和基于统计的生成。本文将全面介绍东芝在机器翻译领域的研究,包括基于规则的、基于实例的、统计的机器翻译方法,以及各种方法的融合。2东芝的机器翻译研究2.1概述从最初开展基于规则的机器翻译研究,到现在全面研究规则、统计、实例等各种方法,东芝在机器翻译方面的研究开发已有二十多年的历史,并基于多年的研究成果开发出了一系列的机器翻译产品。其产品形态包括:机器翻译软件包、机器翻译引擎授权、翻译服务、硬件产品预装等。翻译的语言包括中、日、英三种语言六个方向的互译。2.2基于规则的机器翻译2.2.1基于转换的翻译方法东芝的基于规则的机器翻译系统中,采用的是一种基于转换的方法[10]。其主要翻译过程包括分析、转换,生成三部分。其中,分析过程包括词法分析、语法分析和语义分析等三个子过程;转换过程包括预转换、词汇转换和结构转换等三部分;生成则包括词法生成和句法生成。如图1所示,一个待翻译的源语言句子首先被分析为表示其语义结构的依存树,然后源语言的树被转换为目标语依存树,最后生成模块会根据目标语依存树生成目标语译文。He'sjusttakenthemedicine.他刚刚服药了。分析生成转换takehemedicinejusttheitfsubjobjdet服他药刚刚objadvsubj图1基于转换的翻译过程2.2.2规则系统的组织使用基于规则的机器翻译方法,很容易开发出一个小型实验系统,但在开发面向真实应用的大型系统时,问题则要复杂得多。在基于规则的机器翻译系统中,随着系统规模不断扩大,规则之间相互影响甚至冲突的可能性也会随之增加,而这种相互影响和冲突将使系统性能的提升变得越来越困难,甚至是步履维艰、停滞不前。在东芝的基于规则的机器翻译系统中,规则的组织是多层次、细粒度的。如2.2.1节所述,系统主要包括分析、转换、生成三个模块,每一部分又包括一些子模块。更细的,一个子模块还会被分为几个不同的层次。系统中,规则是被分层次调用的,不同层次之间的规则不会被交叉调用。在规则层次被细化的同时,规则本身的知识粒度也被细化。系统中,多数规则都是描述一个具体的、精细的语言现象的,而且是附着在具体词上的。通过这种多层次、细粒度的组织,规则之间的相互影响与冲突得到了有效控制,实现了良好的可扩展性。2.2.3可扩展性为了研究系统的可扩展性,我们定量分析了规则数量与翻译系统性能之间的关系[1]。分析结果表明,翻译系统的性能几乎是随着规则数量的增加而线性增长的。于是,我们得到了一个线性模型来描述规则数量与翻译系统性能之间的关系,其统计相关系数在0.98以上。进一步实验表明,这个线性模型对规则数量与翻译系统性能之间的关系不但有非常好的描述能力,而且有很好的预测能力,随着规则的继续增加,翻译系统性能将沿着这条曲线继续增长。这意味着,我们的基于规则的翻译系统拥有良好的可扩展性,仍有不断提高的潜力。2.3基于实例的机器翻译近年来,越来越多的基于实例的机器翻译系统将翻译实例表示为带标注的树结构[11,12,13]。在这类系统中,翻译实例中源语言和目标语言句子的分析树,以及两种语言的子树的结构对应关系都存储在实例库中。引入这种带标注的树无疑会提高翻译系统的性能,但这种树-树对应的方法也有其问题。一方面,一些语言缺少高质量的分析工具;另一方面,对于语言结构差异较大的语言对,结构对应关系是很难建立的[14]。因此,我们采用了树串映射来存储翻译实例,并在此基础上提出了基于树串映射和统计生成的基于实例的机器翻译方法[4]。2.3.1树串映射如图2所示,树串映射(Tree-StringCorrespondence,简称TSC)是一个三元组,包括:-源语言分析树;-目标语言串;-源语言树的叶结点和目标语言串之间的对应关系。源语言分析树可以使用源语言分析器来获得,树上的每一个结点都用词和属性来标记。源语言和目标语言的对应关系可以通过双语词对齐来获得。树串映射既被用来表示经过预处理的静态翻译实例,又在翻译过程中被用来表示与输入句子相匹配的动态实例片断。2.3.2树串映射-树匹配在翻译时,首先要找到与输入句子的分析树相匹配的TSC。为了在多个可能的匹配中作出选择,我们使用了如下准则:-结点数较多的TSC优先;-语义相似度大的优先。由于一个输入句子的翻译往往要通过组合多个实例的不同片段来完成,因此与输入句子相匹配的往往也不是单一的TSC,而是多个TSC组成的TSC森林(TSCforest)。我们使用贪心算法来进行最佳TSC森林的搜索。图2树串映射实例2.3.3统计生成为了生成最终的译文,我们使用了统计生成模型来自底向上地组合TSC森林中的目标语言串。在统计生成模型中,使用了如下特征:-TSC和输入树之间的匹配程度;-源语言词翻译为目标语言词的翻译概率;-基于目标语语言模型的概率。同时,为了生成更好的英文,我们利用未对齐词和同源TSC(源语言树相同而目标语言串不同的TSC)对翻译候选进行了扩展。2.3.4性能用相同的训练集和测试集进行开放测试表明,基于树串映射和统计生成的基于实例的机器翻译系统的翻译质量好于基于词的统计机器翻译系统ISIReWritedecoder[15]和基于短语的统计机器翻译系统Pharaoh[16]。2.4统计机器翻译在统计机器翻译模型中,词对齐模型是不可或缺的基础部分之一。同时,词对齐技术还还可应用于基于实例的机器翻译[4]、基于规则的机器翻译、计算机辅助翻译[17]、跨语言信息检索等各类系统中。因此,在过去两三年里,我们着重开展了词对齐技术的研究,其中多数研究是围绕着经典的IBM模型[18]展开的。统计机器翻译的其它方面及完整的统计机器翻译系统等研究目前正在进行中。2.4.1使用机器学习方法改进词对齐我们首先感兴趣的问题之一是:在基本对齐模型和双语语料都固定不变的情况下,是否能借助机器学习的方法来进一步提高对齐结果呢?为此,我们分别尝试了bagging[19]、boosting[20]、semi-supervisedboosting[21]等方法。本质上,bagging、boosting等方法都属于ensemble方法。Ensemble方法通过组合多个分类器的决策来进行分类,从而得到比单个分类器更好的结果。Bagging方法随机地可重复地采样原始训练集来构造多个不同的训练集,从而训练得到不同的对齐模型。执行对齐过程时,首先可以根据这些对齐模型得到多个候选对齐结果,然后再通过加权的或不加权的多数表决方式来决定最终的对齐结果。使用Boosting方法时,我们通过改变训练数据的权值来重新采样训练数据。其训练过程是一个多次迭代的过程。在每一轮迭代中,首先使用当前的加权训练集来训练对齐模型、然后使用得到的模型进行对齐,再根据对齐结果来计算错误率,最后根据错误率来为下一轮迭代重新计算权值。为了将boosting方法应用到无指导的词对齐中,需要解决参考集和错误率问题。对于参考集问题,我们用双向词对齐结果的交集和过滤过的并集来得到准确率较高的伪参考集。对于错误率问题,我们人工标注了少量训练语料作为开发集来计算错误率。人工对齐大量双语语料是一件费时费力的工作,但加工少量语料还是相对容易的。使用少量人工对齐语料和大量未对齐语料,我们就可以使用Semi-supervisedboosting的方法来提高词对齐了。在boosting过程中,我们将有指导训练得到的对齐模型和无指导训练得到的对齐模型进行线性插值得到一个统一的模型。以上方法相对文献[
本文标题:多策略的机器翻译
链接地址:https://www.777doc.com/doc-822270 .html