您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究
英汉翻译模板的标准化方案及其应用1李玉鑑北京工业大学,计算学机学院,多媒体与智能软件技术北京市重点实验室,北京100022E-mail:liyujian@bjut.edu.cn摘要:在机器翻译系统中,模板可以作为一种知识表示的方法,其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨,提出了一个初步方案,并将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模模板库的基础上开发高质量的英汉翻译系统提供了可能性。在2005年举行的863评测中,本文开发的英汉翻译系统达到的水平:对话翻译人工评测忠实度和流利度分别为73.62和68.16篇章翻译人工评测忠实度和流利度分别为41.16和31.45。关键词:机器翻译;翻译模板;标准化中图分类号:T391.2AStandardizationStrategyofEnglish-ChineseTranslationTemplatesandItsApplicationsLiYujianCollegeofComputerScienceandTechnology,BeijingUniversityofTechnology,Beijing100022,ChinaBeijingMunicipalKeyLaboratoryforMultimediaandIntelligentSoftwareTechnologyE-mail:liyujian@bjut.edu.cnAbstract:Inmachinetranslationsystems,templatescanbeusedasaknowledgerepresentationmethod,theirscaleandorganizationwillgreatlyinfluencethewholesystem’sperformance.ThispaperstudiesthestandardizationproblemofEnglish-Chinesetranslationtemplatesandpresentsaninitialstrategyforit.ByapplyingittodesignandimplementasomewhatsuccessfulEnglish-Chinesetranslationsystem,weshowthatthestrategyisusefulandpracticable,anditprovidespossibilitiestodevelophigh-qualityEnglish-Chinesetranslationsystemsbasedonalargescaleoftemplatelibrary.Inthe“863”evaluationof2005,theEnglish-Chinesetranslationsystemofthispaperreachesscoresof73.62Adeqand68.16Fleufor“dialogtest”aswellas41.16Adeqand31.45Fleufor“articletest”.Keywords:machinetranslation,translationtemplate,standardization1.引言现有的机器翻译方法主要分为基于规则[1-4]、基于统计[5-11]和基于例子[12-14]这三种。但是由于自然语言的极端复杂性,目前还没有一种分析策略能够彻底解决机器翻译系统所涉及的各种难题。为了综合利用这三种方法的优点,同时克服各自所存在的问题,一种常用办法是把多种翻译策略有机地集成在一起,以实现各种策略之间的优势互补,改善系统的性能[15-17]。在机器翻译的研究中,除了综合集成多种策略外,另一种重要方法是加大处理粒度[18],其基本思想是利用单义的语块(Chunk)代替多义的单词,并给以中心词的标注,目的是为了简化处理的句型,化解机器翻译的歧义问题。基于语块的方法是近年来在自然语言领域兴起的一条新思路[19],目前关于单语语块的研究已经取得大量成果[21-24]。一个可以代替Chunk进行机器翻译的概念是模板(Template)。简单的说,模板可以看作是一个带有变量的Chunk,而Chunk则可以看作一种不带变量的模板。用模板代替Chunk,可以使很多Chunk合并成一个模板,因此模板在语料库中出现的频率要比作为其特例的Chunk大。所以,为了刻划一个语料库中的语言现象,所需要的模板数量将远远少于所需要的Chunk数量,虽然一个模板具有的歧义可能要比一个Chunk的歧义多,但是常常可以消解模板中单个词的多种歧义。本文讨论了模板的定义,对英汉翻译模板的标准化问题进行了探讨,同时提出了一个初步方案,并通过结合句法分析技术和模板匹配替换通用算法将其应1北京市自然科学基金资助项目(No.4052005)、北京市教委科技发展项目(No.Km200310005013)第1作者信息:李玉鑑,男,1968年生,博士,副教授,主要研究方向为自然语言处理、模式识别、生物信息学用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模英汉翻译模板库的基础上开发高质量的英汉翻译系统提供了可能性。2.模板的定义和说明在各种自然语言中都存在许多被反复使用的模板结构,抽象地说,模板可以看作具有一定稳定性的语言认知结构。每个模板结构通常由若干常项和变项所组成,比如,英文词组“givesth.tosb.”就是一种模板结构,单词“give”和“to”是常项,“sth.”和“sb.”是变项。当一个模板中的所有变项被其所能取到的常项值替代时所得到的单词序列称为该模板的一个实例。例如,“givethebooktome”就是“givesth.tosb.”的一个实例。为了概念的统一起见,本文也把某些不带变项的特殊词组或句子称为模板。从形式语言学的角度看,模板中的常项就是终结符,模板中的变项就是非终结符。一个源语言模板(ST,SourceTemplate)常常在另一种语言中存在着对应的目标语言模板(TT,TargetTemplate),源语言模板和目标语言模板构成的有序对“STTT”通常称为翻译模板。在传统的翻译模板概念中,通常要求一个源语言模板只能有一个目标语言模板,而且源语言模板的非终结符和目标语言模板的非终结符必须一一对应,个数相等,一般也不考虑模板的类别标注问题。这里则把翻译模板定义为源语言模板及其在目标语言中所有可能目标模板的集合。因此,如果考虑模板的类别标注且在每个类别标注下只允许一个目标翻译,那么从形式化的角度看,一个翻译模板可以参照下面的标准结构进行统一描述:SourceTemplatePOStag1.TargetTemplate1;POStag2.TargetTemplate2;……;POStagm.TargetTemplatem;其中,“POStag”表示类别标注的代码。如果使用形式语言的术语,那么每一个源语言模板可以看作下面的结构:1211...............121121rriiriiiaaVVaaVaaa(str1)显然,每一个相对应的目标语言模板亦可以写成:1211...............121121mmjjmjjjbbUUbbUbbb(str2)其中在符号串(str1)和(str2)中,有下面的约束:(1)121,...,,riii是从小到大排列的任意r+1个整数,1,....,,21riaaa是源语言中的1ri个终结符(可能是空字符),rVVV,...,,21是源语言中的r个非终结符,它们可以相同,也可以不同;(2)121,...,,mjjj是从小到大排列的任意m+1个整数,1,....,,21mjbbb是目标语言中的1mj个终结符(可能是空字符),mUUU,...,,21是目标语言中的m个非终结符,它们可以相同,也可以不同;(3)mUUU,...,,21必须是rVVV,...,,21中所出现的非终结符或者与rVVV,...,,21中所出现的某个非终结符有某种确定性转换关系,m和r可能不相等。根据上述模板的定义,一个具有两个类别标注的英汉模板例子描述如下:commentaboutNPvi.评论NP;n.对NP的评论;其中,“NP”表示名词短语,“vi”表示不及物动词类型,“n”表示名词类型。如果不做特殊说明,下文所使用的词类标记与英语语法习惯相同。3.英汉翻译模板的标准化方案及其应用由于前面关于翻译模板的定义不仅允许一个源语言模板可以有多个不同的对应目标语言模板,而且允许每个对应目标语言模板中的非终结符和源语言模板中的非终结符之间存在一对多和多对一的关系,因而比传统的模板定义能够更加合理地反映实际的自然语言现象。此外,由于人类在一生中所能学习和建立的语言认知结构是相当有限的,所以可以想象与语言认知结构相联系的模板数目也是相当有限,虽然这个数目可能达到几万,几十万,甚至几百几千万,但是对建立大规模翻译模板库来说应该是一个有限合理的数字,并不是一个遥不可及的天文数字。有了足够的模板,就可以把给定的句子分析为源语言模板的组合,然后再利用通用模板匹配替换算法进行从源语言到目标语言的翻译[25]。然而要针对某两种语言建立起一个实际的大规模翻译模板库并非易事,制定细致可行的模板标准化方案是必不可少的步骤。下面将讨论一个建立英汉翻译模板的初步标准化方案。首先,将英汉翻译模板根据其源语言部分分为静态模板和动态模板。静态模板是一些完全由终结符构成的词组,它们总是作为一个整体被使用,严格的说在任何上下文中都只有能具有这种固定的组合与搭配,不会因为上下文的变化而被分开成为不同的意义单元。比如:artificialintelligencen.人工智能;machinetranslationn.机器翻译;动态模板则是指静态模板以外的任何模板,也就是说它除了包括所有带有非终结符的模板之外,还包括那些用法随着上下文的不同有时可能被分开或者被重新组合的终结符词组。一个完全由终结符构成的动态模板例子如下:alittlepron.一点;该模板之所以是动态模板,因为“alittle”还可以组合成其他模板,比如:alittleADJadj.有点ADJ;alittlewhilen.一会儿;显然,要从一个给定的英语句子中分析静态模板非常容易,因为静态模板在任何上下文中都可以被看作一个固定搭配的词组,所以采用简单的单词比较和匹配技术就能确定。但是,要确定英语句子使用了某个动态模板则不能简单地采用单词匹配和词性匹配的方法,通常需要使用句法分析技术才能在一般情况下得到较好的结果。目前较好的句法分析算法一般都具有较高的时间复杂度或者空间复杂度要求,如果同时启用所有的模板来进行分析,特别是在动态模板规模相当大时,就很难达到令人满意的效率。因此,对动态模板进行分类、排序和索引以便根据需要来调用就是一个必不可少的步骤。考虑到句法分析的需要,本文提出了下面的关于如何组织大规模英汉翻译模板的初步标准化方案:(1)定义统一的模板类型以及相应的非终结符(目前使用了70个);(2)将静态模板和动态模板分别存放在不同的数据库中;(3)根据前面两项是终结符还是非终结符的情况,将动态模板分成下面五类,分别用TT、TN、NT、NNT和NNN表示,其中“TT”表示所有第1项和第2项都是终结符(即英语中的单词)的模板,“TN”表示所有第1项终结符而第2项是非终结符的模板,“NT”表示所有第1项是非终结符而第2项是终结符的模板,“NNT”表示所有第1项和第2项是非终结符而第3项是终结符的模板,“NNN”则表示所有其它模板。(4)对TT类模板通过第1项和第2项排序并建立索引,对TN类模板通过第1项排序并建立索引,对NT类模板通过第2项排序并建立索引,对NNT类模板通过第3项排序并建立索引;NNN则可以不建立索引,因为这类模板的总数不大,即使全部用于进行句法分析对系统的整体效率影图1.模
本文标题:英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究
链接地址:https://www.777doc.com/doc-1299135 .html