您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 关于统计机器翻译的思考姚天顺
关于统计机器翻译的思考姚天顺自然语言处理实验室东北大学tsyao@china.com2004.7.111.前言有这么两条消息:5月10日《参考消息》“随着又有10个国家加入欧盟,欧盟现有20种官方语言。年度翻译预算增加到10亿美元。”5月28日《参考消息》“欧盟新通过一项议案,所有成员国在欧盟会议上的文件不得超过15页A4纸,以减轻翻译人员的工作量。”机器翻译的现状和未来到底怎么样了?有计算机的那一天就有机器翻译的研究。计算机事业蓬勃发展,但机器翻译的道路至今仍然十分艰难。上世纪的八十年代,特别是九十年代,语料库语言学在计算语言学界兴起。最近的五年到十年,机器学习方法又受到学术界特别的重视,数学方法大量地引进了语言信息处理。自然语言处理的研究是进了一大步,但对于机器翻译而言,真实的效果在哪里呢?回忆基于规则的机器翻译系统作为主流技术的时代,不管怎么样?多少还出现过一些有市场价值的系统,例如译星、华建和史晓东等的汉英翻译系统。华建的机器翻译,居然取得了国内单项软件出口的最高出售价。欧洲和日本情况也是这样,当前主流的机器翻译还都是基于规则的机器翻译系统。基于语料库的机器翻译方法,一般说来可以分为两类:一类是基于统计的机器翻译系统,另一类和基于模板的机器翻译方法。基于统计的机器翻译,简称为统计机器翻译。统计机器翻译把源语言中任何一个句子都可能是目标语言中某些句子相似,这些句子的相似程度可能都不相同。那么,一个好的机器翻译系统就是那种能找到最相似句子的系统。但是这样的汉外机器翻译系统在我们国家从来也没有出现过。1994年,IBM公司的A.Berger,P.Brown等人发表了一个技术报告,即著名的论文:“ThecandideSystemofMachineTranslation。”他们用统计方法,各种不同的对齐技术,给出了命名为Candide的统计机器翻译系统.利用汉莎语料库(Hansardcorpus,英法双语语料库),总共有2,205,733英法句对作为训练语料,实现了国际上第一个较为著名的英语到法语的统计机器翻译系统。一开始,系统的成绩不错,整体的系统的译准率超过了基于解释、转换、和生成的规则系统。ARPA(美国国防部高级研究计划署)把这个Candide翻译系统进行评测,并和国际上利用常规的规则系统构造的SYSTRAN机器翻译系统作比较,结果是,流利程度适当程度时间比率率199219931992199319921993SYSTRAN.466.540.686.743Candide.511.580.575.670Transman.819.838.837.850.688.625Manual.833.840TransmanisthepartoftheCandidesystemusedasatranslationassis-tancetool,i.e.amachine-aidedtranslationsystem.这个结果很了不起,在某种程度上推动了经验主义思潮更进一步向前发展。由于计算语言的复杂性,Candide系统还请了一些语言学家来帮助他们做形态分析、语义标注、和词典等。Candide系统仍不是一个纯统计的系统。这样的系统,看来很有希望,不知为什么,由于IBM公司外部和内部财政方面的原因,支持被撤走,他们的工作坚持到1995年,就被迫停止。呼声很高的系统被中断了。有人说,纯统计的机器翻译注定是要失败的!美国著名机器翻译学者YorickWilks在批评Candide系统时指出:“他们在系统中引入符号结构就说明了,纯统计的假设已经失败了”(“Incorporatingsymbolicstructureshowsthepurestatisticshypothesishasfailed”)可见,统计方法是令人鼓舞的,可是它还没有解决所有困难的问题。2.新统计机器翻译系统的出现2000年,在JohnsHopkins的暑假Workshop,有来自南加州大学、罗切斯特大学、约翰.霍普金斯大学、施乐公司、宾州大学、斯丹福大学等学校的研究人员,以Och为主的13人,写了一个FinalReport:SyntaxforStatisticalMachineTranslationOch博士发表的论文:“DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation”,获ACL2002大会最佳论文奖。2001—2003年七月,在美国马里兰州JohnsHopkins美国商业部的NIST/TIDES(NationalInstituteofStandardsandTechnology)atUniversityinBaltimore,Maryland评比过程中获最好成绩。构造了23种阿拉伯和汉语到英语的机器翻译系统。TIDES:TranslingualInformationDetection,ExtractionandSummarizationOch的气很盛,他说,伟大的希腊科学家Archimedes说:“Givemeaplacetostandon,andIwillmovetheworld.”Och说:“Givemeenoughparalleldata,andyoucanhavetranslationsystemforanytwolanguagesinamatterofhours.”这是不是说,Och博士已经找到机器翻译的有效方法了?3.统计机器翻译语法Berger关于机器翻译的失败,一个主要问题是:统计机器翻译(SMT)往往有显而易见的语法错误。Och希望在SMT里整体组合语法结构。不断添加反映语法知识的特征函数来解决不同语法层次的翻译问题,按照最大熵的模型,在各个语法层次都能给出可能的特征函数希望从最简单的二元特征到复杂的树--树的结构分析都能够造翻译模型。3.1逻辑-线性模型机器翻译的目的是:给定一个源句子Chinese),翻译成可能的目标句子(English)那么,所有可能的目标句的最大概率:,,...,,...,11JjJfffff.,...,,...,11IiIeeeee)}({maxarg1111JIreIfePeIOch和Ney在2002年提出的翻译模型,不同于Brown等的设想(1993),是一种后验概率的直接模型(称为直接最大熵翻译模型)。其中e和f的位置正好颠倒.利用Berger等人(1996)提出的最大熵框架,在这个框架里,有一组特征函数:对于每一个特征函数,存在一个模型参数,按照最大熵理论,直接概率模型:这是标准的最大熵计算公式。其中分母可以不计。MmfehJIm,...,1),,(11Mmm,...,1,IMeMmJImmMmJImmJIJIrfehfehfepfeP111111111111),(exp),(exp),(),(逻辑-线性模型总体结构如下图所示:一个统计机器翻译系统设计成为:切分(短语)、对齐、重排、生成。由汉语句子:中国十四个边境开放城市经济建设成就显著.翻译成英文句子:China’s14openbordercitiesmarkedeconomicachievements.切分:对齐模板处理形象理解为:本质上存在一个隐变量,再取参数,就有特征函数由原来的转换成Kz1K1KKz11,),,,(),(111111KKJImJImzfehfeh各种语法现象的特征函数浅层语法的特征函数WoRDSelectionPhraseAlignmentAlignmentTemplateSelectionLanguageModelFeaturesKkjjkKKJIATkkfzpzfeh11111)(log),,,(1),}),({(log),,,(11111iIijiKKJIWRDEAjifepzfeh11111111),,,(KkKKJIALkkjjzfeh11121111),(log),,,(IiiiiKKJILMeeepzfeh深层句法特征函数深层处理的句法特征函数是通过两种模型形成:1、TreetoString的特征函数1)中文句子和英文分析树,对齐概率和的特征函数,2)计算对齐最好的特征函数)(,,,()))(log),(jiekjikjingSumTreeToStriepfeh)(,,,)))((maxlog(),(jiekjikjingViterbiTreeToStrieepfeh2、TreetoTree的特征函数树到树的对齐模型是十分复杂的。例如汉英句对:中国十四个边境开放城市经济建设成就显著.FourteenChineseopenbordercitymakesignficantachievementsineconomicconstruction.标注后的双语句子:中国_NR14_CD个_M边境_NN开放_NN城市_NN经济_NN建设_NN成就_NN显著_VV。(不讨论标注的正确性)Fourteen_CDChinese_JJopen_JJborder_NNcities_NNSmake_VBPsignficant_JJachievements_NNSin_INeconomic_JJconstruction_NN.他们的分析树分别是:例如这里有两类标注:ThePart-of-SpeechTaggingGuildelinesforPennChineseTreebank。TheUniversityofPennsylvaniaTreebankTag-set。其中,NRpropernoun专有名字CDcardinalnumber基数Mmeasureword量词NNcommonnoun普通名字VVotherverb是、有以外的动词JJothernounmodifier其他名字修饰符VBPverb,presenttense,3rdpersonsingular动词,现在式,第3人称INprepositionorconjunction,subordinating介词或连词,连接逐句或从句中国十四个边境开放城市经济建设成就显著.同一个含义的两种语言的分析树有着不同的结构。其中有的结构是可以自动转换和对齐的,如AABZ===XYZXY有的就不可以自动对齐转换ABCWXYZ没法对齐到WYXZ))}2,3)(3,2)(1,1({(XYZAPalign2002年,Hajie等人在他们(11人)的论文:“Naturallanguagegenerationinthecontextofmachinetranslation”提出了非同构的平行树间的两边进行多于两个节点的m-to-n的匹配。给出一点弹性处理的许可。例如两个树的词序不变而结构不同等的原来不可对齐问题,在没有引起明显的计算复杂度的情况下,也允许子树对齐。由于这样的考虑,他们就提出了所谓克隆(Clone)操作的概念。克隆操作:允许在源树中,拷贝一个节点到目标树的任意地方。克隆以后,就像以前一样使用树分解(decomposition)和子树对齐。除了克隆以外,其他的基本算法都不变。硬性解决不解之难。Och的设想取自于Gildea的工作。Gildea在2003年的论文中提到,在他们的系统里选用韩英军事领域双语语料。语料包括5083句,使用4982句作为训练语料,101句作评测。韩语句子的平均长度是13个字。对齐结果的比较,如下表所示:Och的狂妄,可能并没有解决问题。就像阿基米德虽然伟大,但还是不能撬起一个地球,Och可能在几个小时里,对于任何双语拿出一个机器翻译系统,但还是不能真正实用。机器翻译任重而道远。回过头来想,Och提出了一个完整的统计机器翻译思想,在各个层次给出了各个特征函数,借用了克隆的思想,提出了统计机器翻译语法的理论。不是点滴的,而是完整的构思。我们似乎可以从中找到起步的光芒,那就是为什么他的论文是一篇最佳论文的原因。但是,最终还没有找到
本文标题:关于统计机器翻译的思考姚天顺
链接地址:https://www.777doc.com/doc-2676752 .html