您好,欢迎访问三七文档
统计机器翻译知识工程中心2011-3-29NLP为什么人们从中机器翻译这项工作热衷于理解人类的语言是如何工作的-如何通过语法和词来表达人的思想对其他语言感兴趣-汉语和英语到底有什么不同?渴望改变世界-当世界上的语言障碍消失的时候,世界将会的有什么不同?NLPNLP最新的市场调查中国翻译市场的年产值约为120亿元人民币到2010年,全球翻译类软件市场可达400亿美元2008年北京奥运、2010年上海世博会的举行更给翻译市场带来难得的发展机遇国内GE-SOFT,中软译星,华建集团,金山快译等,国外MT方面systran、google在线翻译、TM方面塔多思等NLPHmm,everytimehesees“banco”,heeithertypes“bank”or“bench”…butifhesees“bancode…”,healwaystypes“bank”,never“bench”…Man,thisissoboring.TranslateddocumentsCitedfromKevinNLP机器翻译的困难每一个词语都有很多意思--Iwillgetacupofcoffee.--Ididnotgetthatjoke。--Igetupat8am。--Igetnervous。--……每一个词都有很多的上下文词的顺序问题人类的语言也在发生演变翻译的输出结果必须是符合语法的流畅的句子。……NLP源语言目标语言词词句法句法语义语义中间语言短语短语基于词的MT基于短语的MT基于转换的MT机遇与挑战并存翻译金字塔NLP目录机器翻译框架简单介绍基于词的翻译模型基于短语的翻译模型的简单介绍小结NLP机器翻译框架简单介绍基于规则的机器翻译机器翻译基于语料库的机器翻译1、基于统计的机器翻译基于语料库2、基于实例的机器翻译的机器翻译3、翻译记忆如:(TradosTranslator’sWorkbench70%)NLP机器翻译框架简单介绍统计机器翻译的分类:基于统计的机器翻译1、基于词的IBM模型(经典)2、基于短语模型(成熟)3、基于句法模型(热点)NLP机器翻译框架简单介绍统计机器翻译的特点:利用语料库作为知识来源区别于规则方法:无需人工编写规则建立完整的统计模型区别于实例方法或模板方法:必须为整个翻译过程建立统计模型NLP机器翻译框架简单介绍统计机器翻译的三个基本问题:建模:既为翻译过程建立数学模型训练:既根据训练数据自动学习模型参数搜索:既利用学习到的模型参数执行翻译。NLP机器翻译框架简单介绍概率模型:假设任意一个英语句子T和一个法语句子S,我们定义法语到英语的翻译概率为:Pr(T|S)其归一化条件为:于是F翻译成E的问题就变成求解问题:Pr(|)1TTS'argmaxPr(|)TTSNLP机器翻译框架简单介绍统计机器翻译的一般框架NLP机器翻译框架简单介绍假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T还原成S,这也就是就是一个解码的过程。注意,源语言S是噪声信道的输入语言,目标语言T是噪声信道的输出语言,与整个机器翻译系统的源语言和目标语言刚好相反。SP(S)P(T|S)T信源-信道模型NLP统计机器翻译基本方程式:P.Brown称上式为统计机器翻译基本方程式语言模型:Pr(T)翻译模型:Pr(S|T)语言模型反映“T像一个句子”的程度:流利度翻译模型反映“S像T”的程度:忠实度联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。机器翻译框架简单介绍NLP机器翻译框架简单介绍NLP机器翻译框架简单介绍语言模型(N元语法):虽然N元语法模型没有考虑到任何语言内部的结构信息,但是到目前在机器翻译中最常用而且最有效的仍然是N元语法模型。统计语言模型就是一个概率分布,在语言模型看来任何一个句子都是可接受的,只是接受的可能性不同。1121()()|...niiiPPNLP机器翻译框架简单介绍翻译模型:翻译模型的计算需要引入对齐模型A:对齐:建立源语言句子和目标语言句子的词与词之间的对应关系和句子结构之间的对应关系。(|)(,|)APSTPSATNLP机器翻译框架简单介绍统计机器翻译的解码给定T,求S,使得P(T)*P(S|T)最大解码问题实际上就是一个搜索问题,搜索空间巨大,不能保证总能找到全局最优解。如果考虑所有对齐的可能性,那么这个问题就是一个NP问题[Knight].经典算法:-单调解码(不调整词序)-堆栈搜索-贪婪搜索NLP目录机器翻译框架简单介绍基于词的翻译模型基于短语的翻译模型的简单介绍小结NLP基于词的翻译模型词对齐对齐模式:是描述源语言到目标语言的映射关系。源语言s中有m个单词,目标语言t中有n个单词,a=a1a2a3…amai∈(0,1,2,…,n)多可爱的一只猫啊!Whatalovelycat!a=132405NLP例:Ipackedhimalittlefoodsothathewouldnotgethungry.我给他包了点儿食品,免得他挨饿。词对齐的特点:特点:对齐模式复杂:一对多,多对一,多对多都是非常普遍。基于词的翻译模型NLP词对齐的困难:-翻译奇异:一个词出现两个以上的译词。-双语词典覆盖率有限:非常普遍的现象。-位置歧异:出现连个以上相同的词。-汉语词语切分问题-虚词问题:虚词的翻译非常灵活,或没有对意词。-意译问题:根本找不到对译的词。基于词的翻译模型NLP一般而言:词对齐模型=词相似度模型×位置扭曲度模型公式:Sorce(tI,Sj)=S(tI,Sj)×D(I,j)基于词的翻译模型NLP词语相似度模型1、戴斯系数(dicecoefficient)设S1和S2是两个集合,则这两个集合的戴斯系数表示为计算源语言词Si和目标语言词Tj的戴斯系数首先,在双语字典中查询Si对应的所有的译项,然后,计算所有译项与Tj的戴斯系数,取其中的最大值作为Dice(Si,Sj)的值。2*|S1S2|Dice(1,2)|S1|+|S2|SS基于词的翻译模型NLP2、IBM(model-1)S(tI,Sj)=P(tI|Sj)=3、互信息4、概念相似度(同义词林)Sim(p1,p2)=d:p1,p2两个概念之间的距离SiTjSi语料库中翻译成的次数语料库中出现的次数2()*()I(,)log(,)pxpyxypxyd基于词的翻译模型NLP位置扭曲度模型1、绝对扭曲度模型(IBMmodel2)m:目标语言句子长度l:源语言句子长度i:源语言词语位置j:目标语言词语位置j|i,m,lD()基于词的翻译模型NLP基于HMM的扭曲度模型--将每个对齐看作状态,对齐位置之间的转移是状态的转移,该对齐处的单词作为输出,这样就将词对齐问题映射到HMM问题上。基于词的翻译模型NLP基于统计的词对齐模型一般表示为:LengthprobabilityalignmentprobabilityLexiconprobability基于词的翻译模型NLP多可爱的一只猫啊!Whatalovelycat!1、已知汉语句子和英语句子之间对齐2、P(length=5|t)3、对齐概率4、词典翻译概率34基于词的翻译模型NLP1、IBMModel-12、IBMMOdel-23、IBMModel–34、隐马尔可夫对齐模型5、小结基于词的翻译模型NLP基于词的翻译模型Model-11、统一的模式对齐概率2、长度概率为常数(|)PJI111(|)(|)(1)JjIjajJjpfepfeINLP基于词的翻译模型Model-2为了降低词对齐所估计的参数的个数,我们使用p(aj|j,I)代替p(aj|j,I,J)---ochNLPIBMModel1&2的推导方式基于词的翻译模型NLP基于词的翻译模型IBMModel1&2的推导方式NLP基于词的翻译模型IBMModel1&2的推导方式NLP基于词的翻译模型IBMModel3&4&5NLP基于词的翻译模型IBMModel3&4&51、首先根据语言词语的繁殖概率,确定每个源语言词翻译成多少个目标语言词。2、根据每个源语言词语的目标语言词数,将每个源语言词复制若干次。NLP基于词的翻译模型IBMModel3&4&53、将复制后得到的每个源语言词,根据翻译概率,翻译成一个目标语言词。4、根据调序概率,将翻译得到的目标语言词重新调整顺序,得到目标语言句子。NLP基于词的翻译模型IBM模型的参数训练IBMModel-1-任何初始化均可达到全局最优IBMModel2-5--存在大量局部最优,任意给定的初值很容易导致局部最优,而无法达到全局最优的结果。--IBM的训练策略:.一次训练IBM1-5.对于与上一级模型相同的参数初始值,直接去上一个模型的训练结果.对于新增加的参数,取任意初始值。NLPIBMModel1推导过程英语句子:法语句子:(1)对齐有aj决定其中,123......leeee213......mffffmj=1j|aPr(,|)()(1)mjFAEtflejmaj(1,)(0,l)NLPIBMModel1推导过程m100j=1j|aPr(|)......()(1)llmaamjFEtfle(2)(3)对于每个e的满足归一化条件:(|)1ftfe我们要求的是在(3)限制条件下(2)的极值,翻译问题转为极值问题。NLPIBMModel1推导过程根据拉格朗日求极值法的对t(f|e)求偏导数,使偏导数等于0m100j=1j|a......()((|)1)(1)(,)llmaamfejtfetfelhte(4)()(|)htfem11001j=1jaj|a......(,)(,)(|)()(1)llmjemaamjjffeetfetfle当f=fj函数=1Other函数=0(5)NLPIBMModel1推导过程m11001j=1jaj|a(|)......(,)(,)()(1)llmejmaamjjtfeffeetflemj=1j|aPr(,|)()(1)mjFAEtfle(6)由于t(f|e)翻译概率出现在等式的两端,因此,我们可以用迭代训练来估计参数。由公式(1)和公式(6)推出:(1)(7)11aj(|)Pr(,|)(,)(,)mejAjtfeFAEffee在对齐模式A中e与f连接的次数NLPIBMModel1推导过程定义:在给定对齐句子F和E中词e与词f连接次数的数学期望:1aj(|;,)Pr(|,)(,)(,)mjAjCfeFEAFEffee(9)(8)在句子F中f出现的次数*在句子E中e出现的次数Pr(,|)Pr(,|)Pr(|,)Pr(,|)Pr(|)AFAEFAEAFEFAEFENLPIBMModel1推导过程公式(7)公式(8)11aj(|)Pr(,|)(,)(,)mejAjtfeFAEffee1(|)(|;,)etfeCfeFEPr(|)eeFE替换使用公式(7)和公式(8)来推导:1aj(|;,)Pr(|,)(,)(,)mjAjCfeFEAFEffee(10)NLPIBMModel1推导过程训练数据是句对齐的样本:1、(F1|E1),(F2|E2),……,(Fs|Es)2、等式变形S1s1(|)(|;,)ssetfeCfeFE(11)mm1000j=1j=1jj||a......()()()()lllaamijjtftfabcdabadbcbdee例如:NLPIBMModel1推导过程m100j=1mi0j=1ji||aPr(|)......()(1)Pr(|)()(1)llmaamlmjjFEtflFEtflee1、重新定义计算翻译概率:(12)(13)2、利用公式(12)来重新计算拉格朗日极值:110(|)(|;,)(,)(
本文标题:SMT简单介绍
链接地址:https://www.777doc.com/doc-4577433 .html