统计机器翻译简介

NLP课题组例会报告2002-12-6统计机器翻译简介刘群liuqun@ict.ac.cnNLP课题组例会报告2002-12-6统计机器翻译方法的特点利用语料库作为知识来源区别于规则方法：无需人工编写规则建立完整的统计模型区别于实例方法或模板方法：必须为整个翻译过程建立统计模型NLP课题组例会报告2002-12-6统计机器翻译的分类基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型IBM的PeterBrown等人首先提出目前影响最大几乎成为统计机器翻译的同义词基于最大熵的统计机器翻译模型源于基于特征的自然语言理解Och提出，获ACL2002最佳论文NLP课题组例会报告2002-12-6统计机器翻译的优缺点优点无需人工编写规则，利用语料库直接训练得到机器翻译系统；（但可以使用语言资源）系统开发周期短；鲁棒性好；译文质量好；缺点时空开销大；数据稀疏问题严重；对语料库依赖性强；算法研究不成熟。NLP课题组例会报告2002-12-6基于平行概率语法的统计机器翻译模型基本思想两种语言建立一套平行的语法规则，规则一一对应两套规则服从同样的概率分布句法分析的过程决定了生成的过程主要模型Alshawi的基于HeadTransducer的MT模型吴德恺的InverseTransductionGrammar（ITG）Takeda的Pattern-basedCFGforMTNLP课题组例会报告2002-12-6HeadTransducerMT(1)HeadTransducer（中心词转录机）是一种DefiniteStateAutomata（有限状态自动机）与一般的有限状态识别器的区别：每一条边上不仅有输入，而且有输出；不是从左至右输入，而是从中心词往两边输入NLP课题组例会报告2002-12-6HeadTransducerMT(2)a:a0:00:0b:ba:a-1:+1b:b-1:+1例子：一个可以将任何｛a，b｝组成的串倒置的HeadTransducerNLP课题组例会报告2002-12-6HeadTransducerMT(3)所有的语言知识（词典、规则）都表现为HeadTransducer；HeadTransducer可以嵌套：一个HeadTransducer的边是另一个的识别结果；纯统计的训练方法；对齐的结果是依存树：不使用词性和短语类标记；Chart句法分析器。NLP课题组例会报告2002-12-6InversionTransductionGrammar(1)比赛星期三开始。ThegamewillstartonWednesday。NLP课题组例会报告2002-12-6InversionTransductionGrammar(2)规则形式：A→[BC]A→BCA→x/y产生源语言和目标语言串分别为：BCBC：词序相同BCCB：词序交换xy：词典NLP课题组例会报告2002-12-6Pattern-basedCFGforMT(1)每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则（这两个规则称为翻译模板的骨架），以及对这两个规则的中心词约束和链接约束构成；举例：S:2→NP:1岁:MP:2了────────────S:be→NP:1beyear:NP:2oldNLP课题组例会报告2002-12-6Pattern-basedCFGforMT(2)中心词约束：对于上下文无关语法规则中右部（子结点）的每个非终结符，可以指定其中心词；对于规则左部（父结点）的非终结符，可以直接指定其中心词，也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词；链接约束：源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系，具有对应关系的非终结符互为翻译。NLP课题组例会报告2002-12-6信源－信道模型假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的，那么翻译的目标就是要将T还原成S，这也就是就是一个解码的过程。注意，源语言S是噪声信道的输入语言，目标语言T是噪声信道的输出语言，与整个机器翻译系统的源语言和目标语言刚好相反。ＳP（S）P（T｜S）ＴNLP课题组例会报告2002-12-6统计机器翻译基本方程式P.Brown称上式为统计机器翻译基本方程式语言模型：P(S)翻译模型：P(T|S)语言模型反映“S像一个句子”的程度：流利度翻译模型反映“T像S”的程度：忠实度联合使用两个模型效果好于单独使用翻译模型，因为后者容易导致一些不好的译文。)|()(maxargSTPSPSSNLP课题组例会报告2002-12-6语言模型与翻译模型考虑汉语动词“打”的翻译：有几十种对应的英语词译文：打人，打饭，打鱼，打毛衣，打猎，打草稿，……如果直接采用翻译模型，就需要根据上下文建立复杂的上下文条件概率模型如果采用信源－信道思想，只要建立简单的翻译模型，可以同样达到目标词语选择的效果：翻译模型：不考虑上下文，只考虑单词之间的翻译概率语言模型：根据单词之间的同现选择最好的译文词NLP课题组例会报告2002-12-6统计机器翻译的三个问题三个问题：语言模型P(S)的参数估计翻译模型P(T|S)的参数估计解码（搜索）算法NLP课题组例会报告2002-12-6语言模型把一种语言理解成是产生一个句子的随机事件语言模型反映的是一个句子在一种语言中出现的概率语言模型N元语法P(S)=p(s0)*p(s1|s0)*…*p(Sn|Sn-1…Sn-N)链语法：可以处理长距离依赖PCFG（要使用句法标记）NLP课题组例会报告2002-12-6引入隐含变量：对齐A翻译模型与对齐ASATPSTP)|,()|(P(T|S)的计算转化为P(T,A|S)的估计对齐：建立源语言句子和目标语言句子的词与词之间的对应关系NLP课题组例会报告2002-12-6IBMModel对P(T,A|S)的估计IBMModel1仅考虑词对词的互译概率IBMModel2加入了词的位置变化的概率IBMModel3加入了一个词翻译成多个词的概率IBMModel4IBMModel5NLP课题组例会报告2002-12-6IBMModel3对于句子中每一个英语单词e，选择一个产出率φ，其概率为n(φ|e)；对于所有单词的产出率求和得到m-prime；按照下面的方式构造一个新的英语单词串：删除产出率为0的单词，复制产出率为1的单词，复制两遍产出率为2的单词，依此类推；在这m-prime个单词的每一个后面，决定是否插入一个空单词NULL，插入和不插入的概率分别为p1和p0；φ0为插入的空单词NULL的个数。设m为目前的总单词数：m-prime+φ0；根据概率表t(f|e)，将每一个单词e替换为外文单词f；对于不是由空单词NULL产生的每一个外语单词，根据概率表d(j|i,l,m)，赋予一个位置。这里j是法语单词在法语串中的位置，i是产生当前这个法语单词的对应英语单词在英语句子中的位置，l是英语串的长度，m是法语串的长度；如果任何一个目标语言位置被多重登录（含有一个以上单词），则返回失败；给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置（没有被占用）。任何一个赋值都被认为是等概率的，概率值为1/φ0。最后，读出法语串，其概率为上述每一步概率的乘积。NLP课题组例会报告2002-12-6翻译模型的参数训练ViterbiTraining（对比：EMTraining）1.给定初始参数；2.用已有的参数求最好（Viterbi）的对齐；3.用得到的对齐重新计算参数；4.回到第二步，直到收敛为止。IBMModel1：存在全局最优IBMModel2~5：不存在全局最优，初始值取上一个模型训练的结果NLP课题组例会报告2002-12-6统计机器翻译的解码借鉴语音识别的搜索算法：堆栈搜索参数空间极大，搜索不能总是保证最优从错误类型看，只有两种：模型错误：概率最大的句子不是正确的句子搜索错误：没有找到概率最大的句子后一类错误只占总错误数的5%（IBM）搜索问题不是瓶颈NLP课题组例会报告2002-12-6IBM公司的Candide系统1基于统计的机器翻译方法分析－转换－生成中间表示是线性的分析和生成都是可逆的分析（预处理）：1.短语切分2.专名与数词检测3.大小写与拼写校正4.形态分析5.语言的归一化NLP课题组例会报告2002-12-6IBM公司的Candide系统2转换（解码）：基于统计的机器翻译解码分为两个阶段：第一阶段：使用粗糙模型的堆栈搜索输出140个评分最高的译文语言模型：三元语法翻译模型：EM算法第二阶段：使用精细模型的扰动搜索对第一阶段的输出结果先扩充，再重新评分语言模型：链语法翻译模型：最大熵方法NLP课题组例会报告2002-12-6IBM公司的Candide系统3ARPA的测试结果：FluencyAdequacyTimeRatio199219931992199319921993Systran.466.540.686.743Candide.511.580.575.670Transman.819.838.837.850.688.625Manual.833.840NLP课题组例会报告2002-12-6JHU的1999年夏季研讨班由来IBM的实验引起了广泛的兴趣IBM的实验很难重复：工作量太大目的构造一个统计机器翻译工具（EGYPT）并使它对于研究者来说是可用的（免费传播）；在研讨班上用这个工具集构造一个捷克语—英语的机器翻译系统；进行基准评价：主观和客观；通过使用形态和句法转录机改进基准测试的结果；在研讨班最后，在一天之内构造一个新语对的翻译器。JHU夏季研讨班大大促进了统计机器翻译的研究NLP课题组例会报告2002-12-6EGYPT工具包EGYPT的模块1.GIZA：这个模块用于从双语语料库中抽取统计知识（参数训练）2.Decoder：解码器，用于执行具体的翻译过程（在信源信道模型中，“翻译”就是“解码”）3.Cairo：整个翻译系统的可视化界面，用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程4.Whittle：语料库预处理工具EGYPT可在网上免费下载，成为SMT的基准NLP课题组例会报告2002-12-6EGYPT工具包的性能“当解码器的原形系统在研讨班上完成时，我们很高兴并惊异于其速度和性能。1990年代早期在IBM公司举行的DARPA机器翻译评价时，我们曾经预计只有很短（10个词左右）的句子才可以用统计方法进行解码，即使那样，每个句子的解码时间也可能是几个小时。在早期IBM的工作过去将近10年后，摩尔定律、更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对25个单词的句子进行解码的系统。为了确保成功，我们在搜索中使用了相当严格的阈值和约束，如下所述。但是,解码器相当有效这个事实为这个方向未来的工作预示了很好的前景，并肯定了IBM的工作的初衷，即强调概率模型比效率更重要。”——引自JHU统计机器翻译研讨班的技术报告NLP课题组例会报告2002-12-6对IBM方法的改进IBM方法的问题不考虑结构：能否适用于句法结构差别较大的语言？数据稀疏问题严重后续的改进工作王野翊的改进Yamada和Knight的改进Och等人的改进NLP课题组例会报告2002-12-6王野翊的改进(1)背景：德英口语翻译系统语法结构差异较大数据稀疏（训练数据有限）改进：两个层次的对齐模型粗对齐：短语之间的对齐细对齐：短语内词的对齐NLP课题组例会报告2002-12-6王野翊的改进(2)文法推导词语聚类：基于互信息的方法短语归并规则学习优点机器翻译的正确率提高：错误率降低了11%提高了整个系统的效率：搜索空间更小缓解了因口语数据缺乏导致的数据稀疏问题NLP课题组例会报告2002-12-6Yamada和Knight的改进(1)基于语法的翻译模型（Syntax-base

统计机器翻译简介

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

土建施工员基础知识习题

_金融工具准则--工具的确认与计量（PDF 107页）

国际金融学(中南大学)

铁路旅客运输组织

瓦斯灾害预测与防治——第讲瓦斯基础参数测定技术

酒店客房管理系统毕业论文

质量意识培训

我国胶带产品的质量现状和存在问题极其改进建议

产业竞争、企业能力与竞争优势——从产业领先地位之争中在位者和

《行政领导学》期末复习资料(X年12月)何志华

相关文档

相关搜索