您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 机器翻译概论宗成庆中国科学院自动化研究所模式识别国家重
北京市海淀区中关村东路95号邮编:100190主页:邮件:cqzong@nlpr.ia.ac.cn机器翻译概论宗成庆中国科学院自动化研究所模式识别国家重点实验室内容提要1、概述2、机器翻译的产生与发展3、机器翻译的困难4、机器翻译研究现状5、机器翻译基本方法有关专家已经指出,语言障碍是21世纪国际社会全球化面临的主要困难之一;机器翻译涉及语言学、计算语言学、认知科学和数学等多种学科,具有重要的科学意义;具有巨大的社会需求,以欧洲为例,有380多种语言,2004年5月1日以前欧盟有11种官方语言,每年为这11种语言翻译、转录文件耗费的人力费用大约549M欧元。目前欧盟20多种工作语言;汉语已经不再仅仅是中国人关注的语言。1概述ChineseSpanishEnglishHindi/UrduArabicPortugueseJapaneseFrench(Year)10005003001000195019701990201020302050(Million)1概述ChineseSpanishEnglishHindi/UrduArabicPortugueseJapaneseFrench(Year)10005003001000195019701990201020302050(Million)汉英两大强势语言的自动翻译问题是人类语言技术中最具挑战性的研究课题!1概述少数民族语言信息处理意义重大-经济、文化、教育、体育、旅游…-国家安全-民族团结1概述2、机器翻译的产生与发展2机器翻译的产生与发展概念:机器翻译(machinetranslation,MT)是用计算机把一种语言(源语言,sourcelanguage)翻译成另一种语言(目标语言,targetlanguage)的一门学科和技术。机器翻译MT源语言(SL)目标语言(TL)2机器翻译的产生与发展古希腊时期17世纪:笛卡儿(Descartes)莱布尼兹(Leibniz)试图用统一的数字代码编写词典;17世纪中页贝克(CaveBeck)等人出版类似的词典。1930s:亚美尼亚法国工程师阿尔楚尼(G.B.Arsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做机器脑(mechanicalbrain)。1933年,前苏联发明家特洛扬斯基设计了用机械方法把一种语言翻译成为另一种语言的机器。1946年,世界上第一台电子计算机ENIAC诞生以后,英国工程师A.D.Booth和美国洛克菲勒基金会(RockefellerFoundation)副总裁W.Weaver提出了利用计算机进行机器翻译的设想。2机器翻译的产生与发展1947年3月,W.Weaver给N.Wiener写信,讨论机器翻译问题,但遭到了N.Wiener的反对。1949年,W.Weaver发表了以‘Translation’为题目的备忘录,正式提出机器翻译问题。2机器翻译的产生与发展Weaver的两个基本观点:(1)翻译类似于解读密码的过程:当我阅读一篇用俄语写的文章时,我可以说这篇文章实际上是用英文写的,只不过它用另外一种奇怪的符号编了码,当我阅读时,我是在进行解码;2机器翻译的产生与发展(2)原文和译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着,从语言A出发,经过某一“通用语言(universallanguage)”或“中间语言(interlingua)”,然后转换为语言B,这种“通用语言”或“中间语言”可以假定是全人类共同的。2机器翻译的产生与发展美国和英国的学术界对机器翻译产生了浓厚的兴趣,并得到了实业界的支持。1954年Georgetown大学在IBM协助下,用IBM-701计算机实现了世界上第一个MT系统,实现俄译英翻译,1954年1月该系统在纽约公开演示。系统只有250条俄语词汇,6条语法规则,可以翻译简单的俄语句子。随后10多年里,MT研究在国际上出现热潮。2机器翻译的产生与发展1964年,美国科学院成立语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryCommittee,ALPAC),调查机器翻译的研究情况,并于1966年11月公布了一个题为“语言与机器”的报告,简称ALPAC报告,宣称:“在目前给机器翻译以大力支持还没有多少理由”,“机器翻译遇到了难以克服的语义障碍(semanticbarrier)”。从此,机器翻译研究在世界范围内进入低迷状态。2机器翻译的产生与发展1970~1976年,法国、日本、加拿大等国,仍坚持机器翻译研究,而且,在这一阶段语法与算法分开,机器翻译研究开始复苏。代表系统:法国GETA,IMAG-CLIPS开发的ARIANE-78系统。2机器翻译的产生与发展1976~至今,繁荣时期:加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用机器翻译系统TAUM-METEO,用于天气预报翻译。每小时可以翻译6~30万个词;每天翻译1500-2000篇天气预报资料,并通过电视、报纸等立即公布1978年欧共体启动多语言机器翻译计划2机器翻译的产生与发展1982~1986,日本在提出第五代机的同时,研究日英双向机器翻译系统Mu和亚洲多语言机器翻译(日语、汉语、印尼语、马来西亚语、泰国语)1990年,IBM提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期2机器翻译的产生与发展概括为三个阶段:1954~1970(ALPAC):草创时期;1970~1976:复苏阶段;1976~现在:繁荣时期。2机器翻译的产生与发展3机器翻译的困难自然语言中普遍存在的歧义和未知现象句法结构歧义/词汇歧义/语用歧义…新的词汇、术语、结构、语义…机器翻译不仅仅是字符串的转换不同语言之间文化的差异现有方法无法表示和利用世界知识和常识机器翻译的解不唯一,而且始终存在的人为的标准3机器翻译的困难自然语言中普遍存在的歧义和未知现象句法结构歧义/词汇歧义/语用歧义…新的词汇、术语、结构、语义…机器翻译不仅仅是字符串的转换不同语言之间文化的差异现有方法无法表示和利用世界知识和常识机器翻译的解不唯一,而且始终存在的人为的标准3机器翻译的困难几乎自然语言处理中的所有问题在机器翻译中都会遇到。困难之一:大量歧义(ambiguity)现象词法歧义例如:(1)I’llseeProf.Zhanghome.(2)自动化研究所取得的成就。自动化/研究所/取得/的/成就/。自动化/研究/所/取得/的/成就/。?3机器翻译的困难(4)打扫平板罚款10元。打[扫平板]罚款10元。(3)门把手弄坏了。门/把/手/弄/坏/了/。门把手/弄/坏/了/。?3机器翻译的困难3机器翻译的困难其他实例:(1)上大学子烛光追思钱伟长(新浪网:)(2)“动物保护警察”明年上岗(《环球时报》2010年9月25日,第10版)(3)教育部长跑活动负责人与商家总经理被曝系师生(科学网:,2010-11-14)结构歧义(3)今天中午吃馒头。(4)今天中午吃食堂。(5)今天中午吃大碗。(1)喜欢乡下的孩子。(2)关于鲁迅的文章。(6)今天中午吃了闭门羹。3机器翻译的困难(7)这座碑是为纪念反对共产主义者叛乱中牺牲的英雄而建立的。…[反对共产主义者]叛乱……反对[共产主义者叛乱]…3机器翻译的困难(10)Isawamanwithatelescope.Isaw[amanwithatelescope].I[sawaman]withatelescope.Isawamanwithatelescopeinthepark.?(8)WhohasseenJohn?(9)WhohasJohnseen?主语宾语3机器翻译的困难112nnnCn!!)!2(2nnnnnn为句子中介词短语的个数。其中:我们将歧义组合数称为凯塔兰数(CatalanNumbers),记作Cn:3机器翻译的困难语义歧义他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。-《生活报》1994.11.13.第六版3机器翻译的困难困难之二:大量未知语言现象新词、人名、地名、术语等,如:裸退、蜗居、夏天、高山、温馨、不来梅、非典、甲流新含义如:窗口、奔腾、农民、同志、小姐,楼歪歪等新用法和新句型等,尤其在口语中或部分网络语言中,不断出现一些“非规范的”新的语句结构。如:被长工资,很中国布莱尔3机器翻译的困难(2)夫妻肺片:Husbandandwife’slungslices(3)童子鸡:(1)馒头:steamedbread3机器翻译的困难奇怪的翻译:MantouBoychickenwithoutsexuallifeYoungladchickenFuqifeipianspringchickenWedochickenright.3机器翻译的困难(1)我们做鸡是对的。(2)我们做鸡正点耶。(3)我们就是做鸡的。(4)我们有做鸡的权利。(5)我们只做鸡的右边。(6)我们可以做鸡,对吧!(7)我们行使了鸡的权利。(8)我们只做右边的鸡。(9)我们主张鸡权。(10)我们公正地做鸡!(11)我们要把鸡打成右派。(12)我们做鸡肉权利。(13)我们还是做鸡好。(14)我们用正确的方法炸鸡。(15)我们做鸡有理!(16)我们让鸡向右看齐.(17)我们肯定是鸡,对!(18)我们做的鸡才是正宗。……几十种翻译!4机器翻译研究现状若干翻译系统已实用化或接近实用化•Systran()•TAUM-METEO/•Googletranslator•华建翻译系统/有道翻译系统/金山词霸等4机器翻译研究现状仍面临若干问题理论模型与方法实现技术问题用户认识问题应尽快消除对机器翻译的误解让机器翻译系统翻译诗歌、散文和小说等高难度文艺作品是不现实的,也是不可能的。4机器翻译研究现状4机器翻译研究现状黛玉自在枕上感念宝钗……又听见窗外竹梢焦叶之上,雨声淅沥,消寒透幕,不觉又滴下泪来。(《红楼梦》第45回)Asshelaytherealone,Dai-Yu’sthoughtsturnedtoBao-chai…Thenshelistenedtotheinsistentrustleoftherainonthebamboosandplantainsoutsideherwindow.Thecoldnesspenetratedthecurtainsofherbed.Almostwithoutnoticingitshebadbeguntocry.-文学翻译家DavidHawkes摘自冯志伟著《机器翻译研究》,20044机器翻译研究现状Google翻译系统(|zh-CN|)Thedepartmentsshouldconductstrictpayment-relatedinspectionstoensuremigrantworkerspayisnotdelayed,saidYinWeimin,theMinisterofHumanResourcesandSocialSecurity.(
本文标题:机器翻译概论宗成庆中国科学院自动化研究所模式识别国家重
链接地址:https://www.777doc.com/doc-6139763 .html