您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 机器翻译理论和技术8
机器翻译理论和技术主要内容机器翻译概述机器翻译的历史机器翻译与自然语言处理机器翻译所涉及的学科机器翻译基本策略和实现方法机器翻译的难点机器翻译的现状传统的(基于规则)机器翻译方法(理性方法)词法分析词性标注分词(汉语、日语)句法分析基于CFG(上下文无关文法)的句法表示及其分析技术基于扩充的CFG(复杂特征集、合一运算)的句法表示及其分析技术语义分析词义及句义表示基于格语法的句义分析转换、生成技术主要内容(续1)基于语料库的机器翻译方法(经验方法)基于统计的机器翻译方法语言模型(N元文法)HMM模型与词性标注PCFG文法与句法分析统计机器翻译模型(SMT)基于实例的机器翻译方法基于混合策略的机器翻译方法主要内容(续2)所需的前导知识形式语言与自动机编译技术概率与统计参考书籍赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000刘群等译,自然语言理解(第二版),电子工业出版社,2005苑春法等译,统计自然语言处理基础,电子工业出版社,2005冯志伟等译,自然语言处理综论,电子工业出版社,2005范明等译,统计学习基础--数据挖掘、推理与预测,电子工业出版社,2004王小捷等,自然语言处理技术基础,北京邮电大学出版社,2002刘颖,计算语言学,清华大学出版社,2002姚天顺,自然语言理解--一种让机器懂得人类语言的研究(第2版),清华大学出版社,2002黄昌宁等,语料库语言学,商务印书馆,2002冯志伟,计算语言学基础,商务印书馆,2001余士文,计算语言学概论,商务印书馆,2003BonnieJ.Dorr,etal,SurveyofCurrentParadigmsinMachineTranslation,TechnicalReportLAMP-TR-027,LanguageandMediaProcessingLab,UniversityofMaryland.HutchinsWJ,MachineTranslation:Past,Present,Future.Chichester:EllisHorwood,1986ArturoTrujillo,TranslationEngines:TechniquesforMachineTranslation,Springer-VerlagLondonLimited1999PeterF.Brown,etal.,AStatisticalApproachtoMT,ComputationalLinguistics,1990,16(2)P.F.Brown,etal.,TheMathematicsofStatisticalMachineTranslation:ParameterEstimation,ComputationalLinguistics,1993,19(2)MakotoNagao,AFrameworkofaMechanicalTranslationbetweenJapaneseandEnglishbyAnalogPrinciple,InA.ElithornandR.Banerji(Eds.),ArtificialandHumanIntelligence.NATOPublications,1984JamesAllen,NaturalLanguageUnderstanding,TheBenjamin/CummingsPublishingCompany,Inc.1987ChristopherD.Manning&HinrichSchutze,FoundationsofStatisticalNaturalLangugaeProcessing,MassachusettsInstituteofTechnology,1999DanielJurafsky&JamesH.Martin,SpeechandLanguageProcessing,Prentice-Hall,2000TrevorHastie,etal.,TheElementsofStatisticalLearning--DataMining,Inference,andPrediction,Springer-Verlag,NewYork,2001课程考核Projects提交要求(每个project)报告(说明基本做法)源程序及可运行的程序机器翻译概述机器翻译(MachineTranslation,简称MT)是指利用计算机实现自然语言(英语、汉语等)之间的自动翻译。文本机器翻译语音机器翻译机器辅助翻译(MachineAidedTranslation或ComputerAidedTranslation,简称MAT或CAT)翻译记忆体(TranslationMemory,简称TM)双语对照的文本编辑...机器翻译历史1947,WarrenWeaver’smemo1954,第一个公开展示的俄英MT原型系统1966,美国科学院的ALPAC报告宣告机器翻译走入低谷1970s,Systran(1970),Meteo(1976),Early1980s,复苏,Eurotra,MuLate1980s~early1990s,商品化系统投入市场,语音翻译,统计机器翻译Late1990s,Internet,MAT,EBMTIhaveatextinfrontofmewhichiswritteninRussianbutIamgoingtopretendthatitisreallywritteninEnglishandthatithasbeencodedinsomestrangesymbols.AllIneeddoisstripoffthecodeinordertoretrievetheinformationcontainedinthetext机器翻译与自然语言处理自然语言处理(NLP)是指用计算机对语言信息进行处理的方法和技术。与NLP相近的两个研究领域:自然语言理解(NLU):强调对语言含义和意图的深层次解释计算语言学(CL):强调可计算的语言理论NLP技术的应用机器翻译自动摘要文本分类信息检索信息抽取自动问答情感分析......自动摘要(TextSummarization)利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。压缩比文本分类(TextClassification)利用计算机将一篇文章归于预先给定的某一类或某几类的过程。文本表示相似度计算可用于信息过滤(InformationFiltering)信息检索(InformationRetrieval,IR)主题相关的文本获取。google、百度、...(基于关键词的)倒排文档信息抽取(InformationExtraction,IE)主题相关的信息获取信息抽取是指从非结构化或半结构化的自然语言文本中提取出与某个主题相关的结构化信息。IE对数据挖掘的支持新华社北京3月8日电(记者李术峰):中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央1998年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有100多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。信息抽取实例:会议报道(人民日报1998-03-09)信息抽取的结果会议时间Time1998年3月8日会议地点Spot北京会议召集者/主持人Convener个人姓名/团体名称Name蒋正华机构、职位Org/Post主席,农工民主党中央会议名/标题Conf-Title中国农工民主党第十二届中央常务委员会第一次会议自动问答(QuestionAnswering,QA)针对用户提出的问题,给出具体的答案。问句理解和答案生成。情感分析(SentimentAnalysis或OpinionAnalysis)分析文章对某个对象的态度是正面还是负面。应用于:市场决策、公共关系、...自然语言处理的主要任务语言分析词法分析:形态还原、词性标注、命名实体识别、分词(汉语)等句法分析:完全句法分析、组块分析、依存分析语义分析:词义、句义(依存、格关系、...)、篇章(上下文分)(指代、实体关系)语言生成多语言处理:对齐、转换不同的应用对上述任务有不同的要求。MT是NLP技术的典型应用,它几乎涵盖了NLP各个任务。自然语言处理所涉及的学科计算语言学:各种语法、语义理论计算机科学(包括人工智能)数学:逻辑、概率与统计、信息论,等哲学心理学直译(Direct):从原文句子的表层(词、词组或短语)出发,直接转换成译文(必要的词序调整)。转换(Transfer):对源语言进行分析,得到一个基于源语言的中间表示;然后,把这个中间表示转换成基于目标语言的中间表示;从基于目标语言的中间表示生成目标语言。中间语(Interlingua):对源语言进行分析,得到一个独立于源语言和目标语言的、基于概念的中间表示;从这个中间表示生成目标语言。机器翻译的基本策略中间语言源语言目标语言分析生成词汇转换句法转换语义转换(词法、句法、语义)(词法、句法、语义)机器翻译的实现方法基于语言规则的理性方法(Rationalistapproach)基于以规则形式表达的语言知识(词、句法、语义以及转换)进行推理。(Rule-basedMT)又称传统的翻译方法,强调人对语言知识的理性整理。Chomsky:先天语言能力,主宰1960-1985基于语料库的经验方法(Empiricistapproach)以大规模语料库(单语和双语)为语言知识基础。包括:基于统计的方法(SMT)利用统计学习方法自动获取和运用隐含在语料库中的知识翻译知识的获取在翻译之前完成,体现为一系列统计数据(参数)基于实例的方法(EBMT)基于类比原理,通过相似度计算,在语料库中找出最相似的句子翻译知识的获取在翻译之前没有全部完成,翻译过程中还需要语料库混合方法理性方法的优、缺点相应的语言学理论基础好描述精确效率高知识获取困难(高级劳动)鲁棒性(适应性)差:不完备的规则系统将导致推理的失败知识扩充困难,很难保证规则之间的一致性经验方法的优、缺点知识获取容易(低级劳动)鲁棒性好:概率大的作为结果扩充容易、一致性容易维护相应的语言学理论基础差缺乏对语言学知识的深入利用,过于机械效率低利用各家之长,相互融合机器翻译的难点歧义处理:有限的词汇和规则表达复杂的、无限的语言语言知识的表示、获取和运用成语和惯用型的处理对语言的灵活性和动态性的处理灵活性:同一个意图的不同表达,甚至包含错误的语法等动态性:语言在不断的变化,如:新词等上下文和世界知识(语言无关)的利用和处理汉语处理的难点缺乏计算语言学的句法/语义理论,大都借用基于西方语言的句法/语义理论词法分析分词词性标注难句法分析主动词识别难词法分类与句法结构对应差语义分析句法结构与句义对应差时体态确定难(汉语无形态变化)资源(语料库)缺乏机器翻译的现状目前,机器翻译主要在一些简单的翻译任务中起到了一定的效果:对翻译质量要求不高的领域,如:网页浏览等子语言辅助翻译(后编辑)任意文本的高质量的全自动翻译目前还很难实现。传统的(基于规则)机器翻译方法又称理性方法强调对语言知识的理性整理受计算语言学理论指导注重语言分析,翻译过程体现为“分析-(转换)-生成”基于规则的知识表示和推导翻译规则(数据)与
本文标题:机器翻译理论和技术8
链接地址:https://www.777doc.com/doc-6369842 .html