您好,欢迎访问三七文档
自然语言处理NaturalLanguageProcessing(NLP)陈家骏,戴新宇chenjj@nlp.nju.edu.cndxy@nlp.nju.edu.cn主要内容(1)自然语言处理概述什么是自然语言处理自然语言处理技术的应用自然语言处理的基本策略和实现方法自然语言处理的难点自然语言处理所涉及的学科()基于规则的自然语言处理方法(理性方法,传统方法)基于词典和规则的形态还原(英语)、词性标注以及分词(汉语、日语)基于CFG(上下文无关文法)和扩充的CFG(复杂特征集、合一运算)的句法表示及其分析技术基于逻辑形式和格语法的句义分析基于规则的机器翻译()主要内容(2)基于语料库的自然语言处理方法(经验方法)语言模型(N元文法)分词、词性标注(序列化标注模型)句法分析(概率上下文无关模型)文本分类(朴素贝叶斯模型、最大熵模型)机器翻译(IBMModel等)......(基于神经网络的深度学习方法)主要内容(3)所需的前导知识编译技术概率与统计参考书籍宗成庆,统计自然语言处理,清华大学出版社,2008刘群等译,自然语言理解(第二版),电子工业出版社,2005苑春法等译,统计自然语言处理基础,电子工业出版社,2005冯志伟等译,自然语言处理综论,电子工业出版社,2005黄昌宁等,语料库语言学,商务印书馆,2002冯志伟,计算语言学基础,商务印书馆,2001余士文,计算语言学概论,商务印书馆,2003姚天顺,自然语言理解--一种让机器懂得人类语言的研究(第2版),清华大学出版社,2002赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000宗成庆等译,统计机器翻译,电子工业出版社,2012PeterF.Brown,etal.,AStatisticalApproachtoMT,ComputationalLinguistics,1990,16(2)课程考核Projects提交报告(说明基本做法)和源程序及可运行的程序期末笔试自然语言处理概述什么是自然语言处理充分利用信息将会给人们带来巨大的收益,而大量的信息以自然语言(英语、汉语等)形式存在。如何有效地获取和利用以自然语言形式出现的信息?自然语言处理(NaturalLanguageProcessing,简称NLP)是指用计算机对语言信息进行处理的方法和技术。与NLP相近的两个研究领域:自然语言理解(NaturalLanguageUnderstanding,NLU):强调对语言含义和意图的深层次解释计算语言学(ComputationalLinguistics,CL):强调可计算的语言理论NLP技术的应用机器翻译自动摘要文本分类与信息过滤信息检索信息抽取与文本挖掘情感分析自动问答......机器翻译(MachineTranslation)机器翻译(MachineTranslation,简称MT)是指利用计算机实现自然语言(英语、汉语等)之间的自动翻译。是最早的计算机应用之一分为:文本机器翻译和语音机器翻译机器辅助翻译(MachineAidedTranslation或ComputerAidedTranslation,简称MAT或CAT)翻译记忆体(TranslationMemory,简称TM)双语对照的文本编辑...自动摘要(TextSummarization)利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简洁、连贯的短文。指标:压缩比、...文本分类(TextClassification)将一篇文档归于预先给定的一个类别集合中的某一类或某几类。可用于图书馆的图书分类信息过滤......信息检索(InformationRetrieval,IR)主题相关的文本获取。基于关键词,从某文档集合中检索出相关的文档。关键技术:倒排索引、...google、百度、...信息抽取(InformationExtraction,IE)主题相关的信息获取。基于某个主题模板,从非结构化或半结构化的自然语言文本中提取出相关的结构化信息。对机器翻译、自动问答、数据挖掘(文本挖掘)等提供支持。新华社北京3月8日电(记者李术峰):中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央1998年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有100多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。信息抽取实例:会议报道(人民日报1998-03-09)信息抽取的结果会议时间Time1998年3月8日会议地点Spot北京会议召集者/主持人Convener个人姓名/团体名称Name蒋正华机构、职位Org/Post主席,农工民主党中央会议名/标题Conf-Title中国农工民主党第十二届中央常务委员会第一次会议情感分析(SentimentAnalysis或OpinionAnalysis)分析文章(评论)对某个对象(社会热点事件、产品或者服务)的态度(正面还是负面)。政府舆情分析:热点事件发现、预警企业市场决策:产品意见调查、产品推荐消费者购买决策......自动问答(QuestionAnswering,QA)针对用户提出的问题,给出具体的答案。Apple的Siri、IBM的Watson机器人、百度的“知道”、…自然语言处理的主要任务(工作)语言分析:分析语言表达的结构和含义词法分析:形态还原、词性标注、命名实体识别、分词(汉语、日语等)等句法分析:组块分析、结构分析、依存分析语义分析:词义、句义(逻辑、格关系、...)、篇章(上下文)(指代、实体关系)语言生成:从某种内部表示生成语言表达多语言处理(机器翻译、跨语言检索):语言之间的对应、转换不同的应用对上述任务有不同的要求。自然语言的分类(基于形态结构)分析型语言词形变化很少没有表示词的语法功能的附加成分,由词序和虚词表示词之间的语法关系汉语、藏语等黏着型语言有词形变化词的语法意义(功能)由附加成分表达日语、芬兰语等屈折型语言有词形变化词的语法意义由词的形态变化来表示英语、德语、法语等另外,还可以按SVO型(主-动-宾)、VSO型(动-主-宾)和SOV型(主-宾-动)分类自然语言处理的实现方法基于规则的理性方法(Rationalistapproach)基于以规则形式表达的语言知识(词、句法、语义以及转换、生成)进行推理。强调人对语言知识的理性整理。受Chomsky主张的人具有先天语言能力观点的影响,主宰1960-1985基于语料库的经验方法(Empiricistapproach)以大规模语料库(单语和双语)为语言知识基础。利用统计学习和基于神经网络的深度学习方法自动获取和运用隐含在语料库中的知识。学习到的知识体现为一系列模型参数。混合方法理性方法的优、缺点相应的语言学理论基础好语言知识描述精确处理效率高知识获取困难(高级劳动)系统鲁棒性(适应性)差:不完备的规则系统将导致推理的失败知识扩充困难,很难保证规则之间的一致性经验方法的优、缺点知识获取容易(低级劳动)系统鲁棒性好:概率大的作为结果知识扩充容易、一致性容易维护相应的语言学理论基础差缺乏对语言学知识的深入描述和利用,过于机械处理效率低利用各家之长,相互融合自然语言处理的难点歧义处理有限的词汇和规则表达复杂、多样的对象语言知识的表示、获取和运用成语和惯用型的处理对语言的灵活性和动态性的处理灵活性:同一个意图的不同表达,甚至包含错误的语法等动态性:语言在不断的变化,如:新词等上下文和世界知识(常识,语言无关)的利用和处理汉语处理的难点缺乏计算语言学的句法/语义理论,大都借用基于西方语言的句法/语义理论词法分析分词词性标注难句法分析主动词识别难词法分类与句法功能对应差语义分析句法结构与句义对应差时体态确定难(汉语无形态变化)资源(语料库)缺乏自然语言处理所涉及的学科计算语言学:各种语法、语义理论计算机科学(包括人工智能、机器学习)数学:逻辑、概率与统计、信息论等哲学(认知学)心理学......基于规则的自然语言处理方法(理性方法,传统方法)概述强调对语言知识的理性整理(知识工程)受计算语言学理论指导基于规则的知识表示和推导(符号计算)语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!词法分析形态还原(针对英语、德语、法语等)把句子中的词还原成基本词形。词性标注为句子中的词标上预定义类别集合(标注集)中的类。命名实体识别人名地名机构名分词(针对汉语、日语等)识别出句子中的词。形态还原(英语)把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。构词特点屈折变化:词尾和词形变化,词性不变。如:study,studied,studied,studyingspeak,spoke,spoken,speaking派生变化:加前缀和后缀,词性发生变化。如:friend,friendly,friendship,...复合变化:多个单词以某种方式组合成一个词。还原规则通用规则:变化有规律个性规则:变化无规律形态还原规则举例英语“规则动词”还原*s-*(SINGULAR3)*es-*(SINGULAR3)*ies-*y(SINGULAR3)*ing-*(VING)*ing-*e(VING)*ying-*ie(VING)*??ing-*?(VING)*ed-*(PAST)(VEN)*ed-*e(PAST)(VEN)*ied-*y(PAST)(VEN)*??ed-*?(PAST)(VEN)英语不规则动词还原went-go(PAST)gone-go(VEN)sat-sit(PAST)(VEN)形态还原算法1.输入一个单词2.如果词典里有该词,输出该词及其属性,转4,否则,转33.如果有该词的还原规则,并且,词典里有还原后的词,则输出还原后的词及其属性,转4,否则,调用未登录词模块4.如果输入中还有单词,转(1),否则,结束。Proj.1实现一个英语单词还原工具。(词典:)词性标注为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。标注体系的确定标注方法词性标注体系词的分类按形态和句法功能(句法相关性)按表达的意思(语义相关性)兼顾上述二者英语词的分类开放类(openclass)Nouns句法上:可作物主、可有限定词、有复数形式语义上:人名、地名和物名Verbs句法上:作谓语、有几种词形变化语义上:动作、过程(一系列动作)Adjectives句法上:修饰Nouns等语义上:性质Adverbs句法上:修饰Verbs等语义上:方向、程度、方式、时间封闭类(closedclass,functionwords)DeterminersPronounsPrepositionsConjunctionsAuxiliaryverbsParticles(if、n
本文标题:机器翻译理论和技术
链接地址:https://www.777doc.com/doc-3569891 .html