您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 第七章自然语言理解案例
IntroductionofArtificialIntelligence内蒙古大学计算机学院闫蓉Mail:csyanr@imu.edu.cn第七章自然语言处理概述基本概念•什么是计算语言学(ComputationLinguistics)–用机器处理人类语言的理论和技术。–构造计算模型,用于自然语言的分析、转换、生成。•其他名称:–自然语言处理(NaturalLanguageProcessing,NLP)–自然语言理解(NaturalLanguageUnderstanding,NLU)–人类语言技术(HumanLanguageTechnology)•相关名称:–中文信息处理(ChineseInformationProcessing)–网络信息处理(WebInformationProcessing)基本概念•什么是自然语言–自然语言指人类使用的语言,如汉语、英语等。–语言是思维的载体,是人际交流的工具。–语言的两种属性-文字和声音–人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。•本学科的基本问题–如何让计算机具有语言信息处理能力?–如何利用计算机处理海量的语言信息?为什么要研究计算语言学?•信息时代到了!语言是信息的载体。•提高计算机的智能:能理解和处理大量语言信息。机器能够理解人的语言吗?•很难,但是没有证据表明不行。•什么是理解?–结构主义:机器的理解机制与人相同。•问题在于谁也说不清自己理解语言的步骤。–功能主义:机器的表现与人相同。•图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。一个NLP的例子:英汉翻译•输入英文句子:–MissSmithputtwobooksonthistable.•形态分析(MorphologicalAnalysis)–词形还原(Lemmatization):将词还原为词典中的原型。–词汇符号化(Tokenization):相当于中文分词。–分析结果:MissSmithput(+ed)twobook+sonthistable.•句法分析(SyntacticAnalysis):分析句子的结构。SNPVPMissSmithputtwobooksonthetable.VNPPP•词汇转换Miss小姐Smith史密斯put(+ed)放two两book+s书on在…上面this这diningtable.餐桌•短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面•生成–史密斯小姐放两书在这桌子上面。–史密斯小姐(把)两(本)书放在这(张)桌子上面。•最终翻译结果–英文:MissSmithputtwobooksonthetable.–中文:史密斯小姐把两本书放在这张桌子上面。机器如何理解自然语言?•机器对自然语言的理解方法,可借鉴编译器的工作原理。–机器通过编译器,可以分析、理解人工语言(程序设计语言)–编译器:读入源语言程序,将其翻译成目标语言的程序。词法分析器语法分析器语义分析器中间代码生成器代码优化器代码生成器异常处理符号表管理器源程序目标程序编译器工作过程•编译器•例子:•词法分析–将输入的字符流切分为token序列。•语法分析:–句子结构分析。•语义分析:–检测语义错误。词法分析器语法分析器语义分析器中间代码生成器Position:=initial+rate*60id1:=id2+id3*60:=id1+id2*60*id3inttoreal60PositionPosition......1234Position...符号表id3:=id1+id2编译器工作过程•编译器•例子:•中间代码生成–生成中间表示。•代码优化:–改进中间代码,以产生更高效率的机器代码。•目标代码生成–生成可重新定位的机器代码或汇编代码。中间代码生成器代码优化器目标代码生成器temp1:=inttoreal(60)temp2:=id3*temp1temp3:=id2+temp2id1:=temp3temp1:=id3*60.0id1:=id2+temp3MOVFid3,R2MULF#60.0,R2MOVFid2,R1ADDFR2,R1MOVFR1,id1机器如何理解自然语言?•机器理解自然语言的步骤–文本预处理–句子切分–形态分析–分词–词性标注–句法分析–词义消岐–语义分析–语用分析–篇章分析–海量文档处理机器理解自然语言的步骤•文本预处理:–文本采集–文本格式转换:PDF、Office、HTML纯文本–文本编码识别、转换:GB、Big5、Unicode。•句子切分–句子边界识别–例如:Mr.Wanglikesswimming,dancingandreading.•形态分析:–研究构词方法,词的有意义的组合。–构词的基本单位:词素(词根、前缀、后缀、词尾)–例如:老虎←老+虎;图书馆←图+书+馆–例如:work+er→workerdo+ing→doing机器理解自然语言的步骤•分词–将句子切分为词序列–例如:钓鱼岛/是/中国/的/领土/。•词性标注–给句子的词标注正确的词性–例如:钓鱼岛n/是v/中国n/的de/领土n/。•句法分析–分析句子的组成结构,–句子结构成分之间的相互关系。–判定一个句子的合法性SNPVP钓鱼岛是中国的领土VNP机器理解自然语言的步骤•词义消岐–研究给句子的词标注正确的词义。–例如:这个人真牛。//牛:动物|了不起。•语义分析(这句话说了什么)–研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。–语言和世界的映射关系–施事、受事、工具等•语用分析(为什么要说这句话)–研究不同语境中的语句的应用,及语境对语句理解的作用–语言交际目的:主题、述体、焦点机器理解自然语言的步骤•篇章分析–分析篇章的结构、主题、观点、摘要、有用信息。•主题分析•观点分析•自动文摘•信息抽取•信息过滤•海量文档处理–信息检索•搜索引擎、数字图书馆–文本分类、聚类•分类检索、聚类检索–话题探测与追踪•信息自组织NLP的研究内容(基础研究)NLP的研究内容(应用研究)NLP的不同层次[应用系统]数字图书馆、电子商务、电子政务、远程教育、语言学习[基础研究]分词、词性标注、短语切分、句法分析、语义分析、篇章理解等[应用技术研究]自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取[资源建设]语料库资源建设语言学知识库建设语言学家NLP研究者软件企业NLP的学科特点•交叉性学科–语言学:语言学基础知识。•语言学理论:形式语言文法•语言学资源:词典、语料库、知识库–数学•语料库语言学的数学基础:概率论、统计学、信息论。•模型:自动机、Markov模型、HMM等。–计算机科学•机器学习:机器的学习算法•人工智能(问题求解,知识表示,状态空间的图搜索算法)–心理语言学:研究人类理解自然语言的机制。NLP的历史•20世纪50年代起步–机器翻译、自动文摘•50-60年代采用模式匹配的方法–60年代衰落•70-80年代采用面向受限域的深入理解的方法•90年代至今统计方法占主流–随着互联网的发展而复苏–互联网为NLP提供了市场需求和试验数据NLP现状•仍然缺乏理论基础•词汇句法的问题尚未解决,已开始挑战语义、知识等深层课题•基于统计的NLP技术占据主流•规则和统计相结合的NLP研究方法•网络信息处理成为NLP新热点•Ontology受到普遍重视•一切才刚刚开始……NLP的困难歧义(Ambiguity)病构(Ill-Formedness)——台湾:苏克毅歧义•注音歧义–快乐(le4)的单身汉–火红的第五乐(yue4)章•分词歧义–交叉型歧义•研究/生命/的/起源•研究生/命/的/起源–组合型歧义•他/从/马/上/下来•他/从/马上/下来•分词歧义–和未登录词绞在一起•刘挺/拔/出/宝剑•刘/挺拔/出/宝剑–多交集字段的歧义•结合/成分/子•结/合成/分子•结合/成/分子–有的歧义无法在句子内部解决•乒乓球/拍卖/完/了•乒乓球拍/卖/完/了•短语歧义–[咬死猎人]的狗–咬死[猎人的狗]Ourcompanyistrainingworkers(1)OurcompanyistrainingworkersAdjPNPVNPVPNPSOurcompanyistrainingworkers(2)OurcompanyistrainingworkersVNPAuxVPVPNPS•词义歧义–打[玩]乒乓球–打[编制]毛衣–打[通讯]电话–……•语用歧义–“你真讨厌!”病构•真实文本的语言现象非常复杂,不规范,不干净•自然语言中存在未知的语言现象–新的词汇:•例如:“非典”、专业术语、外来语、人名等–新的词义:•例如:窗口、奔腾等–新的语句结构:尤其在口语或网络语言,不断出现一些“非规范的”新的语句结构。•例子:他很男人。(名词不能受程度副词修饰)–由于作者疏忽造成的错误–真实的语言是非常脏的重述(Paraphrasing)•举例–毛泽东出生于1893年–毛泽东出生在1893年–毛泽东诞生于1893年–毛泽东同志是1893年出生的–毛主席生于1893年–毛泽东生于光绪6年(虚拟的)层间循环依赖问题•循环依赖–高层模块建立在底层模块分析的基础上–底层模块需要高层模块的指导才能准确分析•如何克服这种致命的矛盾–简单级联•每层的准确率是90%,如果系统分6层,最终结果是:53%;即使每层95%,最终结果73%–一体化:如分词/词性标注一体化–反馈•人是怎么做的?–人在瞬间综合运用各个层面的知识NLP方法论理性主义和经验主义•对语言知识来源的不同认识–理性主义•信仰Chomsky的语言本能的观点。(先天论)•先天语言结构:人的大部分语言知识是与生俱来的,由遗传决定的。–经验主义•人的语言知识是从感官的输入,通过联想、模式识别、泛化等操作学习到的。(学习论)•学习:从大量语言数据中学习复杂、广泛的语言知识。理性主义和经验主义•研究对象不同–理性主义•研究人的语言知识结构。•试图书写大量的语言规则,复制人脑中的语言模型。•结构主义者–经验主义•研究大规模真实文本,认为语料库是语言知识的来源。•将语言视为随机现象,用概率分布描述语言。•选择一个概率模型,采用统计学、模式识别、机器学习方法,应用大规模真实文本中的例子,训练模型的参数。•功能主义者理性主义和经验主义•研究方法不同–理性主义•理论:一般根据Chomsky语言理论,设计语言描述文法。•方法:根据一些语言现象,总结出语言规则,形成语言的规则集。•应用:应用语言规则,分析句子的结构,判断其合法性。•根据句子中词的语义,以及它在句子结构中的作用,推断出句子的语义。–经验主义•理论:基于Shannon的信息论。语料库语言学(corpuslinguistics)•方法:根据给定的语言问题,构造一个概率模型,通过真实数据(语料库),训练模型参数。•应用:运用模型参数,估计语言现象的出现概率。–理性主义和经验主义的融合•统计和规则相结合NLP的瓶颈•知识获取(KnowledgeAcquisition)–知识获取和知识表示相关联•规则:人工知识•参数:适合机器学习–混合方法(HybridApproach)•人设计模型•机器训练参数NLP领域的学术会议•主要国际会议–ACL•AssociationofComputationalLinguistics–Coling–IJCNLP–EACL(EuropeanChapterofACL)–ANLP(AppliedNLP)–SIGIR(SIGInformationRetrieval)–TREC(TextREtrievalConference)人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力
本文标题:第七章自然语言理解案例
链接地址:https://www.777doc.com/doc-3806725 .html