您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 第10章 自然语言理解
第十章自然语言理解要点:1.自然语言理解的四个层次2.句法分析的4种方法10.1自然语言理解概述10.2词法分析10.3句法分析10.4语义分析10.5句子的自动理解10.6语料库语言学10.7文本的自动翻译——机器翻译10.8自然语言理解系统的主要模型10.9自然语言理解系统应用举例10.10小结210.1自然语言理解概述10.1.1语言与语言理解语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句(sentence)和语言时,应遵循一定的语法(syntax)与语义(semantics)规则。语言是音义结合的词汇和语法体系,是实现思维活动的物质形式,语言是一个符号体系。要研究自然语言理解,必须对自然语言的构成有个基本认识。语言的构成框图如图10.1所示。3语言词汇语法词熟语词法句法词素构词法词组构造法造句法构形法图10.1语言的构成图语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章。词汇又分为词和熟语,属于就是一些词的固定组合。语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词组和句子。45从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。6怎样才算理解了语言呢?归纳起来主要有以下几个方面:既能够理解句子的正确词序规则和概念,又能理解不合规则的句子知道词的确切含义、形式、词类及构词法了解词的语义分类以及词的多义性和歧义性指定、不定特性及所有(隶属)特性问题领域的结构知识和时间概念语言的语气信息和韵律表现有关语言表达形式的文学知识论域的背景知识710.1.2自然语言处理的概念和定义定义10.1自然语言处理是研究人类交际和人机通信的语言问题的一门学科。它要开发表示语言能力和性能的模型,建立实现这种语言模型过程的计算框架,提出不断完善这些过程和模型的辨识方法,以及探究实际系统的评价技术。(BillManaris,1999)定义10.2自然语言处理是人工智能领域的主要内容,即利用计算机等工具对人类特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统。自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。(刘涌泉,2002)8定义10.3自然语言处理是利用计算机工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。(冯志伟,1996)定义10.4自然语言处理是用计算机对自然语言的音、形、义等语言信息进行加工和操作,包括对字、词、短语、句子和篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等的处理技术。它是在语言学、计算机科学、控制论、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。(蔡自兴,2008)910.1.3自然语言处理的研究领域和意义1.自然语言理解的研究领域和方向文字识别(Opticalcharacterrecognition,OCR)语音识别(Speechrecognition)机器翻译(Machinetranslation)自动文摘(Automaticsummarization或automaticabstracting)句法分析(Syntaxparsing)文本分类(Textcategorization/documentclassification)10信息检索(Informationretrieval)信息获取(Informationextraction)信息过滤(Informationfiltering)自然语言生成(Naturallanguagegeneration)中文自动分词(Chinesewordsegmentation)语音合成(Speechsynthesis)问答系统(Questionansweringsystem)2.自然语言理解研究的意义1110.1.4自然语言理解研究的基本方法和进展机器翻译是自然语言理解最早的研究领域。70年代初期,对语言理解对话系统的研究取得进展。80年代,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃。自然语言理解的研究为专家系统的知识获取提供了新的途径。自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。1210.1.5自然语言理解过程的层次语言的分析和理解过程是一个层次化的过程,它主要包括如下四个层次:语音分析:根据音位规则,从语音流中区分出独立的音素,再根据音位形态规则找出音节及对应的词素或词。词法分析:找出词汇的各个词素,从中获得语言学信息。例如:将句子“我们是新世界青年”切分出各个词。句法分析:对句子和短语的结构进行分析,找出词和短语等的相互关系及各自在句子中的作用并用一种层次结构加以表达。Chomsky对句法分析的贡献最大。语义分析:通过分析找出词义、结构意义和结合意义,确定语言所表达的真正含义和概念。1310.2词法分析Lexicalanalysis一个英语词法分析的算法如下:repeatlookforstudyindictionaryifnotfoundthenmodifythestudyuntilstudyisfoundornotfurthermodificationpossible它可以对那些按英语语法规则变化的英语单词进行分析,其中study是一个变量,初始值就是当前的单词。例如,对于单词matches、studies可以做到如下的分析:matchesstudies词典中查不到matchestudie修改1:去掉“-s”matchstudi修改2:去掉“-e”study修改3:把i变成y这样,在修改2的时候,就可以找到match,在修改3的时候就可以找到study1410.3句法分析AnalysisofSyntax10.3.1短语结构语法定义10.5一个短语结构语法G由4个部分组成:T为终结符集合,终结符是指被定义的那个语言的词(或符号)N为非终结符号集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。显然,T和N不相交,两者共同组成了符号集VP为产生式规则集S为起始符,是集合N的一个成员可以把短语结构语法G描述为如下四元组形式:G=(T,N,S,P)只要给出这4个部分,就可以定义一个具体的形式语言。1510.3.2乔姆斯基形式语法无约束短语结构语法上下文有关语法上下文无关语法正则语法10.3.3句法模式匹配和转移网络句法分析最简单直观的方法就是模式匹配。例如:句子Bearslovehoney可以用句法模式noun+verb+noun来匹配,但是自然语言是多样化的以下的句子都对:woolybearslovehoneyfericiouswoolybearslovehoneyhungryfericiouswoolybearslovehoney这时句子的模式有很多,可以表示成:(pronounV(adj.*noun))verb(pronounV(adj.*noun))其中*表示可有可无且可重复出现。161710.3.3转移网络上述句子也可用转移网络(TN,transitionnetwork)句法分析,具体参见书PP270,如图10.2所示。图中,q0,q1,…qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。图10.2转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adjTN识别的过程应能找出各种可能的路径,因此算法要采用并行后回溯机制:(1)并行算法:在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。(2)回溯算法,在所有刻意通过的弧中选出一条往下走,并保留其他可能性,以便必要时可以回过来选择之,这种方式需要一个堆栈结构。181910.3.4AugmentTransitionNetwork(ATN)扩充转移网络扩充转移网络是伍兹1970年提出来的,1975年卡普兰进行了改进。扩充转移网络ATN是由一组网络构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。ATN的每个寄存器由两部分构成:句法特征寄存器:由特征名、特征值和缺省值表示。句法功能寄存器:反映句法间的关系与功能。图10.5所示是一个简单的名词短语(NP,NounPhrase)的扩充转移网络。20图10.5名词短语(NP)的扩充转移网络ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.2110.3.5SyntaxofLexicsFunction词汇功能语法(LFG)LFG是卡普兰和布鲁斯南在1982年提出来的,是一种功能语法但更强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。LFG对句子的描述分为两部分:直接成分结构(ConstituentStructure,简称C-Structure);功能结构(FunctionalStructure,简称F-structure)。用LFG语法对句子进行分析的过程如下:用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树;将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);对方程式作代数变换,求出各个变量,获得功能结构F-structure。2210.4语义分析Semanticanalysis语义分析的步骤如下:第一步确定每个词在句子中所表达的词义;第二步根据已有的背景知识来确定语义。逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“JackkissedJill”,可以用如下逻辑形式来表达:(PASTS1KISS-ACTION[AGENT(NAMEj1PERSON“Jack”)][THEMENAME(NAMEj2PERSON“Jill”)])2310.5句子的自动理解AutomaticUnderstandingofSentences10.3.1UnderstandingforSimpleSentence简单句的理解方法为了理解一个简单句,需要做以下两方面的工作:理解语句中的每一个词,查单词本有时不能确定词在句中的确切含义,需要通过语法分析和上下文关系才能最终确定词的含义。以这些词为基础组成一个可以表达整个语句意义的结构,这项工作分成以下3个部分:24句法分析:将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。语义分析:各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对象之间进行映射。语用分析:为确定真正含义,对表达的结构重新加以解释。2510.3.2UnderstandingforComplexSentence复合句的理解方法复合句的理解,要求发现句子之间的相互关系,这种关系包括以下几种:相同的事物事物的一部分行动的一部分与行动有关的事物因果关系计划次序2610.6语料库语言学CorpusLinguistics1.语料库语言学的发展、定义和研究内容人们已对语料库语言学给出一些定义定义10.6根据篇章材料对语言的研究称为语料库语言学(Aijmer,1991)定义10.7基于现实生活中语言应用实例进行的语言研究称为语料库语言学(McEnery,1996)定义10.8以语料为语言描写的起点或者以语料为验证有关语言假说的方法称为语料库语言学272.语料库语言学的特点理论基础不同处理方法不同试验规模不同语法分析范围要求不同处理文件涉及领域不同文本格式不同应用对象不同评价方式不同3.语料库的类型2810.7文本的自动翻译——机器翻译以英语翻译为汉语为例。1.原文输入由于计算机只能接受二进制数字,所以字母和符号必须按照一定的编码法转换成二进制数字。2.原文分析原文分析包括两个阶段:查词典和语法分析。查词典。通过查词典,给出词
本文标题:第10章 自然语言理解
链接地址:https://www.777doc.com/doc-3565766 .html