您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 56第八章 自然语言理解
第八章自然语言理解语言理解和处理是人工智能早期的和活跃的研究领域之一。由于它的难度很大,至今仍未能达到很高的水平。本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成、机器翻译和语音识别等重要问题;最后举例介绍自然语言理解系统。8.1语言及其理解的一般问题什么是语言和语言理解?自然语言理解与人类的哪些智能有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。这些问题是我们开始研究自然语言理解时感兴趣的。8.1.1语言和语言理解语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。如果没有各种口语和书面语,如英语、华语、法语和德语等,人类之间的充分和有效交流就难以想象。语言是随着人类社会和人类自身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。要研究自然语言理解,首先必须对自然语言的构成有个基本认识。语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,教师是由教和师这两个词素所构成的。词素是构成词的最小的有意义的单位。教这个词素本身有教育和指导的意义,师则包含了人的意义。语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则,如教+师-→教师。一个词又有不同的词形、单数、复数、阴性、阳性等等。这种构造词形的规则称为构形法,如教师+们-→教师们。这里只是在原来的词后面加上一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔-→红铅笔。这里红是一个修饰铅笔的形容词,它与名词铅笔组合成了一个新的名词。造句法则是用词或词组造句的规则,我是计算机科学系的学生,这是按照汉语造句法构造的句子。图8.1就是上述构造的一个完整的图解。另一方面,语言是音义结合的,8.1语言的构成每个词汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。音素是指一个发音动作所构成的最小的语音单位。迄今为止,对语言理解尚无统一的和权威的定义。按照考虑问题的角度不同而有不同的解释。从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:(1)回答有关提问;(2)提取材料摘要;(3)不同词语叙述;(4)不同语言翻译。然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间有大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。具体地说,自然语言理解的困难是由下列3个因素引起的:(1)目标表示的复杂性;(2)映射类型的多样性;(3)源表达中各元素间交互程度的差异性。自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。语言交流是一种基于知识的通信。8.1.2自然语言理解研究的进展计算机的出现使得自然语言理解研究成为可能,随着计算机技术和人工智能总体技术的发展,自然语言理解不断取得进展。机器翻译是自然语言理解最早的研究领域。美苏两国在1949年开始俄-英和英-俄文字的机器翻译研究。由于早期研究中理论和技术的局限,所开发的机译系统的技术水平较低,不能满足实际应用的要求。到了70年代初期,对语言理解对话系统的研究取得进展。伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典型实例。其中,SHRDLU系统是一个限定性的人机对话系统,它把句法、语义、推理、上下文和背景知识灵活地结合于一体,成功地实现了人-机对话,并被用于指挥机器人的积木分类和堆迭试验。机器人系统能够接受人的自然语言指令,进行积木的堆迭操作,并能回答或者提出比较简单的问题。进入80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。其中比较著名的有美国的METAL和LOGOS,日本的PIVOT和HICAT,法国的ARIANE以及德国的SUSY等系统;这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。80年代以来提出和进行的智能计算机研究,也对自然语言理解提出了新的要求。近年来又提出了对多媒体计算机的研究。新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图象和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。口语理解研究促进人机对话系统走向实用化。自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。可以预料,进入21世纪之后,自然语言理解的研究有可能取得新的突破,并获得广泛应用。8.1.3自然语言理解过程的层次语言虽然表示成一连串的文字符号或者一串声音流,但其内部事实上是一个层次化的结构,从语言的构成中就可以清楚的看到这种层次性。一个文字表达的句子是由词素-→词或词形-→词组或句子,而用声音表达的句子则是由音素-→音节-→音词-→音句,其中每个层次都是受到语法规则的制约。因此,语言的分析和理解过程也应当是一个层次化的过程。许多现代语言学家把这一过程分为5个层次:语音分析、词法分析、句法分析和语义分析和语用分析。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。语音分析在有声语言中,最小可独立的声音单元是音素,音素是一个或一组音,它可与其他音素相区别。语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。词法分析其主要目的是找出词汇的各个词素,从中获得语言学信息。句法分析是对句子和短语的结构进行分析。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可为反映从属关系,直接成分关系,也可是语法功能关系。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为一个重要的研究内容。语用分析就是研究语言所在的外界环境对语言使用所产生的影响。它描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。8.2句法和语法的自动分析我们知道了语言分析和理解可分为5个层次,本节将讨论其中的句法和语法的自动分析问题。8.2.1句法模式匹配和转移网络句法模视匹配就是采用句法模式来对语言的句子进行匹配从而进行的句法分析。但是自然语言是非常多样化的,因而需要有许多模式。这些模式可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络(TN,transitionnetwork)。如图8.2所示,图中,q0,q1,…,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。该网络可用于分析句子也可用于生成句子。用TN来识别句子Thelittleorangeducksswallowflies的过程如表8.1。图8.2转移网络(TN)词典ducksnoun,verbfliesnoun,verblittleadj.orangeadj.,nounswallownoun,verbthedet这里忽略了词法分析,网络如图8.3所示。图8.3转移网络实例识别过程到达f状态(终态),所以该句子被成功地识别了。分析结果如图8.4所示。从上述过程中可以看出,这个句子还可以在网络中走其他弧,如词ducks也可以走弧,但接下来的swallow就找不到合适的弧了。此时对应于这个路径,该句子就被拒识了。由此看出,网络识别的过程中应找出各种可能的路径,因此算法要采用并行或回溯机制。图8.4TN分析树表8.1句子识别过程1.并行算法并行算法的关键是在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。2.回溯算法回溯算法则是在所有可以通过的弧中选出一条往下走,并保留其他的可能性,以便必要时可回过来选择之。这种方式需要一个堆栈结构。8.2.2扩充转移网络扩充转移网络ATN是由伍兹(Woods)在1970年提出的,1975年卡普兰(Kaplan)对其作了一些改进。ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。ATN弧上的标记也可以是其他网络的标记名,因此ATN是一种递归网络。在ATN中还有一种空弧jump,它不对应一个句法成分也不对应一个输入词汇。ATN的每个寄存器由两部分构成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一维特征都有一个特征名和一组特征值,以及一个缺省值来表示。如数的特征维可有两个特征值单数和复数,缺省值可以是空值。英语中动词的形式可以用一维特征来表示:Form:present,past,present-participle,past-participle.Default:present.功能寄存器则反映了句法成分之间的关系和功能。分析树的每个节点都有一个寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。图8.5所示是一个简单的名词短语(NP)的扩充转移网络,网络中弧上的条件和操作如下:图8.5名词短语(NP)的扩充转移网络NP-1:fgA:Number*NumberNP-4:gNounhC:Number=*NumberorφA:Number*NumberNP-5:fpronounhA:Number*NumberNP-6:fproperhC:Number=*Numberorφ该网络主要是用来检查NP中的数的一致值问题。其中用到的特征是Number(数),它有两个值Singular(单数)和plural(复数),缺省值是φ(空)。C是弧上的条件,A是弧上的操作,*是当前词,proper是专用名词,Det是限定词,PP是介词短语,*Number当前词的数。该扩充转移网络有一个网络名NP。网络NP可以是其他网络的一个子网络,也可包含其他网络,如其中的PP就是一个子网络,就这是网络的递归性。弧NP-1将当前词的Number放入当前NP的Number中,而弧NP-4则要求当前noun的Number与NP的Number是相同时,或者NP的Number为空时,将noun作为NP的Number,这就要求det的数和noun的数是一致的。因此,thisbook,thebook,thebooks,thesebooks都可顺利通过这一网络,但是thisbooks,或thesebook就无法通过。如果当前NP是一个代词(Pron.)或者专用名词(Proper),那么网络就从NP-5或NP-6通过,
本文标题:56第八章 自然语言理解
链接地址:https://www.777doc.com/doc-5191773 .html