您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 人工智能基础08--自然语言理解24
合肥工业大学人工智能与数据挖掘研究室1/24目录第一章绪论第二章知识表示第三章搜索技术第四章推理技术第五章机器学习第六章专家系统第七章自动规划系统第八章自然语言理解第九章智能控制第十章人工智能程序设计合肥工业大学人工智能与数据挖掘研究室2/248.1语言及其理解的一般问题8.1.1语言和语言理解1.语言的构成语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。语言使用于传递信息的表示方法、约定和规则的集合。语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言由语音、词汇和语法构成。语言的基本属性:语音和文字合肥工业大学人工智能与数据挖掘研究室3/248.1语言及其理解的一般问题8.1.1语言和语言理解语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则。语法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。合肥工业大学人工智能与数据挖掘研究室4/248.1语言及其理解的一般问题8.1.1语言和语言理解另一方面,语言是音义结合的,每个词汇有其语音形式。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。语言词汇语法词熟语词素词法句法构形法构词法造句法词组构造法合肥工业大学人工智能与数据挖掘研究室5/248.1语言及其理解的一般问题8.1.1语言和语言理解2.语言的理解微观:语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。宏观:语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:(1)回答有关提问;(2)提取材料摘要;(3)不同词语叙述;(4)不同语言翻译。合肥工业大学人工智能与数据挖掘研究室6/248.1语言及其理解的一般问题8.1.1语言和语言理解对自然语言的理解却是一个十分艰难的任务。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。自然语言理解的困难是由下列3个因素引起的:(1)目标表示的复杂性;(2)映射类型的多样性;(3)源表达中各元素间交互程度的差异性。自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。合肥工业大学人工智能与数据挖掘研究室7/248.1语言及其理解的一般问题8.1.1语言和语言理解语言理解包括下列几个方面的内容:(1)能够理解句子的正确词序规则和概念,又能理解不含规则的句子。(2)知道词的确切含义、形式、词类及构词法。(3)了解词的语义分类以及词的多义性和歧义性。(4)指定和不定特性及所有(隶属)特性。(5)问题领域的结构知识和时间概念。(6)语言的语气信息和韵律表现。(7)有关语言表达形式的文学知识。(8)论域的背景知识。合肥工业大学人工智能与数据挖掘研究室8/248.1语言及其理解的一般问题8.1.2自然语言理解研究的进展和发展趋势1.研究进展机器翻译是自然语言理解最早的研究领域。(1)萌芽时期(20世纪40年代~60年代中期)1949年俄-英和英-俄文字的机器翻译1956年N.Chomsky形式语言和转换生成语法理论1966年美国科学院报告,否定性结论(2)复苏发展时期(20世纪60年代后期~80年代中期)关键词匹配技术;句法-语义分析技术。MIT的SIR系统、ELIZA系统合肥工业大学人工智能与数据挖掘研究室9/248.1语言及其理解的一般问题8.1.2自然语言理解研究的进展和发展趋势句法方面理论研究成果:约束管辖理论、扩充转移网络、词汇功能语法、功能合一语法、广义短语结构语法、句法分析算法、…语义分析方面:格语法、语义网络、优选语义学、蒙塔格语法、…进入80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。合肥工业大学人工智能与数据挖掘研究室10/248.1语言及其理解的一般问题8.1.2自然语言理解研究的进展和发展趋势(3)繁荣发展时期(20世纪80年代后期至今)基于语料库的统计方法:从真实预料中获取语言知识基于统计模型的自然语言处理系统理性主义与经验主义的结合口语理解和生成我国自然语言理解研究合肥工业大学人工智能与数据挖掘研究室11/248.1语言及其理解的一般问题8.1.2自然语言理解研究的进展和发展趋势2.发展趋势(1)基于句法-语义规则的理性主义方法和以模型和统计为基础的经验主义互相结合、共同发展。(2)语料库语言学使大规模真实文本的处理成为自然语言处理的主要战略目标。(3)统计数学方法日益受到重视,机器学习的方法获取语言知识。(4)词汇知识库继语料库之后成为一个新的受到普遍关注的研究问题。合肥工业大学人工智能与数据挖掘研究室12/248.1语言及其理解的一般问题8.1.3自然语言理解过程的层次语言的分析和理解过程是一个层次化的过程。现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。1.语音分析语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。合肥工业大学人工智能与数据挖掘研究室13/248.1语言及其理解的一般问题8.1.3自然语言理解过程的层次2.词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。3.句法分析句法分析是对句子和短语的结构进行分析。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。合肥工业大学人工智能与数据挖掘研究室14/248.1语言及其理解的一般问题8.1.3自然语言理解过程的层次4.语义分析语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为一个重要的研究内容。合肥工业大学人工智能与数据挖掘研究室15/248.2词法分析英语等拼音文字:分词简单,词素提取难中文:词素提取易(每个字就是一个词素),分词难中文分词两大难题:。(1)歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法。(2)新词识别中科院词法分析系统ICTCLAS,准确率可达95%合肥工业大学人工智能与数据挖掘研究室16/248.3句法分析句法模式匹配和转移网络句法模式匹配就是采用句法模式来对语言的句子进行匹配从而进行句法分析。但是自然语言是非常多样化的,因而需要有许多模式。这些模式可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络(TN,transitionnetwork)。合肥工业大学人工智能与数据挖掘研究室17/248.3句法分析扩充转移网络扩充转移网络ATN是由伍兹(Woods)在1970年提出的。ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。合肥工业大学人工智能与数据挖掘研究室18/248.3句法分析词汇功能语法的结构词汇功能语法(LFG)是由卡普兰和布鲁斯南(Bresnan)在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。合肥工业大学人工智能与数据挖掘研究室19/248.4语义分析语义分析:获得语言所表达的意义。第一步是要确定每个词在句子中所表达的词义,这涉及到词义和句法结构上的歧义问题;第二步是要根据已有的背景知识来确定语义。方法:语义的逻辑分析法、语义分析文法合肥工业大学人工智能与数据挖掘研究室20/248.5句子理解简单句理解的内容简单句理解两方面的工作:(1)理解语句中的每一个词。(2)以这些词为基础组成可以表达整个语句意义的结构。复合句的理解句子之间的相互关系:(1)相同的事物;(2)事物的一部分;(3)行动的一部分;(4)与行动有关的事物;(5)因果关系;(6)计划次序。合肥工业大学人工智能与数据挖掘研究室21/248.6语料库语言学语料库的研究:自然语言文本的采集、存储、检索、统计、词性和句法标注、句法语义分析、…定义:Aijmer1991“根据篇章材料对语言的研究称为语料库语言学”McEnery1996“基于现实生活中语言应用实例进行语言研究称为语料库语言学”Crystal1991“以语料为语言描写的起点或者以语料为验证有关语言假说的方法称为语料库语言学”语料库:合肥工业大学人工智能与数据挖掘研究室22/248.7机器翻译机器翻译的过程:原文输入原文分析:查词典、语法分析译文综合:调整词序、修辞、从译文词典中取词译文输出合肥工业大学人工智能与数据挖掘研究室23/248.8语音识别预处理特征提取模式识别训练模式库语音输入语音识别结果合肥工业大学人工智能与数据挖掘研究室24/248.9应用举例问题思考思考答案讯飞语音云问答服务云讯飞语音云思考声音声音文字答案问题文字123国家大学生创新实验项目
本文标题:人工智能基础08--自然语言理解24
链接地址:https://www.777doc.com/doc-27322 .html