您好,欢迎访问三七文档
1人工智能自然语言理解2主要内容•自然语言理解的一般问题•词法分析•句法分析•语义分析•大规模真实文本的处理•Web信息抽取3自然语言理解的一般问题(1)•自然语言–自然语言:人类交流的语言,口语、书面语、手语、旗语等–人造语言:机器语言,包括C++,BASIC等世界语–到目前为止的人类知识有80%以上使用自然语言文字记载下来的。但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。–相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。4自然语言理解的一般问题(2)•什么是“自然语言理解”?–与“智能”一样,存在各种各样的理解和解释。–利用计算机对自然语言进行理解•自然语言“理解”的准则:给计算机输入一段自然语言文本,如果计算机能–问答(question-answering)-机器能正确地回答输入文本中的有关问题;–文摘生成(summarizing)-机器有能力产生输入文本的摘要;–释义(paraphrase)-机器用不同的词语和语句复述输入文本;–翻译(translation)-机器把一种语言(源语言)翻译为另一种语言(目标语言)5自然语言理解的一般问题(3)•自然语言理解–自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能领域关注的核心问题之一。–自然语言理解的困难原因:•目标表示的复杂性•映射类型的多样性•源表示中各元素间交互程度的差异性6自然语言理解的一般问题(4)•语言学的研究–自然语言理解是哲学(philosophy),语言学(linguistics),语言心理学(psycholinguistics),认知科学(cognitivescience),计算机科学(computerscience),数学(mathematics),逻辑学(logic)及相关学科发展和结合而形成的一门交叉学科。7自然语言理解的一般问题(5)•语言学的研究–语言学家:只关心词组成短语,短语组成句子,句法如何。即语言理论–哲学家:词怎么能表示万物万事。如何用词来描述。–心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络。–计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自然语言相关的各项任务。8自然语言理解的一般问题(6)•语言学的研究-理解的层次–语音分析:找出最小可独立的声音单元----音素–词法分析:找出词汇的各个词素(词根),从中获得语言学信息例:我们研究所有东西;把手放在桌上我们--研究所--有--东西(交叉歧义)我们--研究--所有--东西把--手--放在--桌上(组合歧义)把手--放在--桌上9自然语言理解的一般问题(7)•语言学的研究-理解的层次–句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系以及各自在句子中的作用等。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。主要方法有:短语结构语法、格语法、扩充转移网络、功能语法等。–语法分析:将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。确定语句是否合乎语法10自然语言理解的一般问题(8)•语言学的研究-理解的层次–语义分析:通过分析找出词义,结构意义及其结合意义,从而确定语言所表达的真正(实际)含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。(尤其是对话系统)你打我我打你–语用分析:研究语言所在的外界环境对语言使用所产生的影响。描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块)11自然语言理解的一般问题(9)•研究目标–建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语言索取信息,由此能力则说明该系统对语言已理解了。12自然语言理解的一般问题(10)自然语言的层次划分及对应技术理论层次结构实现技术模板匹配、基于规则语音模式匹配基于词素、词汇词汇词典结构转换生成、词汇功能语法语法扩展转移网络(ATN),CF规则格语法、语义基元理论、模型理论语义产生式规则、概念相依理论、脚本、框架、语义网络、逻辑基于记忆的推理、语言行为理论、篇章语法语用13自然语言理解的一般问题(11)•应用–机器翻译或机器辅助翻译。–文本理解:将输入文本转换成某种数据库格式。–文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内的各种信息。–自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机交互。……14自然语言理解的一般问题(12)•应用–网络方面:信息检索(informationretrieval),提出(extraction),过滤(filtering),分类(classification),汇总(summarization)等如:网上信息检索,电子图书馆(digitallibrary),电子商务(e-commerce)等例:和服|务|于三日后裁制完毕。(kimonomust)这个酒店的设施|和|服务|是一流的。(andservice)未登录词(unknownwordprocessing):如:高海燕(stormpetrel)15自然语言理解的一般问题(13)•自然语言理解的研究大体上经历了三个时期–萌芽时期–发展时期•早期:60年代以关键词匹配为主流•中期:70年代以句法-语义分析为主流•近期:80年代以来开始走向实用化和工程化–大规模真实文本处理时期•比较成功的系统处理都是受限的自然语言子集–句法受限:句子结构的复杂性方面受到限制–语义受限/领域受限:所表达的事物的数量方面受到限制16自然语言理解的一般问题(14)•60年代以关键词匹配为主流特点:–没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义–在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。–每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响–是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误17自然语言理解的一般问题(15)70年代句法语义分析为主流•采用句法-语义分析技术典型例子•LUNAR–允许用普通英语和数据库对话的人机接口句法分析语义解释数据检索ATN语法词典语义规则数据库18自然语言理解的一般问题(16)80年代以来的实用化和工程化•主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。•另一方面,人们已经开始对大规模真实文本进行理解•句法-语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来–自然语言在数量上浩瀚无际–在性质上具有不确定性和模糊性。19自然语言理解的一般问题(17)•语料库语言学(corpuslinguistics)•语言学知识的源泉是大规模活生生的语料,要想让计算机理解自然语言,首先要让计算机能从库存的大规模语料中自动或半自动地获取语言理解所需的各种知识,对语言现象作出客观的、细致的描述。•目前采用的主要手段是建立各种统计模型,可用于词类的自动标注,以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。20自然语言理解的一般问题(18)•在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种知识的“数量”巨大,有时由于它们在“质”的方面高度的不确定性和模糊性。•最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。……21自然语言理解的一般问题(19)•基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。•新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。22自然语言理解的一般问题(20)发展快的原因:•计算机的发展:高速、统计处理。•需求:机器人能听懂人的话,与人交谈,自动学习。但是,因为自然语言是开放集,每天都有新词产生,用规则描述马上可以找出反例。所以,很难。23主要内容•自然语言理解的一般问题•词法分析•句法分析•语义分析•大规模真实文本的处理•Web信息抽取24词法分析(1)•词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义例如unchangeable是由un-change-able构成的,其词义由这三个部分构成。25词法分析(2)语言构成语言词汇语法词熟语句法词素词法构形法构词法词组构造法造句法26词法分析(3)•在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素就复杂的多,需要对词尾或词头进行分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。•汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们—研究所—有东西”,也可以是“我们—研究—所有—东西”。27主要内容•自然语言理解的一般问题•词法分析•句法分析•语义分析•大规模真实文本的处理•Web信息抽取28句法分析(1)•句法分析的主要任务:–确定输入句子的结构:识别句子的各个成分及其之间的关系–句子结构的规范化:目的是简化后续处理•分析自然语言的方法主要分为两类:基于规则的方法:如短语结构语法和Chomsky语法体系基于统计的方法29短语结构语言(1)•定义–句子:一个符号串–语言:句子的集合–语法:对一个句集一种有限的形式化描述•描述一般语言的方法:–识别器:由程序判断读入的符号串是不是一个句子–短语结构语法:一种基于产生式的形式化工具,也称为产生式语法30短语结构语言(2)定义:短语结构语法定义为:G=(T,N,S,P)–T是终结符集合,即被定义的语言的所有词汇(或符号)–N是非终结符集合,这些符号用于描述语法成分,并不出现于句子中。则有:V=TN,TN=(空集),V是属于该语法的全部符号。–S是起始符号,它是N中的一个成员。–P是一个产生式规则集。ab(ab,aV+,bV*)31短语结构语言(3)•在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,每条语法规则也叫重写规则•一个句子的产生就是从S符号到词汇串的推导过程•如果一个程序能够根据一个短语结构语法来确定一个句子的推导,则它可称为一个句法分析器(parser)。•语法G所定义的语言记为L(G):L(G)={W|WT*,S*GW}32短语结构语言(4)•刻画语言的形式体系的强和弱•递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的•递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递归33短语结构语言(5)•正则语法:–正则语法有两种形式:•左线性语法:如Aa|Ba•右线性语法:如Aa|aB–可以表示如下的句子:•a*b*–语法例子:•Sa|S1|aS•S1b|bS1–与有限状态机等价34短语结构语言(6)•上下文无关语法:–语法规则形式为:Ax即左边为一非终结符,右边没有限制–可以表示的句子如:•anbn–语法
本文标题:52自然语言理解
链接地址:https://www.777doc.com/doc-3715939 .html