您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 第8章 自然语言处理
第八章自然语言处理提纲概述词法分析句法分析语义分析语言知识库自然语言处理的应用概述自然语言vs.人工语言自然语言处理用计算机来分析、处理自然语言,让计算机理解并能表达自然语言,实现人与计算机的自然语言交流。图灵测试&IBMWatson所属学科计算机与语言学的交叉学科计算机科学与技术—人工智能—自然语言处理语言学—应用语言学—计算语言学(=自然语言处理)概述自然语言的特点新词不断出现,很难完全收入词典新词一般包括如下类型命名实体:包括人名、地名、机构名等。缩略语:如,人大(中国人民大学、全国人民代表大会)、白骨精(白领、骨干、精英)。网络新词:蚁族、蜗居、打酱油、织围脖(微博)、给力、伤不起。数字、字母、符号等。概述自然语言的特点自然语言的表达非常灵活,很难完全形式化如下面例子中,“主席团”、“台上”、“坐”可以随便调换次序,但都表达相同的意思。主席团台上坐。主席团坐台上。台上坐主席团。台上主席团坐。还有各种各样的省略形式。如:今天星期五。两个词语就构成一句话,省略了谓语“是”。概述自然语言的特点自然语言充满歧义,很难完全消解读音歧义朝阳(zhaoyang)产业北京市朝阳(chaoyang)区分词歧义南京市长江大桥。白天鹅在湖里游泳。词性歧义这只会测水温的鸭子,挺有用的。这只会测水温的鸭子,没什么用。概述自然语言的特点自然语言充满歧义,很难完全消解句法结构歧义咬死了猎人的狗。三个大学的老师。词义歧义他说:“她这个人真有意思”。她说:“他这个人真怪有意思的”。于是人们以为他们有了那种意思,并让他向她意思意思。他火了:“我根本没有那个意思”!她也生气了:“你们这么说是什么意思”?事后有人说,“真有意思”。也有人说:“真没意思”。概述自然语言的特点自然语言中有各种语言创新,机器很难应付隐喻、借代、双关、幽默等双关天大药业的广告词:您的健康是天大的事。昂立教育:ONLYeducationcanchangeyourlife.概述自然语言处理涉及的层次语音分析词法分析句法分析语义分析语用分析词法分析英语中词的识别英语词与词之间有空格区分句末点号与词中点号识别出的词与词典中的词的对应能直接对应需要词根化以后才能对应对应不上,是未登录词词法分析汉语分词汉语是分句连写,句与句之间有标点,词与词之间没有分隔符。基于词典的方法:正向最大匹配待切分字串S1,输出词串S2为空,最大词长MaxLenS1是否为空从S1左边取出最长字串W,W的长度不大于MaxLenW是否在词典中将W最右边一个字去掉W是否为单字S2=S2+W+空格;S1=S1-W输出结果S2是否是是否否词法分析汉语分词基于字的方法转化为机器学习中的序列标记问题。根据字在词中的位置一般有四个标记:词首B、词中M、词尾E、独立成词S。例如,“自然语言处理是人工智能的分支学科”这句话中每个字加上标记后的序列如下:自/B然/M语/M言/M处/M理/E是/S人/B工/M智/M能/E的/S分/B支/E学/B科/E加完标签后,再扫描一遍,就可以得到词的序列:自然语言处理是人工智能的分支学科句法分析短语结构语法PhraseStructureGrammar由Chomsky提出,上下文无关文法。G=(N,T,S,P)N={ROOT,IP,NP,VP,NR,VV,VE,NN}T={俄国,希望,伊朗,没有,制造,核武器}S=ROOT产生式P:ROOTIPIPNPVPPUNPNRVPVVIPVPVEVPVPVVNNNR俄国VV希望NR伊朗VE没有VV制造NN核武器PU。句法分析依存语法DependencyGrammar由Tesniere于1959年提出。语义分析词义消歧一词多义很常见。根据上下文语境自动确定词语用的是哪一个义项。例如,“仪表”这个词在《现代汉语词典(第5版)》中有两个义项:(1)人的外表(包括容貌、姿态、风度等,指好的):~堂堂(2)测定温度、压力、电量等各种物理量的仪器。词义消歧是确定下面两句话中的“仪表”分别属于哪一个义项。(1)我国仪器仪表事业取得了长足的发展。(2)酒店要求服务员仪表端庄大方。语义分析语义角色标注浅层语义分析,标注谓词(谓语动词、名词、形容词)的语义角色。语义角色指有关语言成分的所指在语句所表达的事件中所扮演的参与者角色。常见的语义角色类型有施事、受事、与事、工具、方式、时间、处所、结果、目的、原因等。例如:昨天张三在家吃苹果。谓语动词“吃”的语义角色有:施事-张三,受事-苹果,时间-昨天,处所-家。语言知识库现代汉语语法信息词典GrammaticalKnowledgeBase,GKB由北京大学计算语言学研究所研制的一个现代汉语语法知识库。该词典的研制始于1986年,现在仍然在不断发展和完善。该词典以朱德熙先生倡导的“词组本位”语法体系为理论基础,按照语法功能和意义结合的准则收录了8万余词条。依据语法功能分布的原则,建立了词类体系,完成词语的归类。并在此基础上,分类描述每个词语的各种语法属性,共计360余万个属性值。语言知识库现代汉语语法信息词典GKB采用关系数据库的格式描述词语及其语法属性的二维关系,包括总库及分库共34个数据库文件。每一个词类建立一个分库,如名词分库、形容词分库、动词分库等。分库可以继续细分,建立二级分库,如体宾动词分库、谓宾动词分库、离合动词分库等。所有的库之间可以通过“词语+词类+同形”的联合主键进行连接,构成上下位继承关系的树。语言知识库知网HowNet语义网络1968年由美国心理学家M.R.Quillian在研究人类联系记忆时提出的。1972年,美国人工智能专家R.F.Simmons和J.Slocum首先将语义网络用于自然语言理解系统中。语义网络可以用有向图表示。图的节点表示概念,有向边表示概念之间的语义关系。一个语义网络的基本单元可以用一个三元组表示(A,R,B),其中A、B表示两个节点,R是语义关系。ABR语言知识库知网HowNet语义网络常见的语义关系地球行星IS-A窗户房子PART-OF北京首都IS语言知识库知网HowNet知网由机器翻译专家董振东教授创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网是一个语义网络。医治医生医药患者疾病罹患医院医疗费付给施事受事内容工具内容经验者场所领属物对象施事语言知识库现代汉语虚词用法知识库ChineseFunctionwordusageKnowledgeBase,CFKB郑州大学信息工程学院与北京大学计算语言学研究所合作构建。三位一体的语言知识库,包括现代汉语虚词用法词典、现代汉语虚词用法规则库以及现代汉语虚词用法标注语料库。汉语虚词类型包括副词、介词、连词、助词、语气词、方位词,每个虚词可能区分为若干义项,每个义项又可能区分为若干用法。目前的现代汉语虚词用法词典中收录的虚词词语总数为2401个,共涉及2982个义项及4337个用法。自然语言处理的应用语音识别与合成机器翻译信息检索问答系统信息抽取文本摘要文本分类社会计算输入法文本纠错作文评分……自然语言处理的应用机器翻译巴别塔Babel的故事方法:基于规则、基于统计、基于实例GoogleTranslate源语言文本词法分析句法分析语义分析结构转换句子生成形态生成译词选择目标语言文本词典规则库自然语言处理的应用信息检索Web搜索引擎,Google、百度等汉语分词的应用和服务必于三日后裁制完毕,并呈送将军府中。王府饭店的设施和服务是一流的。查询的同义扩展“电脑”与“计算机”本章小结自然语言处理技术有着广阔的用武之地,只要有文字(口头或书面)的地方,就会有自然语言处理的身影。自然语言处理在图片、视频等其他媒体形式的信息处理中也发挥着一定的作用,如基于文本的图片检索等。自然语言处理的研究内容十分广泛,本章仅仅是一个简单的概述。如果想展开阅读或对该领域感兴趣,最好的方法就是“百度一下”、“Google一下”、“搜搜一下”、“搜狗一下”……一个网站:
本文标题:第8章 自然语言处理
链接地址:https://www.777doc.com/doc-3218422 .html