您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 自然语言处理与自然语言理解
国家重点基础研究计划973课题“文本内容理解的数据基础”自然语言处理自然语言处理与与自然语言理解自然语言理解俞士汶北京大学计算语言学研究所(ICL/PKU)北京大学计算语言学研究所(ICL/PKU)Email:yusw@pku.edu.cn2009年3月11日,中信所(ISTIC)2009年3月11日,中信所(ISTIC)主要内容主要内容¾关于研究对象与目标¾关于研究对象与目标¾自然语言处理的主攻方向¾综合型语言知识库概要¾前进目标自然语言理解¾前进目标——自然语言理解¾领域知识工程与领域知识库领域知识工程与领域知识库¾结语与致谢北京大学计算语言学研究所主要内容主要内容¾关于研究对象与目标¾关于研究对象与目标¾自然语言处理的主攻方向¾综合型语言知识库概要¾前进目标自然语言理解¾前进目标——自然语言理解¾领域知识工程与领域知识库领域知识工程与领域知识库¾结语与致谢北京大学计算语言学研究所学科定位《学科分类与代码表》(中国国家标准GB/T13745--92)语言学语言学——应用语言学——计算语言学(740.3550)(三级学科“计算语言学”属于文科)俞士汶主编《计算语言学概论》,商务印书馆,2003年计算机科学技术计算机科学技术——人工智能——自然语言处理(520.2020)自然语言处理(520.2020)(三级学科“自然语言处理”属于理工科)两个三级学科的研究对象与内容基本相同,新兴交叉学科在学科体系中已有一席之地。新兴交叉学科在学科体系中已有一席之地。(从北大ICL/PKU、北大软微学院语言信息工程系到教育部计算语言学重点实验室)北京大学计算语言学研究所不同的术语与所指计算语言学(ComputationalLinguistics,CL)自然语言处理()自然语言处理(NaturalLanguageProcessing,NLP)自然语言理解(NaturalLanguageUnderstanding,NLU)人类语言技术(HumanLanguageTechnologyHLT)人类语言技术(HumanLanguageTechnology,HLT)语言信息处理(LanguageProcessingTechnology,LPT)(大致相同,又各有侧重。)中文信息处理(ChineseInformationProcessing,CIP)汉字信息处理(ChineseCharactersProcessing)——汉字信息处理(ChineseCharactersProcessing)——汉语信息处理(ChineseInformationProcessing,CIP)我们聚焦于汉语信息处理,实质是以汉语为核心的多语言信息处理。北京大学计算语言学研究所“自然语言处理”在研究什么?(1)机器翻译与机器辅助翻译(最早)(2)信息检索(索引技术)与信息提取(2)信息检索(索引技术)与信息提取(3)文本与知识管理(术语提取、分类、摘要、述评)(4)人工系统的自然语言界面(4)人工系统的自然语言界面(5)词典计算机辅助编纂(6)面向语言本体研究与教学研究的应用(6)面向语言本体研究与教学研究的应用……NLP是IT的任务子集,作为计算机处理的对象,发生了变化:NLP是IT的任务子集,作为计算机处理的对象,发生了变化:表现形式(字符串)━》词、句子、篇章字符信息(数据集)━》语言信息(知识)字符信息(数据集)》语言信息(知识)需要对相关的理论、方法与技术以及“语言及其认知机制”有个概括的了解。北京大学计算语言学研究所研究得怎么样?看看机器翻译的水平,以GoogleTranslateBeta为2009年1月3日完成的翻译实例年月完成译实例(1)北京大学俞士汶教授应邀将于2009年3月到中国科学技术信息研究所进行学术交流。(2)你得藏在一个你看得见他可是他看不见你的地方(2)你得藏在个你看得见他,可是他看不见你的地方。(3)车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合力打击他们。(4)新届测绘学名词审定委员会的主要特点是年青化吸收了(4)新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对名词工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。2009年1月13日完成的翻译实例(5)胡六点横看成岭侧成峰见仁见智(5)胡六点横看成岭侧成峰,见仁见智。(摘自《参考消息》2009年1月13日第10版台报社论)人贵有自知之明,然而机器却什么都敢干。难怪有人说规则翻译是傻子统计翻译是疯子北京大学计算语言学研究所难怪有人说规则翻译是傻子,统计翻译是疯子。关于“语言”英国《新科学家》周刊2005年4月9日的文章——生命进化的十大奇迹:脑(第3项)和语言(第4项)脑常常被视作进化过程中的最高成就,因为它赋予了人类一些高级特征,例如语言、智慧、意识。些高级特征,例如语言、智慧、意识。语言是进化的终极发明。在令人类区别于动物的特征中,语言处于核心地位。语言也许称得上是人类的决定性特语言处于核心地位。语言也许称得上是人类的决定性特征之一。我们的祖先如何实现了语言从无到有的飞跃,这也许是科学史上最大的谜。语言是的飞跃,这也许是科学史上最大的谜。语言是生物进化的最后一笔。这是因为语言令那些掌握了它的动物超越了纯生物的范畴。握了它的动物超越了纯生物的范畴。语言系统是动物进化到人的两大标志之一。北京大学计算语言学研究所语言系统是动物进化到人的两大标志之一。关于“自然语言处理”关于“自然语言处理”自然语言处理是数值计算机在非数值领域最早的应用(MT,Turing试验)。在非数值领域最早的应用(MT,Turing试验)。语言学对计算机科学也有重要贡献(Chomsky)。自然语言理解又特别困难:自然语言理解又特别困难:(1)依据对人类语言机制的认识(2)语言既是对象,又是工具(3)依据对当代计算机能力的认识(3)依据对当代计算机能力的认识(4)依据NLP技术发展的历史经验汉语理解研究和其他语言一样困难,汉语理解研究和其他语言一样困难,汉语信息处理技术又有特殊的课题。以汉语为母语的学者还有其独特优势。北京大学计算语言学研究所以汉语为母语的学者还有其独特优势。关于“计算语言学”为自然语言处理提供理论模型、实现算法、工程方案。语言模型:实际问题太复杂,需要根据应用的需要,进行简化、变换,实际问题太复杂,需要根据应用的需要,进行简化、变换,使其成为可计算的形式,这就是模型化。上下文无关语法就是一种语言模型,便于分析和生成符合规上下文无关语法就是一种语言模型,便于分析和生成符合规则的句子,可以覆盖相当一部分自然语言句型。向量空间模型可以刻画文本的主要特征,可用于信息检索、文本分类。常用算法:基于规则的方法(词法、句法、语义、语用)基于规则的方法(词法、句法、语义、语用)基于统计的方法(原始语料-加工了的语料)不同的应用需要以不同的语言单位作为研究对象,不同的应用需要以不同的语言单位作为研究对象,不同的应用也要采用不同的处理方法。不同类型的方法的结合可能提供最好的效果。实际系统常常兼收并蓄,博采众长。北京大学计算语言学研究所收并蓄,博采众长。NLPNLP的典型任务的典型任务————机器翻译机器翻译基于规则(上下文无关语法)的方法基于规则(上下文无关语法)的方法基于规则(上下文无关语法)的方法基于规则(上下文无关语法)的方法英语:Ilikearedapple英语:Ilikearedapple冠词形容词名词代词动词名词短语句子结构代词动词句子结构名词短语代词动词数量词名词短语形容词名词汉语:我喜欢一个红苹果北京大学计算语言学研究所*,在译文语料库{E}中,搜索使得概率P(E|F*)达到最大值的句子E*。在{E}中,求E*=argmaxP(E|F*)=argmaxP(E)P(F*|E)P(E)是目标语言的语言模型,任何一个句子E的出现概率。P(F*|E)是两种语言的翻译模型。问题归结于如何计算P(E)和P(F*|E)。P(E)=P(W1W2‥‥Wn)12n=P(W1)P(W2|W1)‥‥P(Wn|W1W2‥‥Wn-1)进一步简化,P(E)=P(W1)P(W2|W1)‥‥P(Wn|Wn-1)这就是二元语法模型这些概率值可以在语料库中统计得到北京大学计算语言学研究所这就是二元语法模型,这些概率值可以在语料库中统计得到。主要内容主要内容¾关于研究对象与目标¾关于研究对象与目标¾自然语言处理的主攻方向自然语言处理的主攻方向¾综合型语言知识库概要前进目标自然语言理解¾前进目标——自然语言理解¾领域知识工程与领域知识库¾领域知识工程与领域知识库¾结语与致谢北京大学计算语言学研究所自然语言理解的困难实例之一关于自动升降晾衣架的对话妻子:妻子:““嘿,过了一年才坏。嘿,过了一年才坏。””妻子:妻子:““嘿,过了一年才坏。嘿,过了一年才坏。””丈夫:丈夫:““什么呀,才一年就坏了。什么呀,才一年就坏了。””丈夫理解了妻子的意思吗?丈夫理解了妻子的意思吗?——虚词词义:才(数量词前后,意义不同)——背景知识:保修期背景知识:保修期——知识激活机制?北京大学计算语言学研究所自然语言理解的困难实例之二自然语言理解的困难关于“沙漠化”的文章“几年前由于种植籽瓜有利可图使大“几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,。批的种植者就到过渡带来开垦,……。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。”——今日民航2001年9月号就/到/就到/到/到过/过/过渡/带/来/带来/(未登录词的识别知识背景认知机制)北京大学计算语言学研究所(未登录词的识别——知识背景——认知机制)自然语言处理的主攻方向自然语言处理的主攻方向自然语言理解研究特别困难。退而求其次:自然语言处理。自然语言处理。计算机处理自然语言的第一个障碍是是自然语言固有的歧义问题。人能够利用多模态的知识和语境信息。和语境信息。消解歧义的能力远远超出计算机。北京大学计算语言学研究所自然语言处理主攻方向——歧义消解词语切分歧义:白天鹅可能的切分:白天鹅/---白/天鹅/---白天/鹅/---白/天/鹅/可能的切分:白天鹅/白/天鹅/白天/鹅/白/天/鹅/计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?白天鹅飞过来了——白/天鹅/飞/过来/了鹅看家鹅看家白天鹅可以看家——白天/鹅/可以/看/家/白天鹅在湖里游泳——白/天鹅/?白天/鹅/?词性标注歧义:只——量词q[zhi1]?副词d[zhi3]?这只会测水温的鸭子这只会测水温的鸭子——这/只/会/测/水温/的/鸭子/(切分无歧义)——这/r只/q会/v测/v水温/n的/u鸭子/n,挺有用的这/r只/q会/v测/v水温/n的/u鸭子/n,挺有用的——这/r只/d会/v测/v水温/n的/u鸭子/n,没什么用(意义决定词性,还是词性决定意义?)北京大学计算语言学研究所主攻方向——歧义消解读音相同的“连”也有不同的词性(意义):个连有三个排“连”是名词一个连有三个排——“连”是名词n我们兄弟心连心——“连”是动词v苹果可以连皮吃——“连”是介词p短语结构的歧义:m+q+n+“的”+n短语结构的歧义:m+q+n+
本文标题:自然语言处理与自然语言理解
链接地址:https://www.777doc.com/doc-5349061 .html