您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 自然语言处理导论课程讲义
第一讲绪论自然语言处理导论课程讲义2提纲1.研究内容2.研究方式3.应用领域4.发展简史自然语言处理(NLP)计算语言学(CL)30引子我们可以期待,总有一天机器会同人在所有的智能领域里竞争起来。但是,如何开始呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,还有一种办法也应加以考虑,就是为机器配备具有智能的、可用钱买到的意识器官,然后,教这种机器理解并且说英语。这个过程可以仿效通常小孩子学话的方式进行。我不能确定到底哪个出发点更好,但应该都值得一试。——A.M.Turing,ComputingMachineryandIntelligence,MindVol.59,1950.4交谈甲:听说吴妈打赢了阿Q。乙:不错,阿Q确实被吴妈打败了。甲:这个结果有些出人意料。乙:阿Q是大意失荆州,怪不得别人。5图灵测试(TuringTest)一个封闭的小屋里面有两间房A和B,其中一间房中是人,一间是机器屋外有一个人HH向A,B房内的实体提出各种问题H根据来自A,B的回答判断A,B中谁是计算机,谁是人如果H无法判断,则证明计算机具有人的智能6Eliza问答系统(byJosephWeizenbaum,MIT,early1960s)Youngwoman:Menareallalike.Eliza:Inwhatway?Youngwoman:They'realwaysbuggingusaboutsomethingspecificorother.Eliza:Canyouthinkofaspecificexample?Youngwoman:Well,myboyfriendmademecomehere.Eliza:Yourboyfriendmadeyoucomehere?Youngwoman:HesaysI'mdepressedmuchofthetime.Eliza:Iamsorrytohearyouaredepressed.Youngwoman:It'strue.I'munhappy.Eliza:Doyouthinkcomingherewillhelpyounottobeunhappy?Youngwoman:Ineedsomehelp,thatmuchseemscertain.Eliza:Whatwoulditmeantoyouifyougotsomehelp?Youngwoman:PerhapsIcouldlearntogetalongwithmymother.Eliza:Tellmemoreaboutyourfamily.Youngwoman:Mymothertakescareofme.Eliza:Whoelseinyourfamilytakescareofyou?Youngwoman:Myfather.Eliza:Yourfather.Youngwoman:Youarelikemyfatherinsomeways.Eliza:Whatresemblancedoyousee?7Searle的“ChineseRoom”哲学家约翰·西尔勒(JohnR.Searle)否认可以模拟大脑算法的计算机具有意识,他在上个世纪80年代给出了一个著名的理想实验“西尔勒的中文屋子”来支持他的论点。实验(改编版)的要旨是这样的:一个用中文讲的笑话,中国人听了会哈哈大笑。如果用一台可以执行复杂算法的计算机根据这个笑话的词句进行一系列运算,得出的结果正确,也是“哈哈大笑”,于是计算机用它自己的方式笑了几声,我们是否可以认为这台计算机“理解”了这个笑话呢?类似的,用一大群不懂中文的美国人取代计算机,他们拿着铅笔和纸重复计算机所做的一切,因为算法很复杂,可能要全美不懂中文的美国人算上一年才得到了结果“哈哈大笑”,他们派一个代表出来笑了几声。虽然反应很慢,但他们和一个中国人做得一样好,不过,这样仍然无法认定这群美国人“理解”了这个中文笑话。Searle,John.R.(1980)Minds,brains,andprograms.InBehavioralandBrainSciences3(3):417-4571980s8关于语言,我们了解多少?(1)人用来交际的“语言”具有什么样的性质?这些性质又是如何影响交际过程的?(2)人用来交际的“语言”跟机器可以“理解”的语言有什么样的关系(相同和不同)?(3)人是如何运用“语言”进行交际的?(4)人运用语言进行交际的过程是否可以描述为一个机械的过程?(5)什么叫做“理解”一种语言?……9机器语言vs.自然语言#includestdio.hvoidmain(){intx=1,y=2,z;z=x+++y;z=x+++++y;z=x+++++y;z=x++++y;z=x+(++y);printf(z=%d\n,z);}人们以为他对她有“意思”,于是,建议他对她“意思意思”。他说,他没那种“意思”。她则反问,你们是什么“意思”。大伙中有的觉得很有“意思”,有的则认为真没“意思”。封闭性vs.开放性10定义计算语言学(ComputationalLinguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。111计算语言学的研究内容从计算的角度来研究语言的性质将语言作为计算对象来研究相应的算法121.1从计算角度研究语言所谓从计算的角度来看语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。13例子2a吴妈以前很喜欢阿Q的理论2b*吴妈以前把阿Q的理论很喜欢2c*阿Q的理论以前被吴妈很喜欢1a张三已经赶跑了李四1b张三已经把李四赶跑了1c李四已经被张三赶跑了14语法规律1)汉语中的一个基本句型是:P0:X+动词+Y2)P0可以变换为“把”字句或“被”字句P1:X+把+Y+动词P2:Y+被+X+动词3)P0满足条件C1,C2,…Ci时可以变换为P1,P2;否则,不可以变换为P1,P2;151.2将语言作为计算对象所谓将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等16算法(algorithm)(1)通用性:算法是针对一类问题的,而不仅仅是用于解决某一个具体问题。(2)机械性:算法的每一个步骤都是机械的,确定的。(3)有限性:算法必须在有限步内结束。(4)离散性:算法的输入数据及输出数据都是离散的符号。17算法实例(1):求最大公约数数A,B用A除以B,保存余数CC=0?输出B,结束A=B,B=CNY18算法实例(2):求最佳路径HI=5GI=2FH=4FG=6EH=5EG=7DH=4DG=3CF=10CE=8CD=7BF=8BE=11BD=9AC=3AB=2从A到I的最佳路径是哪一条?192计算语言学的研究方式自然语言自然语言处理系统计算机自然语言处理程序语言知识研究者20动态视角(流程)S1:研究者以特定的方式对自然语言(NL0)的规律进行抽象,以计算机能够处理的形式来表述关于自然语言的规律——得到语言知识K;S2:针对特定的语言知识表示形式,研制适合的分析和处理算法;S3:根据算法编制计算机可执行的自然语言处理程序P。这样的程序加上语言知识,加上计算机硬件系统,共同构成一个自然语言处理系统(NLPs);S4:用这样一个自然语言处理系统对自然语言NL0进行分析处理,根据反馈的结果调整原来的设计,改进NLPs。21静态视角(模块)语言对象语言知识处理程序语音字词词组句子篇章音系形态句法语义语篇stemmerannotatorparsertranslator…22语言知识的获取方式(1)人工构造Algorithm(Reasoning)KnowledgeBaseRules,Lexicon…InputOutputLinguistsComputerScientist23语言知识的获取方式(2)知识挖掘StructuredText/KnowledgeLexiconsandontologiesKnowledgeExtractionToolsTextAnnotationToolsRawText“结合成分子时”需要的分词知识合成结合成分合成分子时结SE子时分子结/合成/分/子时7结合/成分/子时13结/合成/分/子/时6结合/成分/子/时12结/合/成分/子时5结合/成/分子/时11结/合/成分/子/时4结合/成/分/子时10结/合/成/分子/时3结合/成/分/子/时9结/合/成/分/子时2结/合成/分子/时8结/合/成/分/子/时1???????????????253计算语言学的应用领域机器翻译(MachineTranslation)文本分类(TextClassification)信息检索(InformationRetrieval)信息提取(InformationExtraction)语音合成(SpeechSynthesis)语音识别(SpeechRecognition)人机接口(Human-MachineInterface)……26整句输入转换拼音输入:自动将拼音序列转化为汉字序列;一个例子:拼音输入:Jiqifanyijiqiyingyongjiqikunnan汉字序列:…..?语音输入:自动将连续读音转化为汉字序列;文语转换:将连续文本转化为语音信号输出;校对拼写校对:我们要京城(精诚)合作文法检查。27文本检索(TextRetrieval)在Internet或数字图书馆上输入词、短语或句子检索相应的文档例子:和服Search•Question¾如何得到想得到的结果?28未经中文分词处理时的检索结果1.电信运营商和服务提供商采用奥维通的移动WiMAX解决方案,运营商和服务提供商可以提供各种个人宽带服务……2.关于做好党员联系和服务群众工作的意见做好党员联系和服务群众工作,要以马克思列宁主义、毛泽东思想、邓小平理论和“三个代表”重要……3.Guangzhoubomeileatherco.,ltd站长信息和服务中心:斗破苍穹阴阳冕九鼎记凡人修仙传猎国九转金身决……4.关于商品和服务实行明码标价的规定根据《中华人民共和国价格法》修订的《关于商品和服务实行明码标价的规定》,……5.TechnicalSupport利盟中国面向行业,办公和家庭提供彩色激光,黑白激光,喷墨,和多功能一体打印机及相关耗材和服务,是业届领先的打印解决方案的开发制造商。……29自动咨询(问答)简单问答问路线:颐和园怎么走?问天气:香港明天的天气如何?问航班/火车时刻网上购物问价格网上找人问题描述(语言的表述)答案返回(需要带摘要吗?)30文本信息过滤例子:过滤色情网站(或网页)文本/超文本内部表示用户请求语言知识库过滤器31热点话题跟踪例子:汶川地震成为一段时间的热点话题如何判断热点话题并跟踪?什么是话题,如何描述话题?按时间序分析当前话题是否与前面话题一致?怎么确认是热点话题?技术问题从文本中提取——需要分析文本;判断两个话题相同;根据统计量分析热点话题。32关键词抽取与自动标引从一篇长的文章中抽取几个能反映文章内容的词或词组;步骤:自动识别文章中可能的词/词组,如何识别?过滤掉不可能成为关键词的候选;对剩余的候选进行合并(形不同意同的候选合并)金牌与冠军按某种原则对候选选择或排序;33自动文本摘要信息时代的信息太多,需要浓缩什么是摘要?将长篇幅的文本核
本文标题:自然语言处理导论课程讲义
链接地址:https://www.777doc.com/doc-5349065 .html