您好,欢迎访问三七文档
计算语言学概论常宝宝北京大学计算语言学研究所chbb@pku.edu.cn课程信息名称:计算语言学授课时间:周二10-12节(18:40~21:30)授课地点:二教211助教:李月伦lyldtc.student@sina.com课程主页:成绩评定平时成绩(60%)上机作业出勤期末笔试(40%)主要参考书1.计算语言学概论,俞士汶主编,商务印书馆,20032.SpeechandLanguageProcessing,Jurafsky,D.andMartin,J.H.,1stEditionPrenticeHall,2000(中译本:自然语言处理综论,冯志伟等译,电子工业出版社,2005)3.SpeechandLanguageProcessing,Jurafsky,D.andMartin,2ndEdition,J.H.,PrenticeHall,2008其它参考书(一)FoundationsofStatisticalNaturalLanguageProcessing,Manning,C.D.&Schütze,H.,TheMITpress,1999(有中译本)StatisticalLanguageLearning.Charniak,E.,TheMITPress.1996.NaturalLanguageUnderstanding,Allen,J.,TheBenjamins/CumminsPublishingCo.,1994(有中译本)NaturalLanguageProcessing:AnIntroductiontoComputationalLinguistics,Gazdar,G.&Mellish,C.,Addison-Wesley,1989.IntroductiontoNaturalLanguageProcessing,Harris,M.D.,RestonPublishingCo.,1985其它参考书(二)1.统计自然语言处理,宗成庆,清华大学出版社,20082.自然语言理解,姚天顺,清华大学出版社,20023.自然语言处理技术基础,王小捷、常宝宝,北京邮电大学出版社,20024.计算语言学,刘颖,清华大学出版社,20025.计算语言学基础,冯志伟,商务印书馆,20016.计算语言学导论,翁富良、王野翊,中国社会科学出版社,19987.自然语言的计算机处理,冯志伟,上海外语教育出版社,19978.自然语言处理,刘开瑛、郭炳炎,科学出版社,1991相关学术期刊和会议1.ComputationalLinguistics(ACL)2.MachineTranslation3.InternationalJournalofCorpusLinguistics4.中文信息学报(中文信息学会)5.计算机学报、软件学报6.汉语语言与计算学报(新加坡)1.AnnualMeetingoftheAssociationforComputationalLinguistics(ACL年会)2.ConferenceonEmpiricalmethodsinnaturallanguageprocessing(EMNLP)3.InternationalConferenceonComputationalLinguistics(COLING)4.全国计算语言学联合学术会议(CCL)5.全国青年计算语言学研讨会(YWCL)什么是计算语言学?计算语言学是通过建立形式化的计算模型来分析、理解和处理自然语言的学科。什么是自然语言?其它术语自然语言处理(NaturalLanguageProcessing)自然语言理解(NaturalLanguageUnderstanding)人类语言技术(HumanLanguageTechnology)什么是计算语言学?计算语言学是一门交叉学科。计算语言学研究需要多个学科的知识。语言学(自然语言是处理对象)计算机科学(计算语言学的研究工具)数学(自然语言的建模工具)为什么要研究计算语言学?语言障碍人-人之间的语言障碍(自动翻译)人-机之间的语言障碍(人-机接口)计算机自然语言输入自然语言输出理解生成计算语言学的研究目标终极目标研制能理解并生成人类语言的计算机系统。当前目标研制出具有一定人类语言能力的计算机文本或语音处理系统。计算语言学的研究内容建立形式化的适于计算机处理的语言模型。研制分析、生成以及处理语言的各种算法。计算语言学研究的挑战性大量的词汇、大量的句子。OED收词50万、汉语中有多少词?无法象处理人工语言那样,写出一个完备的、有限的规则系统来进行定义和描述。自然语言的规则很少没有例外。(photo、potato)自然语言中有大量的歧义现象。自然语言的理解不仅和语言本身的规律有关,还和语言之外的知识(例如常识、领域知识)有关。因此语言处理涉及的常是海量知识,知识库的建造维护代价很高。计算语言学研究的挑战性什么是歧义?对同一个语言形式有不止一种解读。歧义是自然语言的固有属性,即使对于人类自身而言,也是如此。人工语言没有歧义。语言单位无论大小都有歧义现象。语言学家常把语言研究区分为不同的层次,如:音韵学、形态学、句法学、语义学、语用学等,在这些层面歧义都会有所表现。计算语言学研究的挑战性歧义举例:(1)Theboysawthegirlwithatelescope.ÆWhohasthetelescope?(2)Atlast,acomputerthatunderstandsyoulikeyourmotherÆThecomputerunderstandsyouaswellasyourmotherunderstandsyou.ÆThecomputerunderstandsthatyoulikeyourmother.ÆThecomputerunderstandsyouaswellasitunderstandsyourmother.常见对策由于歧义等因素的存在,自然语言处理的性能还不能满足一般应用的需要,为了满足某些特殊的应用需求,传统上常采用下面的对策交互式处理策略z人机互助进行处理子语言策略(sublanguage)z限定处理文本的领域受控语言策略(controlledlanguage)z限定语言的词汇和句法,降低复杂度做计算语言学研究时,要避免贪大求全,应限定研究范围和目标。计算语言学的研究方法1.规则驱动的方法2.数据驱动的方法3.二者融合的方法计算语言学的研究方法规则驱动的方法(符号主义)1.研究人员(例如语言学家)对语言的规律进行总结,形成规则形式的知识库。2.研制语言处理算法,利用这些规则对自然语言进行处理。3.研究人员根据处理结果,调整规则,改进处理效果。计算语言学的研究方法规则方法举例例如:SÆNP+VPNPÆDET+NNPÆNP+PPVPÆVP+PPVPÆV+NPPPÆP+NP计算语言学的研究方法用上述规则分析句子“theboysawthegirlwithatelescope”计算语言学的研究方法Allgrammarleak(Sapir1921)对于自然语言而言,很难写出一部完备的规则集,语言规则有很强的伸缩性。一般而言,很多基于规则的系统不能满足真实语言文本处理的要求,而只能处理真实语言的某个很小的子集。toysystem?toysyndrome计算语言学的研究方法数据驱动的方法(统计方法)1.建立可以反映语言使用情况的语料库。2.研究人员对自然语言进行统计建模。3.利用统计技术或机器学习技术,基于语料库训练语言模型。4.利用得到的模型设计算法对语言进行处理。5.根据处理效果改进模型,提高处理性能。计算语言学的研究方法在数据驱动的方法中,语言模型通常体现为一组参数,这些参数通常表示某个语言形式发生的概率值。例如:P(w3|w1w2)P(公鸡|一只)P(供给|一只)多项分布?数据驱动的方法忽视了语言的深层结构(?)。计算语言学的研究方法融合规则驱动和数据驱动的方法规则驱动、数据驱动的优劣不能简单评价综合两种方法有可能扬长避短并达到优势互补的结果已经提出了一些策略,但如何无缝结合尚须进一步探索计算语言学的研究方法从学术会议看计算语言学的研究方法规则驱动的方法在1990年前是主流研究方法机器学习以及统计技术目前是主流研究方法计算语言学研究中的评测问题为了评价各种方法的有效性,必须进行客观公正的评测,客观公正的评测有助于引导计算语言学朝着一个健康的方向发展。国内外关于各类计算语言学任务的性能评价如火如荼。863、973、TREC、MUC、SIGHAN、NIST、SensEval、SemEval等自然语言很复杂、关于语言处理方法和系统的评测也不容易。语言学争议与标准测试集评测有正面作用,但也有负面效果。评价指标是否合理模型推广能力计算语言学的应用计算语言学有着广阔的应用领域。1.机器翻译2.人机对话3.信息检索4.信息提取5.自动文摘6.文本分类7.拼写检查8.音字转换机器翻译目标是研制能把一种自然语言翻译成另外一种自然语言的计算机软件系统。例如汉英机器翻译系统全自动高质量机器翻译(FAHQMT)–尚须时日相关研究始于四十年代末(计算机诞生不久)。机器翻译研究经历了曲折的历程,正是对机器翻译的研究导致了计算语言学的诞生。目前市场上有不少翻译产品,应正确看待。机器翻译著名的例子Æthespiritiswillingbutthefleshisweak.Æthevodakaisgoodbutthemeatisrotten.联机机器翻译网站SYSTRAN华建Google微软译星人机对话科幻主题2001:Aspaceodyssey(2001年太空漫游)1968年奥斯卡奖HAL9000Dave:Openthepodbaydoors,HAL.HAL:I’msorryDave,I’amafraidIcan’tdothatDave:What’stheproblem?HAL:IthinkyouknowwhattheproblemisjustaswellasIdo.人机对话自然语言接口Questionansweringsystem(QA系统)例子:Question:WhoisRonaldReagan'swife?Possibleanswers:XMLTXT1.NancyDavisReagan(1923-...)isthesecondwifeofRonaldReagan,whoservedaspresidentoftheUnitedStatesfrom1981to1989.2.NancyReagan,wifeofPresidentRonaldReagan,wasbornAnneFrancesRobbins.3.……人机对话联机QA系统AnswerBusAskJeevesSTART、百度、天网信息检索系统自动文摘访问:ColumbiaNewsblaster://newsblaster.cs.columbia.edu自动文摘信息提取文本数据结构化信息提取其它应用文本分类(自动判别文本的类别)音字转换(汉字整句输入法)拼写检查和自动勘校系统计算语言学简史1940年代末—1960年代中期WarrenWeaver(49)、G
本文标题:计算语言学概论
链接地址:https://www.777doc.com/doc-3095572 .html