您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 当前自然语言处理发展的四个特点
本文载《暨南大学华文学院学报》2006年,第1期(总21期)当前自然语言处理发展的四个特点冯志伟(教育部语言文字应用研究所)摘要:本文分析了当前自然语言处理发展的四个特点:基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标;自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识;统计数学方法越来越受到重视;自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。关键词:自然语言处理,语料库,机器自动学习,统计数学,词汇主义。二十一世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视自然语言处理的研究,投入了大量的人力、物力和财力。我认为,当前国外自然语言处理研究有四个显著的特点:第一,基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。在过去的四十多年中,从事自然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法的哲学基础是逻辑实证主义,他们认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。著名语言学家J.A.Fodor在《Representations》[1]一书(MITPress,1980)中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。”Fodor的这种说法代表了自然语言处理中的基于规则(符号操作)的理性主义观点。这样的观点受到了学者们的批评。J.R.Searle在他的论文《Minds,BrainsandProgrammes》(1980,载《BehavioralandBrainSciences》,Vol.3)[2]中,提出了所谓“中文屋子”的质疑。他提出,假设有一个懂得英文但是不懂中文的人被关在一个屋子中,在他面前是一组用英文写的指令,说明英文符号和中文符号之间的对应和操作关系。这个人要回答用中文书写的几个问题,为此,他首先要根据指令规则来操作问题中出现的中文符号,理解问题的含义,然后再使用指令规则把他的答案用中文一个一个地写出来。比如,对于中文书写的问题Q1用中文写出答案A1,对于中文书写的问题Q2用中文写出答案A2,如此等等。这显然是非常困难的几乎是不能实现的事情,而且,这个人即使能够这样做,也不能证明他懂得中文,只能说明他善于根据规则做机械的操作而已。Searle的批评使基于规则的理性主义的观点受到了普遍的怀疑。理性主义方法的另一个弱点是在实践方面的。自然语言处理的理性主义者把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自然语言处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是自然语言处理在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(即TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。从中可以看出当前自然语言处理关注的焦点。当前语料库的建设和语料库语言学的崛起,正是自然语言处理战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。这种大规模真实的语料库还为语言研究的现代化提供了强有力手段。我在20多年前曾经测试过汉字的熵(即汉字中所包含的信息量),这是中文信息处理的一项基础性研究工作。为了计算汉字的熵,首先需要统计汉字在文本中的出现频度,由于70年代我们还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,我只得根据书面文本进行手工查频,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。这是一件极为艰辛而烦琐的工作。如今我们有了机器可读的汉语语料库,完全用不着进行手工查频,频度的统计可以在计算机上进行,只要非常简单的程序就可以轻而易举地从语料库中统计出汉字的频度并进一步计算出汉字的熵。语言研究工作的效率成百倍、成千倍地提高了!尽管学问是从苦根上长出来的甜果,但是,现代化的手段不仅可以帮助我们少吃很多的苦,而且也还能把学问做得更好。手工查频犹如赶着老牛破车在崎岖的山路上跋涉,使用语料库犹如乘宇宙飞船在广阔的太空中翱翔。这是我从前根本不敢想象的。大规模机器可读语料库的出现和使用,把语言学家从艰苦繁重的手工劳动中解放出来,使语言学家可以集中精力来研究那些更加重要的问题,这对于促进语言学研究的现代化具有不可估量的作用。第二,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的,由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法不仅效率极低,而且带有很大的主观性。传统语言学中啧啧地称道的所谓“例不过十不立,反例不过十不破”的朴学精神,貌似严格,实际上,在浩如烟海的语言数据中,以十个正例或十个反例就轻而易举地来决定语言规则的取舍,难道就能够万无一失地保证这些规则是可靠的吗?这是大大地值得怀疑的。当前的自然语言处理研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设,成为了当前自然语言处理的热点。这是语言学获取语言知识方式的巨大变化,作为二十一世纪的语言学工作者,都应该注意到这样的变化,逐渐改变获取语言知识的手段。2000年,在美国约翰.霍普金斯大学(JohnsHopkinsUniversity)的暑假机器翻译讨论班(Workshop)上,来自南加州大学、罗切斯特大学、约翰·霍普金斯大学、施乐公司、宾西法尼亚州立大学、斯丹福大学等学校的研究人员,对于基于统计的机器翻译进行了讨论,以德国亚琛大学(Aachenuniversity)年轻的博士研究生奥赫(FranzJosefOch)为主的13位科学家写了一个总结报告(FinalReport),报告的题目是《统计机器翻译的句法》(“SyntaxforStatisticalMachineTranslation”),这个报告提出了把基于规则的方法和基于统计方法结合起来的有效途径。奥赫在国际计算语言学2002年的会议(ACL2002)上发表论文,题目是:《统计机器翻译的分辨训练与最大熵模型》(“DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation”),进一步提出统计机器翻译的系统性方法,获ACL2002大会最佳论文奖。2002年1月,在美国成立了LanguageWeaver公司,专门研制统计机器翻译软件(StatisticalMachineTranslationSoftware,简称SMTS),奥赫加盟LanguageWeaver公司,作为这个公司的顾问。LanguageWeaver公司是世界上第一个把统计机器翻译软件商品化的公司。他们使用机器自动学习的技术,从翻译存储资料(translationmemories)、翻译文档(translatedarchives)、词典(dictionaries&glossaries)、因特网(Internet)以及翻译人员(humantranslators)那里获取大量的语言数据,在这个过程中,他们对这些语言数据进行各种预处理(pre-processing),包括文本格式过滤(formatfiltering)、光学自动阅读和扫描(Scan+OCR)、文字转写(transcription)、文本对齐(documentalignment)、文本片段对齐(segmentalignment)等。接着,把经过预处理的语言数据,在句子一级进行源语言和目标语言的对齐,形成双语并行语料库(parallelcorpus)。然后使用该公司自己开发的“LW学习软件”(LanguageWeaverLearner,简称LWLearner),对双语并行语料库进行处理,从语料库中抽取概率翻译词典、概率翻译模板以及概率翻译规则等语言信息,这些抽取出来的语言信息,统称为翻译参数(translationparameters),这样的翻译参数实际上就是概率化的语言知识,经过上述的处理,语言数据就变成了概率化的语言知识。翻译参数是该公司翻译软件的重要组成部分。为了处理这些翻译参数,该公司还开发了一个统计翻译器,叫做解码器(Decoder),这个解码器是该公司翻译软件的另一个重要组成部分,解码器和翻译参数成为了LanguageWeaver公司翻译软件的核心(corecomponents)。解码器使用上述通过统计学习获得的翻译参数对新的文本进行机器翻译,把新的源语言文本(newsourcelanguagedocuments)自动地翻译成新的目标语言译文(newtargetlanguagetranslation),提供给用户使用。LanguageWeaver公司的翻译系统的工作流程如下图所示:图1LanguageWeaver统计机器翻译软件工作流程目前,该公司开发的汉英机器翻译系统和英语—西班牙语双向机器翻译系统即将问世。他们还要使用同样的方法,开发英语—法语的双向机器翻译系统、印地语—英语以及索马里语—英语的单向机器翻译系统。2003年7月,在美国马里兰州巴尔的摩(Baltimore,Maryland)由美国商业部国家标准与技术研究所NIST/TIDES(NationalInstituteofStandardsandTechnology)主持的机器翻译评比中,奥赫获得了最好的成绩,他使用统计方法从双语语料库中自动地获取语言知识,建立统计机器翻译的规则,在很短的时间之内就构造了阿拉伯语和汉语到英语的若干个机器翻译系统。伟大的希腊科学家阿基米德(Archimedes)说过:“只要给我一个支点,我就可以移动地球。”(“Givemeaplacetostandon,andIwillmovetheworld.”)而现在奥赫也模仿着阿基米德说:“只要给我充分的并行语言数据,那么,对于任
本文标题:当前自然语言处理发展的四个特点
链接地址:https://www.777doc.com/doc-537409 .html