中国语料库研究的历史与现状(一)

中国语料库研究的历史与现状(一)语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpuslinguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub-language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注，正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。现在，国外的主要语料库还有：London-Lund口语语料库：收篇目87篇，每篇5000词，共为43.4万词，有详细的韵律标注(prosodicmarking)。AHI语料库：美国Heritage出版社为编纂Heritage词典而建立，有400万词。OTA牛津文本档案库（OxfordTextArchive）：英国牛津大学计算中心建立，有10亿字节。BNC英国国家语料库(BritishNationalCorpus)：1995年正式发布，使用TEI编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。ACL/DCI美国计算语言学学会数据采集计划：美国计算语言学学会(TheassociationforComputationalLinguistics,ACL)倡议的数据采集计划(DataCollectionInitiative,DCI)，其宗旨是向非赢利的学术团体提供语料，以免除费用和版权的困扰，用标准通用置标语言SGML统一置标，以便于数据交换。LDC语言数据联合会(LinguisticdataConsortium):设在美国宾州大学，实行会员制，有163个语料库(包括Text的以及speech的)，共享语言资源。RWC日语语料库：日本新情报处理开发机构RWCP研制，包括《每日新闻》4年的全文语料，语素标注量达1亿条。亚洲各语种对译作文语料库：日本国立国语研究所研制，中野洋主持，北京外国语大学参加。为了推进语料库研究的发展，欧洲成立了TELRI和ELRA等专门学会。TELRI是跨欧洲语言资源基础建设学会(Trans-EuropeanLanguageResourcesInfrastructure)的首字母缩写，JohnSinclair担任主席，由欧洲共同体提供经费，其目的在于建立欧洲诸语言的语料库，现已经建成柏拉图(Plato)的《理想国》(Politeia)多语语料库，建立了计算工具和资源的研究文档TRACTOR(ResearchArchiveofComputationalToolsandResources)，正在语料库的基础上建立欧洲语言词库EUROVOCA。TELRI每年召开一次Seminar。最近的一次Seminar在Lubljana,(Slovenia)召开(22.September–26.September.2000)，主题是从语料库中自动抽取知识（Automaticknowledgeextraction）。ELRA是欧洲语言资源学会(EuropeanLanguageResourcesAssociationi)的首字母缩写，由Zampolli担任主席，ELRA负责搜集、传播语言资源并使之商品化，对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA(EuropeanLanguageresourcesDistributionAgency)，负责研制并推行ELRA的战略和计划。ELRA还组织语言资源和评价国际会议LREC(LanguageResources&evaluationCongress),每两年一次。第一次会议于1998年在西班牙的Grenade举行；第二次会议在Athens（Greece）召开（31.May–02.June.2000），第三次会议于2002年在西班牙的LasPalmasdeGranCanaria召开(27.May–02.June2002)。二、我国语料库的发展概况（一）早期的汉语语料库1、我国语料库研究的先河在我国，从20世纪20年代开始，就有学者建立文本的语料库，采用统计的方法来研究汉字的频率，其目的在于制定基础汉字的字表。当然，这样的语料库不是机器可读的，规模也很小，它是现代语料库的雏形，开我国语料库研究的先河，在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的，在对语料统计的基础上，编写了《语体文应用字汇》，于1925年完成，于1928年由商务印书馆出版，陈书前有“绪论”，说明“中文应用字汇”曾有多种，其中包括P.克仑茨(PastorP.Kronz)的研究和他自己的编写的《常用四千字表》。陈鹤琴做过两次统计，第一次统计使用了六种材料，包含554,478个汉字的语料，得不同汉字4261个；第二次使用包含34,818个汉字的语料，得出与4261个汉字相异的汉字458个。第二次统计所得的成果毁于战火，在《语体文应用字汇》中印出的只是第一次统计的结果。陈鹤琴用的语料分如下六类：儿童用书：127,293字；报刊（以通俗报刊为主）：153,344字；妇女杂志：90,142字；小学生课外作品：51,807字；古今小说：71,267字；杂类：60,625字。书末附有“字数次数对照表”，这是按汉字在语料中出现的绝对频率排列的字表。我国著名教育家陶行知先生为《语体文应用字汇》写了序言。序言中说：“他们（指“近代教育家”）对于一门一门的功课，甚至一篇文章，一个算题，一项运动，都要依据目标去问他们的效用。他们的主张是要所学的，即是所用的。......到了后来他们连学生学的字也要审查起来了。学生现在所学的字，个个字都是有用的字吗？自从这个问题发生就有好几位学者开始研究应用字汇。我国方面也有几位先生研究这个问题，其中以陈鹤琴先生的研究最有系统。他和他的助理九人先后费了二三年工夫，检查了几十万字的语体文，编成这本《语体文应用字汇》。这册报告未付印以前已经做了《平民千子课》用字的根据。将来小学课本用字当然也可以拿他来做一个很好的根据。虽然不能十分完备，但我想这本字汇对于成人及国民教育一定是有很大的贡献的。”（见陈鹤琴《语体文应用字汇》，商务印书馆，1928年）。2、早期的机器可读语料库从1979年以来，中国就开始进行机器可读语料库的建设，早期在中国建立的主要的机器可读语料库有：汉语现代文学作品语料库（1979年），527万字，武汉大学。现代汉语语料库（1983年），2000万字，北京航天航空大学。中学语文教材语料库（1983年），106万8千字，北京师范大学。现代汉语词频统计语料库（1983年），182万字，北京语言学院。我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。1979年，北京语言学院（现在改名为“北京语言文化大学”）针对对外汉语教学的特点，把“现代汉语词汇统计研究”作为重点科研课题，开始进行规模较大的汉语单词的频率统计研究。这项研究工作，采用人工与计算机相结合的方式，对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作，统计的总词汇量为1,315,752词次，含不同单词31,159个，其中包括十年制语文课本（52万字，374,654词次）的字频和词频的定量分析，统计结果编成《现代汉语频率词典》出版。他们选取的语料可以分为如下四类：报刊政论：44万字，占语料总量的24.4%。科技和科普文章：29万字，占语料总量的19.8%。口语材料：20万字，占语料总量的11.1%。文学作品：89万字，占语料总量的48.7%。整个语料共182万字。这样容量的语料，在当时已经是比较大的语料库了。根据数理统计的原理，所统计的语料的总体个数必须达到一定足够的数量，才能保证统计结果符合客观实际。《现代汉语频率词典》的编者认为，如果常用词的出现频率不低于百万分之一，也就是在一百万次的场合，常用词的出现机会至少应该有一次，就可以保证统计结果的客观性。《现代汉语频率词典》实际上统计了182万个汉字的语料，因此，其抽样是合理的、经济的、适度的。但是，国外在1971年进行英语词频统计时，所用语料量有5,088,721个词，包含不同单词86,741个，统计规模比《现代汉语频率词典》大得多。由于语料库语言学的发展，语料库的容量不断扩大，现在，数千万词甚至于数亿词的语料库已经不算少见。与当前语料库的容量比较起来，《现代汉语频率词典》所依据的语料规模是小了一些。不过，尽管这样，《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。这次词频统计得出了如下词表：1、按字母音序排列的频率词表：共列出常用词16,593个，按音序排列，从中可以看出：汉语中以Z、S、J、Y开头的词较多：以Z开头的词有1457个，占8.78%；以S开头的词有1327个，占7.99%；以J开头的词有1243个，占7.49%；以Y开头的词有1205个，占7.26%。汉语中以E、O开头的词很少：以E开头的词只有64个，占0.38%；以O开头的词只有13个，占0.07%。2、按频率递减的顺序排列的词表：在词表中，最常用词的使用频率相当高，前100个词占了语料总量的40%以上，前500个词占了语料总量的70%以上，前2562个词占了语料总量的85%，词表共有不同单词31,159个，这些词占了语料总量的100%。从前100个词到前500个词，不同的单词数增加了400个，百分比就增加了30%，而从前2562个词到前31,159个词，不同单词数增加了30,597个，百分比材增加了15%。由此可见，高频词对于百分比的增加有着很大的作用，而低频词对于百分比的增加，其作用是微乎其微的，往往要大量的低频词，才能使百分比增加一点点。3、按使用度递降顺序排列的词表：使用度是1954年尤兰德(Juilland)和洛德西盖(Chang-Rodsiguez)在计算西班牙语的词汇频率时提出的一个新概念,他们并且也提出了计算使用度的数

中国语料库研究的历史与现状(一)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

高层办公楼建筑设计讲义

Rwuppq欧盟与俄国的能源战争!(3)【酌志飞扬荐】

燃煤污染物的生成与减排

（深圳）垦利科技发展有限公司-搜狐图搜天下定位平台方案ppt(ppt 63)

组织管理项目的内容和管理

绩效评估面谈技巧培训

MOSFET的驱动技术详解

长方形正方形的周长面积计算(图题50题)

华南理工大学各种申请流程

客户文档管理细则

相关文档

相关搜索