您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 现代汉语语料库加工-词语切分与词性标注规范与手册
现代汉语语料库加工——词语切分与词性标注规范与手册俞士汶主编北京大学计算语言学研究所1999年4月目录●现代汉语语料库加工规范——词语切分与词性标注⒈前言…………………………………………………………1⒉切分规范……………………………………………………3⒊切分和标注相结合的规范…………………………………10⒋标注规范……………………………………………………14⒌后记…………………………………………………………19●现代汉语语料库加工手册——词语切分与词性标注⒈语料库加工的标记集及其说明……………………………20⒉加工好的样例………………………………………………20⒊若干个常用多类词的处理…………………………………24⒋词语切分和词性标注中的典型错例及分析………………28⒌准谓宾动词示例……………………………………………41⒍机器自动加工的样例及后校正注意事项…………………42⒎后记…………………………………………………………46●附录:⒈按代码的字母顺序排列的标记集…………………………47⒉按名称的汉语拼音顺序排列的标记集……………………48⒊参考文献……………………………………………………49现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。制订《现代汉语语料库加工规范》的基本思路如下:⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。⑵小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。合计约40个左右。⑶规范的多元性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。⑷词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也为汉语词的概率语法属性描述作准备。⑸为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。⑹不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。而经过切分和词性标注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法属性描述。经过切分和词性标注的语料库同《现代汉语语法信息词典》结合,形成一个立体的语言知识库。语料库的进一步深加工(树库,注音,义项标注等)也有了可靠的基础。⑺人机互助的工作方式。以本规范为基准,继续扩充自动加工软件的功能并提高其精度。人工校对是必要的。需要重视校对人员之间的切磋,要将对学术问题的不同见解统一到规范的制订与执行上。开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。本规范分为三个部分:①切分规范切分规范主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。第2章中详细介绍对“分词规范”的补充与调整。②切分和标注相结合的规范在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在本规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。这部分内容主要集中在第3章中。③标注规范③-1一般词性标注标注规范用以确定切分单位的标记。以1999年2月份语法词典小组提供的7万词表为基本参照,其含义包括:a.标记集以26个词类标记为基准,名动词、副动词、名形词、副形词和专有名词的标记是在动词代码v、形容词代码a、名词代码n后增加一个小写字母,语素标记是在语素代码g前面增加一个大写字母。b.一个词若在语法词典中已属于某一个或若干个词类,人工标注(校对)时不要轻易增加词性。如“训练”、“强调”在语法词典中只属于动词,标注时切勿仅根据其在当前句子的功能就将它们改为名词或副词,可以标注为名动词vn或副动词vd。c.当语法词典给某个词确定的词性不对或不完备时,当然也要订正或补充。这时应通知词典小组。d.即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标注时仍标以j,而不要改为nt或ns。e.“唐朝”、“宋代”等历史朝代名称虽然也是专名,因语法词典已作为时间词收入,标注时仍标以t,不改为nz。第4章集中论述标注规范。③-2专有名词标注这里“专有名词”的含义有了拓展。短语型的地名、团体机构名称及其他专有名称在词的切分基础上用ASCII码的方括号括起来,并在右方括号之后标以相应的ns、nt、nz,方括号不嵌套。第2章与第3章都涉及这部分内容。⒉切分规范2.1基本概念⑴切分单位“分词单位”是中国国家标准“分词规范”中的一个基本概念。它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。为了同“分词规范”衔接,这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中长期使用,大家已经熟悉,而用同一个术语表达同一或邻近学科的多个概念容易引起混乱。按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主要是词,也包括了一部分结合紧密、使用稳定的词组。在某些特殊情况下孤立的语素或非语素字也可能出现在切分序列中,如在动词的离合形式出/v了/u一/m次/q差/Ng。/w中,“差/Ng”是名语素;又如在鹧鸪/n的/u鹧/x有/v什么/r意思/n吗/y?/w中,“鹧/x”是非语素字。从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。⑵词典词条“词典词条”(或“词条”)指《现代汉语语法信息词典》中收录的那些词语。1999年2月提供给本项工程使用的词条的总数约7万,这些词语都已归了类,即带有词性标记。⑶切分单位和词条的关系汉语中,词和词组的界限、成词语素和不成词语素的边界是模糊的。本规范规定,凡收入语法信息词典的词条(包括:词、词组、成语、习用语、简称乃至标点符号等)一般都是切分单位。由于语法词典中的词条多达7万,对真实文本的覆盖率很高,因此可以保证绝大多数切分单位和语法词典的词条是一致的,但两者之间还是有差异的。例如5个字以上的成语、习用语是切分单位,但未被收入现在的语法词典。像“一百二十八”、“五分之三”、“百分之九”、“1998年”、“10月30日”这样的数词和时间词实际上是无限多的,语法词典不可能全收,只可能收少量的构成成分。反过来,像“分之”、“百分之”作为助数词收入了语法词典,但它们并不是切分单位。语法词典中包含的前接成分、后接成分、语素、非语素字不是切分单位,尽管当它们不能与前后成分组合时也会孤立地出现在切分序列中。当处理大规模真实文本时,不可避免地会碰到未登录词。第3章给出了一些合成词的构造规则。根据这些规则自动生成的或经校对者确认的切分单位,如果结合稳定,使用频度较高,以后有可能补充到语法词典中。2.2对分词规范的补充和调整为醒目起见,以下用符号“*”标识那些补充的规定,用“Δ”标识那些调整的规定。⑴人名:nr①汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。张/nr仁伟/nr,欧阳/nr修/nr,阮/nr志雄/nr,朴/nr贞爱/nr②姓名后的职务、职称或称呼要分开。江/nr主席/n,小平/nr同志/n,江/nr总书记/n,张/nr教授/n,王/nr部长/n,陈/nr老总/n,李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n③对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。老张/nr,大李/nr,小郝/nr,郭老/nr,陈总/nr④明显带排行的亲属称谓要切分开,分不清楚的则不切开。三/m哥/n,大婶/n,大/a女儿/n,大哥/n,小弟/n,老爸/n*⑤一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。鲁迅/nr,茅盾/nr,巴金/nr,三毛/nr,琼瑶/nr,白桦/nr⑥外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。克林顿/nr,叶利钦/nr,才旦卓玛/nr,小林多喜二/nr,北研二/nr,华盛顿/nr,爱因斯坦/nrΔ有些西方人的姓名中有小圆点,也不分开。卡尔·马克思/nr⑵地名:ns安徽/ns,深圳/ns,杭州/ns,拉萨/ns,哈尔滨/ns,呼和浩特/ns,乌鲁木齐/ns,长江/ns,黄海/ns,太平洋/ns,泰山/ns,华山/ns,亚洲/ns,海南岛/ns,太湖/ns,白洋淀/ns,俄罗斯/ns,哈萨克斯坦/ns,彼得堡/ns,伏尔加格勒/ns①国名不论长短,作为一个切分单位。中国/ns,中华人民共和国/ns,日本国/ns,美利坚合众国/ns,美国/nsΔ②地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。四川省/ns,天津市/ns,景德镇市/ns,沙市市/ns,牡丹江市/ns,正定县/ns,海淀区/ns,通州区/ns,东升乡/ns,双桥镇/ns南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns,大阪府/ns,北海道/ns,长野县/ns,开封府/ns,宣城县/nsΔ③地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将地名同行政区划名称用方括号
本文标题:现代汉语语料库加工-词语切分与词性标注规范与手册
链接地址:https://www.777doc.com/doc-1877600 .html