您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 关于现代汉语词语的语法功能分类
关于现代汉语词语的语法功能分类俞士汶关键词:语言信息处理、现代汉语、词类、语法功能一.信息处理用现代汉语词语分类体系在朱德熙先生的语法理论的指导下,北大计算语言学研究所与中文系合作,经过几年的研究,提出了一个服务于语言信息处理的现代汉语词语分类体系,并将五万多条的词语实际进行了归类,与此同时还按类详细描述了每个词语的多种语法属性,初步建成了“现代汉语语法信息词典”,另外对数十万字的语料进行了切分和词性标注。这就又进一步检验了词类划分的科学性与可操作性。达到如此规模和如此深度的汉语语言工程实践可能是罕见的。本文介绍现代汉语词语分类体系、分类的理论基础,并以若干词类为例详细介绍具体的划类准则。现代汉语的词分为以下18个基本词类,括号中的拉丁字母是各类词的代码。名词(n),时间词(t),处所词(s),方位词(f),数词(m),量词(q),区别词(b),代词(r),动词(v),形容词(a),状态词(z),副词(d),介词(p),连词(c),助词(u),语气词(y),拟声词(o),叹词(e)。这些基本词类可以合并为较大的词类。名词、时间词、处所词、方位词、数词、量词统称为体词,动词、形容词、状态词统称为谓词。有一部分代词属于体词,另一部分代词属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称为虚词。实词与虚词是汉语的两大词类。此外还有拟声词与叹词,它们游离于这两大词类之外。自然语言处理的常规技术要求在自然语言处理系统中配备一部电子词典。对于计算机系统来说,可以认为作为电子词典的登录项的语言单位是“词”。其中大部分肯定是语言学家认同的词,这也就是暗示了其中还有一部分不能看作“词”。从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,词典中另外包含了以下7类语言成分:前接成分(h):阿,老,非,超,单后接成分(k):儿,子,性,员,器语素字(g):民,衣,失,遥,郝非语素字(x):鸳,枇,蚣成语(i):按部就班,八拜之交习用语(l):总而言之,由此可见简称略语(j):三好,全总前4类是比“词”更小的单位,不成词。这些成分的数量是有限的,只要电子词典的规模允许,应当尽可能地将这些成分全部收入。后3类是比“词”更大的单位,词典中只能收一部分使用频率高的。本文将电子词典中登录的各种语言成分笼统地叫做“词语”。以下行文中的“词类”是就前面的18个基本词类而言的,有时也讨论上述后7类语言成分。二.词语分类的理论基础2.1分类的目的与依据为了进行语法研究与信息处理,需要把语法功能相同的或者相近的词归成一类。这里包含两项工作。一项是要针对汉语词语的全集,按照某种标准,建立一个分类体系。第一章所介绍的就是面向信息处理的一种汉语词语分类体系。另一项工作是决定该全集中的每一个词语究竟属于哪一个词类,这项工作可以叫“归类”,不过人们习惯上也在“归类”的意义上使用“分类”这个术语。如果面向人的语言研究,词语分类尚不十分迫切的话,那么面向计算机的语言研究,词语的语法分类及其代码化几乎是不可缺少的。词语分类实际上是将最重要的语法知识与语法规则条理化,从而为自然语言的分析与生成提供最重要的线索。划分词类的本质根据只能是词的语法功能。所谓词的语法功能主要是指:(1)和某个或某类词语组合的能力;(2)在句法结构中充当句法成分的能力。例如,考察具有如下语法功能的词。a.可以用作主谓结构中的谓语,但不能带真宾语。如“个子高,教室安静”中的“高,安静”是谓语。象“高三公分,安静了两天”中的数量短语“三公分,两天”是准宾语,而不是真宾语。b.可以受“很”一类程度副词修饰,如“很高,挺安静,特别雄伟”。c.可以作述补结构中的补语,如“洗干净,捆得结实”中的“干净、结实”是补语。d.直接或加“地”后作状中结构中的状语,如“迅速提高,安全地转移”中的“迅速、安全”是状语。e.直接或加“的”后作定中结构中的定语,如“漂亮小姐,挺拔的山峰”中的“漂亮、挺拔”是定语。f.可以用a+“不”+a的形式提问,如“硬不硬,痛苦不痛苦”。g.后可接语气词“着呢”,如“美着呢,痛快着呢”。::可将这样的词归成一类,起个名字叫“形容词”,并用一个代码“a”表示。这样,如果判明了一个词具有上述功能,则可以将它归入形容词;反之,如果能从汉语语法信息词典查得某个词的词类代码是“a”,则知它很可能具有上述语法功能,除非汉语语法信息词典对其中某些词的某些语法功能另有更准确的描述。参照上述语法功能,可以将形容词同其它词类区分开。如名词不具备上述功能中的b,c,d,f,g,一般地说,也不具备功能a。同时名词的语法功能中也有一些是形容词所不具备的。划分汉语词类的本质依据就是这些语法功能的异同。划分词类的本质依据只能是词的语法功能,词的意义不能作为划分词类的依据,这与划分词类的目的是紧密相关的,因为表示同类概念的词的语法功能并不一定相同。例如,“战争”与“打仗”指的是同一个概念,可是“战争”是名词,“打仗”是动词。汉语不象印欧语那样有丰富的形态,也不能根据形态给汉语的词语分类。在第1章描述的分类体系中,有一些词类(如代词、数词、拟声词和叹词),不是严格根据它们的语法功能分布划分出来的。这种情况不会给词类划分理论造成困难。以代词为例,它是根据一个词是否具有指代功能划分出来的,这实际上是语义范畴的功能。如果严格按功能划分,不妨细分为体词性代词(过去叫代名词)和谓词性代词。现在仍将它们归入一类,是为了同传统的说法衔接,同时也适合信息处理的需要。2.2关于分类问题的若干说明2.2.1词的同一性问题虽然说划分词类不是依据意义,但是需要认识到,划分词类只能在确定了词的同一性的基础上进行。所谓同一性指的是在不同的语言环境中出现的词形相同的若干个词应该算同一个词还是应该算不同的词。书面汉语的同形词限定为汉字相同的词,也可以直接叫做同字词。同字词又可分为同字异音词与同字同音词。如“好人好事”中的“好”与“好管闲事”的“好”是同字异音词,而“很好”与“好狠”中的“好”却是同字同音词。同字异音词当然是不同的词。因此,同一性问题的研究对象是同字同音词。例1门上挂着一把锁。例2请把门锁好。例1与例2中的两个“锁”的意义区别很明显,并且语法功能也有明显的不同,因而有理由说它们是不同的两个词,一个属名词,另一个属动词。例3村里死了一口猪。例4这个办法很死。例3中的“死”是失去生命的意思,可以带体词性宾语,例4中的“死”是呆板、不灵活的意思,可以受“很”一类程度副词修饰。如果认为“失去生命”与“不灵活”就是不同的意思,那就可以认为例3与例4中的两个“死”是不同的词,一个是动词,一个是形容词。如果认为“不灵活”的意思是由“失去生命”的意思引申出来的,把例3与例4的两个“死”看成同一个词,这时就需要把有关“死”的种种语法功能合在一起,由此来确定“死”的词类,采取这种观点,“死”兼属动词和形容词这两类词。不过,对于计算机来说,在句法分析的范围内,只要能在电子词典中查到“锁”既是名词又是动词,“死”既是动词又是形容词就达到要求了。至于分属名词与动词的“锁”,分属动词与形容词的“死”是两个不同的词还是同一词兼属不同词类的区别就不那么重要了。2.2.2各类词的划类准则既然划分词类的本质依据只能是词的语法功能,那么在确定各类词的分类标准时,是否都要列举各类词的全部语法功能呢?这是不必要的,也是不可能的。因为全部语法功能中当然也包括了这一类词与其它类词的某些相同的语法功能,而这些相同的语法功能对划分词类是没有作用的。划分词类时必须注意不同词类之间那些互相有区别的特征,即各个词类的语法特点。在进行将具体的一个词划归某个词类的实际操作时,检验该词是否具备该类词的全部语法特点往往也是不容易的,通常只要抓住最重要的语法特点即可。例如,2.1节列举了形容词的各种语法功能(当然还不是全部),其中象“做定语”这样的功能就算不上是形容词的语法特点,因为名词、动词同样可以做定语。形容词的划类准则可以选这样两条:1.可以作谓语但不带真宾语;2.可以被“很”修饰。选择分类标准的原则应当是由此建立起来的词类,其所属的词语在语法功能上要有足够多的共同点,同时跟别的词类又要有足够多的不同点。划类标准也不是绝对的,不是一成不变的。若选择的划类标准不同,建立的词语分类体系也会有所不同。不同类的词之间必须要有相互区别的语法特点,但不是说不同类的词之间毫无共同之处。动词与形容词都可以做谓语,后面都可以接“了”及趋向动词“起来”,就是它们共同的语法功能。如果以这些共同的语法功能作为划类标准,则可以将动词与形容词(还包括状态词)合并为一个更大的类,即谓词。2.2.3典型性问题在一个确定的分类体系中,同类的词有共同的语法功能,但不等于说,同类的词的语法功能完全相同。对于任何一种自然语言,实际可行的、有价值的分类只能做到把语法功能相同或相近的词归在一起。这样一来,同类的词,有些是典型的,符合分类的全部标准或最重要的标准,有些是不典型的,只符合其中一部分标准。例如,“苹果、水泥、勇气、心胸”都是名词,它们的共同特征是能做句子的主语与宾语,不受副词修饰。一般地说,名词可以受数量词修饰,不过量词的类型又有差别。如修饰“苹果”的数量结构中的量词可以是个体量词、度量词、容器量词与种类量词等,与“水泥”搭配的就没有个体量词,与“勇气”搭配的只有种类量词和不定量词,而“心胸”却不能受任何数量结构或数词修饰。在列举各个词类的划类准则时,应尽可能地把那些重要的列在前面。当判断一个具体的词是否属于某个词类时,就可以看它是否符合这些判断标准。越符合多项标准或者前面的标准,越是该类典型的词。反之,虽将一个词划入了该类,但它只符合少数几项标准或者只符合较后面的标准,那么这个词在该类中就不是典型的。这也是语言现象的模糊性的一种表现。2.3词语的兼类在“2.2.1词的同一性问题”中已经涉及了词的兼类,这里更集中地讨论一下这个问题。词的兼类指的是如果同字同音同义的同一个词具有不同词类的语法功能,则认为这个词兼属不同的词类,简称兼类。兼类问题可用表征形容词与动词关系的图1来说明。图1.形容词与动词的兼类在图1中,左边的圆代表形容词的集合,右边的圆代表动词的集合。这两个圆不相重合部分分别用a,v表示,相重合的阴影部分用$表示。形容词与动词虽然都是谓词,但它们有相互区别的语法特点,如形容词可以受“很”修饰且不能带真宾语,而动词或者不能受“很”修饰或者能带真宾语。根据这些语法特点,可以把绝大部分形容词与动词区分开来。但是,汉语中确实有一些词处于两个圆重合的阴影部分,如“端正,巩固,方便,壮大,繁荣,丰富”等,这些词既具有形容词的语法功能,又具有动词的语法功能,并且看不出它们作为形容词或者作为动词,在意义上有什么区别。因此,本研究报告认为这些词兼属形容词与动词。前面已经提到,划类标准有一定的相对性。仍以图1为例,关于a,v,$可以有以下4种处理意见。(一)将a,v,$各自处理成独立的类,这就需要为$起个合适的名字。本研究报告维持已经划定了的18个基本词类的稳定性,不主张这样做。(二)将阴影部分$与a合并,形容词的集合就是左边的完整的圆。动词的集合只剩下v,动词集合内的各个元素间语法功能的一致性就加大了。(三)与(二)反过来,将$与v合并。动词的集合就是右边的完整的圆。形容词的集合只剩下了a。(四)a为形容词,v为动词,$为兼类,既是形容词的子集,又是动词的子集。反映在汉语语法信息词典中就是将同一个词如“端正,巩固,方便……”区分成两个登录项(即词语),分别归入形容词与动词。如果将a,v,$抽象为任意两个不同的词类及它们的交集,那么在以上4种处理意见中,究竟哪一种更妥当一些呢?这不能一概而论。对形容词与动词的交集中的“端正,巩固,方便……”这些词,本研究报告采用了第4种处理意见,但不等于说,对其它词类也一律这么办。在划分词类中,应当确立这样一条原则,即在整个词类系统中,只有少数词是兼类的。这条原则同样适合电子词典的开发,因为坚持这个原则可以保证词典的冗余度小。与“端正,巩固,方便……”这些词相似,象“研
本文标题:关于现代汉语词语的语法功能分类
链接地址:https://www.777doc.com/doc-2626541 .html