您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 《现代汉语新词语信息电子词典》的研究与实现ahref=1
《现代汉语新词语信息电子词典》的研究与实现1亢世勇山东烟台师范学院中文系(264025)Tel:0535-6672439ShandongofChina:YantaiNormalCollege-ChineseLanguageDept.(264025)Email:kangsy46@sohu.com内容提要:本文从四个方面说明了《现代汉语新词语信息电子词典》的基本情况。(1)现代汉语新词语的界定(2)新词语词典的开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万新词语的归类实践。关键词:中文信息处理新词语电子词典DevelopmentandStudyofModernChineseNewWordsInformationElectronicDictionaryAbstract:thispaperintroducedfiveaspectsofModernChineseNewWordsInformationElectronicDictionary.(1)basicconditionofnewword,(2)developingthoughtofNewWordsDictionary,(3)collectingofnewwordandestablishinganddescribingofNewWordsDictionaryattributeinformation,(4)classifyofthirtythousandnewword,(5)valueofNewWordsDictionary.KeyWords:Chineseinformationprocessing,Newwords,Electronicdictionary0.引言2001年我们获得了中国国家社科规划项目“《现代汉语新词语信息电子词典》的开发与应用”(项目编号:01CYY002)。一年来,我们已按照规划做了大量的工作,项目进展顺利。本文从四个方面介绍《现代汉语新词语信息电子词典》(以下简称“新词语词典”)的基本情况:(1)现代汉语新词语的界定(2)新词语词典的开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万词语的归类实践1.现代汉语新词语的界定对于“新词语”目前学术界有不同的看法,在全面考察了近4万个新词语并且借鉴、吸收了学术界新词语研究成果的基础上,我们认为新词语可以定义为:通过各种途径产生的、具有基本词汇没有的新形式、新意义或新用法的语文词语。新词语的特点在于“新”,“新”具体表现在词形、词义和词语的用法上。鉴定新词语的参照系是现代汉语基本词汇的词形、词义和用法。只要在这三个方面的任何一点上与现代汉语基本词汇不同,我们就认为它是新词语。基本词汇的代表是《现代汉语词典》的主体词汇①、《汉语大词典》。“新”还有时间的限定,即1978年以来出现的新词语。我们认定的新词语既有“新”的特点,同时强调了新词语的使用范围,即必须是在社会生活中广泛使用的语文性质的新词语,可以进入普通词汇的新词语,那些新出现的专业术语没有增加新的普通词汇意义的,不在我们认定的新词语范围内。我们认定的新词语具体如下:(1)新造词语。比如“打假、扶贫、股盲、展销、股市、高开、低走、哇噻、彩票、足彩、辣妹、酷装、新新人类、哈韩族、哈日族、知本家、黑哨”等等。(2)旧词新用。这类词语词形是原有的,“新”主要表现在产生了新意义或有了新的运用。具体分为三种情况:A、原有的词语增加了新的意义,如“下课、上课、气候、跳槽、起飞、红娘、窗口、下岗、亮相、新登场、跟进、充电、输血、造血”等;B、原有的词语有了新的用法。比如“结构”本来是名词,但用为动词,如:你为我结构人生;“运气”原为名词,用为形容词,如:你这人很运气。“火”原为名词,用为形容词,形容事物或人有声势,受欢迎。如:组织者们真没想到晚会竟然这么“火”。C、原有的词语很长一段1本项研究得到中国国家这哲学社会科学规划项目(01CYY002)支持;本文于2002年4月在台北举行的“第三届中文词汇语义学会议”上宣读,会后根据专家的意见作了修改,谨致谢忱。时间不用,又重新启用,比如:“高就、赏光、黑道、绑票、撕票、夜总会、小姐、太太、金婚、银婚”等。其中有些意义也发生了一些变化,比如“高就、赏光、太太、小姐”等原来主要用于地位比较高的人,有特指性,现在已经泛化,不论地位高低都可以用,变成了一种普通的说法。(3)方言词汇进入普通话词汇。如“炒鱿鱼、发烧友、埋单、的士、连锁店、服装城、跳楼价、大出血、娱乐圈、拍拖、三级片、主打、金曲、劲歌、劲舞、搞笑、爽、靓、马子、二奶、套磁、磁实、猫腻、腕儿、搓、傍大款、侃大山、膀爷”等。(4)外来词,从外族语借来的词,又有:A、音译词如“的士、巴士、欧佩克、可口可乐、丁克、克隆、基因、托福、卡拉OK、拜拜、酷(cool)、蔻(cute)、秀(show)、脱口秀(talkshow)、血拼(shopping)、派对(party)、伊妹儿(E-mail)”等;B、意译词,如“热点(hotspot)、音乐电视(musictelevision)、热狗(hotdog)、超级市场(supermarket)”;C、音译兼意译词,如“激光、呼啦圈、桑拿浴、迷你裙、吧女、酒吧、”等;D、直接使用日语的词语,如:“放送、慰安妇、物语、写真、人气”等。(5)简略词,在原有词语的基础上缩略而成的词语。分为三种情况:A、简称词,如“博导(博士研究生导师)、澳网(澳大利亚网球公开赛)、超市(超级市场)“;B、略语词,如“严打(严厉打击犯罪活动)、打假(打击假冒伪劣商品)、防伪(防止假冒伪劣产品)、台资(台湾人投入的资本)”;C、缩语词,如“三讲、三个代表、三假、三陪、三金”等。(6)修辞用法稳定下来构成的新词语。主要有:A、比喻引申,如“豆腐渣工程、枕头风、撒胡椒面、下毛毛雨、泡沫经济、朝阳产业、白色消费、下海、捞人”等;B、借代,如:“菜篮子工程、白发世界、白条案、老人头”等。C、仿拟比如:“烟民、股民、彩民、网民”,“空姐、海姐、吧姐、呼姐、网姐、空嫂、海嫂、吧娘、呼嫂”,“文盲、科盲、股盲、舞盲、网盲”、“网民、网友、网哥、网姐、网迷、网虫、网蝇”等等。(7)专用术语意义泛化、转移,扩大使用范围,转为普通词汇。如“软件、硬件、启动、热处理、冷处理、黄牌、主旋律、套牢、触电、放电”等。(8)字母词。主要有三类:A、纯粹的字母词,整个词由英文字母构成,如“CT、IBM、CIA、TOFEL、GRE、CEO、ATM、CFO、BBS、CVD、DVD、VS、IT、IN、Q、VIP”等等;B、字母和汉字的组合,如“BP机、BP族、CALL机、E时代、E人类、IT界、IT业、够IN、VIP卡、很Q”等等;C、数字和字母的组合,如“3D、3C、3S”等等。2.《现代汉语新词语信息电子词典》的开发思想2.1新词语研究的局限现代汉语新词语的研究受到了国内外的广泛关注,学者们也做了大量的研究,产生了一些引人注目的研究成果。出版了新词语词典及词语集三十多种、新词语研究专著两本,但是这些著作对新词语的研究都有一定的局限。主要表现在以下方面:(1)这些研究成果都是印刷品,没有有效的电子版成果,不能实现资源高度共享。(2)这些成果都是为人用的,而没有考虑到机器使用,应用范围受到了限制。(3)由于受到研究技术和研究条件的限制,各种词典收词量有限,词语的解释及引例都有欠妥之处,更重要的是词典提供的信息量极其有限。由于以上的不足,造成现有的各种新词词典应用价值不高。2.2《现代汉语新词语信息电子词典》开发的目标(1)希望创建现代汉语新词语研究的基础平台,实现资源高度共享,获得较高的应用价值。本项研究利用计算机数据库技术和相关的语料库技术进行现代汉语新词语的跟踪研究,研究成果形式为有效、实用的计算机数据库软件,其中包括新词语电子词典和大规模的相关语料,这样可以实现资源的高度共享,使其具有较高的应用价值。(2)希望在汉语研究和中文信息处理研究方面做出积极的贡献。以往汉语的研究的资料和手段限制了汉语大规模的实用化的研究,由此造成的直接后果是严重制约了中文信息处理的发展。本项研究利用计算机技术进行,积累了大量的机器可读文件,为大规模的实用的汉语研究奠定了基础,其研究成果——新词语属性信息电子词典以及新词语的构词规律可以直接应用于中文信息处理的未登录词语识别,有利于提高中文信息处理技术的水平。2.3《现代汉语新词语电子词典》的开发具体思路介于目前有关新词语的研究比较零散,而且新词语的研究又有十分重要的作用,我们拟对新词语进行大规模的比较完备的研究。具体思路为:(1)尽量穷尽地收集现有的新词语,做到全面、准确。目前已收录新词语近4万,收录了我们所能见到的所有新词语。(2)按照人机两用的研究理念,打造一部适合于“人读”和“机读”的电子词典。增加词典的信息量,扩大词典的使用范围,提高其应用价值。(3)以北京大学计算语言学研究所的《现代汉语语法信息词典》为模型,采用分类与属性描述相结合的方法,在粗分词类的基础上对每个词语语法语义属性信息进行详细描述。具体采用成熟的关系数据库形式描述词语和语法、语义属性的二维关系,成果为数据库文件格式的电子词典。(4)一部开放的词典。本词典在新词语的收集及属性的描述方面均坚持开放的原则,将跟踪汉语词汇的发展变化和汉语信息处理的发展,不断地收集、增加新词语,增加新词语属性信息的描述,以满足实际需要。3.《现代汉语新词语信息电子词典》词语的采集与所描述的属性信息3.1新词语的采集首先利用我们自己开发好的《新词语词典信息库》和语料库整理出一个新词语词表,然后按照我们的收词原则——全面性原则、规范性与描写性相结合原则、必要性原则、普遍性原则、稳定性原则、音节原则等,从词表中遴选出新词语3万多个,形成了新词语词典的基础。此后,我们利用语言信息处理技术不断地从网上抓取新词语及相关的例句集,不断地扩充新词语词典。确定新词语词典中的词目后,利用新词语词典信息库和包含《人民日报》1978年以来的语料、《南方周末》创刊以来的语料以及人民日报报系其他报纸、人民网、光明日报、新民晚报等近年来语料的超大规模语料库建立包含该词语的例句集,考察这些词语的意义和用法,描述其义项、语法属性、语义属性以及其他信息等,从而开发出《现代汉语新词语信息电子词典》。这些工作很大程度上利用计算机语料库管理技术,在大规模机读语料库的支持下进行,能够比较全面地考察每个新词语的分布环境,提高新词语采集、收录的合理性和信息描述的准确度和覆盖范围,从而提升词典的质量。3.2新词语词典属性信息的确立新词语词典开发主要是为了学习、研究新词语,特别是为中文信息处理提供一个基本资源。为了达到这一目的,新词语词典属性信息包括了语音信息、来源信息、语法信息和部分语义、语用信息,涉及了新词语形、音、义以及用法的主要方面。新词语词典描述的主要属性信息包括以下方面:(1)词的常规信息。包括词的读音、义项、音节、例句等。(2)语法信息。按照北京大学计算语言学研究所的《现代汉语语法信息词典》的规格描写新词语的语法信息。词类体系沿用《现代汉语语法信息词典》的18个基本类,再加上成语、惯用语。词类标记与其相同。各类词语法属性的设立在《现代汉语语法信息词典》基础上有所改动,使其更加优化。(3)构词法信息。构词法主要分为单纯构词法和合成构词法两类。单纯构词法又分为单音单纯词、多音单纯词。多音单纯词又分为联绵词、音译词和叠音词等。联绵词又分为双声、叠韵其他等。合成词又分为复合式、重叠式、附加式三类。复合式又分为联合式、偏正式、补充式、动宾式和主谓式等。附加式又分为两种类型:“前縀+词根”、“词根+后縀”等。对于复合词将构成复合词的几部分分解开来,分别标上该语素所属的“词性”,以便进一步考察由语素按照一定的构词方法构成的新词语的词性的规律。(4)产生途径。根据我们的考察主要包括:新造词,旧词新用,方言词进入普通话的词汇,外来词,简略词,修辞用法稳定下来构成新词,术语扩大使用范围产生新义。(5)应用领域。应用领域的划分是一个比较棘
本文标题:《现代汉语新词语信息电子词典》的研究与实现ahref=1
链接地址:https://www.777doc.com/doc-63967 .html