您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 多义词甄别的知识库建构与对传统词典义项的改造
多义词甄别的知识库建构与对传统词典义项的改造厦门大学中文系国家语言资源监测与研究中心教育教材语言分中心苏新春2009-9-14北京大学计算语言学研究所要点:一.WST系统介绍二.义项库的来源与作用三.传统词典义项WSB存在的问题四.对传统词典义项的改造•词义标注就是用计算机为真实语境中的每个词选择、确定并标示一个适切、对应的义项。•北大计算语言学所对这一研究进行了卓越的研究。•吴云芳、俞士汶《信息处理用词语义项区分的原则和方法》(2007)•吴云芳《词义消歧研究:资源、方法与评测》(2009)。•国内学者在这一领域发表了重要成果的还有黄昌宁、童翔、李涓子、金澎、卢志茂、刘挺、李生、鲁松、白硕、段慧明、郭涛、杨尔弘、张国清、张永奎等先生。详见吴文(2009)我们开始此项研究的缘起:•承担了国家社科基金课题:基于国家语委“通用语料库”之上的汉语义频词库的开发(04BYY009)。•原课题目标主要是理论探索与数据获求,无意走上了这条不得不走的艰难之道。主持人:苏新春主要参加人:李安、卢伟清、洪桂治、蒋媛、曾妍妍、刘海燕参加人:张蕾、唐师瑶、张玉彪、田立宝、武超杰、王艳春、王珊、石梦苏、王建军、郭佳、徐晓煜、黄挺、刘楠、王天佐、周蕾、张丹丹、刘名、叶醒悦、肖婷华、余龙浩、张其良、赵方、徐婧、栾玉皎等。2004年以来经历过的阶段:建设语料库;讨论理论模型;提取规则;修订义项;验证库;•苏新春、王惠、卢伟清、秦少康,《以义项为单位,以义群为纽带,以词义辨析为内容——进一步完善机用语言知识库之方案》,《第六届汉语词汇语义学会议论文集》(SINGAPORECOLIPSPUBLICATIONS),2006。•苏新春、李安,《计算机多义词自动识别中的语义标注》,第9届汉语词汇语义学术研讨会报告论文,新加坡,2008•“现代汉语多义词词义自动标注系统”•AutomaticPolysemousSenseTaggingofModernChinese•简称WSTWST包括以下七个分库:1.语料库2.义项库3.规则库4.语法库5.语义库6.验证库7.义频库1.语料库全称为“现代汉语语料库”。•容量达1.9亿字,包括新闻语料、文学作品、教材、科普作品等。义项标注提取规则的来源库,所有词的使用规则的提取都是根据对该库里词语真实状态进行概括、提炼的结果。2.义项库全称为“现代汉语词义标注用义项库”(WordSenseBaseforAutomaticPolysemousSenseTaggingofModernChinese),简称WSB。•包括词8万余条,义项9万余个。有多义词近9千条。主要吸收了《现代汉语词典》第3版、第5版的内容,个别参考了《汉语大辞典》,另增加了2万余条语文性词语及部分义项。义项库是词义标注的来源,也是衡量词义标注效果的主要标准,更是寻找词义特征、确定规则时的依据。3.语义库全称为“现代汉语语义分类库”(AThesaurusofModernChinese),简称TMC。分一级类9个,二级类62个,三级类516个,四级类2086个,五级类12602个。嵌于其中,起帮助识别义项语义特征的辅助作用。在标注工作中能起到鉴别作用的最低可至3或4级类。4.语法库全称为“现代汉语语法信息词典”,北大俞先生主持研制。起帮助识别义项语法特征的辅助作用。5.规则库全称为“现代汉语多义词词义搭配知识库(PolysemyWordSenseCollocationKnowledgeBaseofModernChinese)”,简称PCKB。•是确定一个词在具体语境中使用义项的条件与依据。该库保存了对高频、义项在2-5之间、词频在100以上的3700多条双音节多义词所提取的全部使用规则。为每个词语描绘出具体规则,平均每个词9条规则共27000条。6.验证库全称为“现代汉语词义标注验证库”(WordSenseTaggedCorpusofModernChinese),简称WSTC。•是人工标注了义项的语料库,主要作为对词义标注效力进行检验,对规则提取、修订、完善起校正、验测作用的实验库。7.义频库全称为“现代汉语多义词词义频级库”(PolysemousSensesFrequencyRankbaseofModernChinese),简称PFRD。•是一个动态数据库。最初根据语感、简单语料调查以及词典义项属性标识给义项进行粗糙义频分级,并在词义标注过程中起帮助作用。最后根据标注结果不断调整、细化,最终形成精细、准确的义频调查结果库。语法库语义库规则库义频库义项库自动标注语料库分词语料标注语料验证库形式特征标注过程资源建设过程二、义项库的来源与作用•义项库WSB是词义标注时义项选择的来源。但又不仅仅是如此。WSB对研究中的几乎所有环节都起着重要的制衡作用:•机器识别的对象;•提取规则的依据;•标注的对象;•对语料进行识读的语义单位;•标注义项的应用目的;义项库在整个系统中的作用:•来源于语料库;•延伸至语法库语义库;•衍生出规则库;•服务于验证库;•最后显示于大规模的真实文本语料库。•根据中文信息处理的目的、条件、需求,在改造、完善传统词典义项的基础上来建构机用义项库成为当务之急。•传统词典义项与机用词典义项有何不同?•收录对象?功能与目的?识别能力?识别手段?•义项来源于何处:•传统词典的义项是否符合机用词义标注的需要?义项底库为《现代汉语词典》•多义词12400个;•复音多义词8300个;•双音多义词7278;•词频在100次以上、义项在2-5个之间的双音词3774个;•3774个多义词共有义项8608个。•对3774个多义词中的每个词都人工进行了义项特征的提取工作。•词义标注所有工作的重点与难点都集中于下面两个问题:一、什么样的义项1.义项库是否齐备?有无缺损?是否与真实语料相符?2.义项如何划分?根据什么标准?3.义项分立是否清晰?二、如何让计算机能识别1.义项有无形式特征?2.什么样的特征能为计算机所识别?•目前机用词典的义项内容一般都是借用了面向人的传统词典。这是一种取巧,也是不得已而为之的办法。•由于机用词典与传统词典有着完全不同的服务对象,使用环境、识别条件、实现目标也各不相同,将传统词典简单地套用于机用词典肯定会扞格不入,面临着许多的困难。•在词义标注之路上的先行者已经关注到了机用词典的特征问题,并试图寻找解决的问题。如有的认为传统语文词典义项切分太细,应该调整义项粒度;有的主张以用法代替词义辨析(吴云芳、俞士汶,2007)。•在“第十届汉语词汇语义研讨会”(山东烟台,2009-7-25),有多篇论文都以词义标注为题:•肖航的《多义词义项关系对语料库词义标注的影响》•王宏显等的《构建词汇语义关联度人工标注集》•王莉等《基于语料库的多义动词标注方法研究》•乔剑敏等的《面向语义标注一致性检验的汉语词义相似度计算》•俞士汶、贾玉祥关于隐喻的报告。•都把问题的焦点指向“义项”。问题还有:1.既有词义颗粒太细的问题,也有词义颗粒太粗,甚至义项缺损的问题;2.既有义项包含与被包含问题,还有上下位交叉覆盖的问题;3.有语料库有义项库无,也有语料库无义项库有,彼此阙如的问题。三、传统词典义项存在问题分析词数义项数动词14852064名词14814592形容词8081952总计37748608存在问题的类型:(一)义项包含(二)义项交叉(三)义项边缘模糊(四)语义连贯(五)义项过近(六)义项过窄(七)义项缺损(八)罕用义(一)义项包含【封面】⑴线装书指书皮里面印着书名和刻书者的名称等的一页。⑵新式装订的书刊指最外面的一层,用厚纸、布、皮等做成。⑶特指新式装订的书刊印着书刊名称等的第一面。也叫封一。•【噪音】⑴音高和音强变化混乱、听起来不谐和的声音。是由发音体不规则的振动而产生的(区别于‘乐音’)。⑵噪声。•【资产】⑴财产。⑵企业资金。⑶资产负债表所列的一方,表示资金的运用情况。参看[资产负债表]。•【终点】⑴一段路程结束的地方:~站。⑵特指径赛终止的地点。•【支部】⑴某些党派、团体的基层组织。⑵特指中国共产党的基层组织。(二)义项交叉•【评论】⑴批评或议论:~好坏。⑵批评或议论的文章:发表~。•学术界/n当时/TIM这些/r公正/a的/u评论/vn,/w立即/d遭到/v了/u江/ALOC青/ALOC一/NUM伙/q的/u反革命/n围攻/vn。/w•【带领】⑴在前带头使后面的人跟随着。⑵领导或指挥(一群人进行集体活动)。(三)义项边缘模糊•【歇息】⑴休息:病刚好,还是~几天吧。⑵住宿;睡觉:洗过澡就上床~了。•所以/c在/p漫长/a的/u旅途/n当中/f,/w我们/r常常/d选择/v这块/r地方/n落脚/v歇息/v。/w•【亲切】⑴亲近;亲密:他想起延安,象想起家乡一样~。⑵形容热情而关心:老师的~教导。(四)语义连续•【出门】⑴(~儿)外出:他刚~,你等一会儿吧。⑵(~儿)离家远行:~在外丨~后时常接到家里来信。⑶〈方〉出嫁。•例:“出门三天家中遭洗劫”《齐鲁晚报》2007年02月08日•【摩挲】•mā·sā用手轻轻按着并一下一下地移动:~衣裳。•mósuō用手抚摩。•【同居】⑴同在一处居住:父母死后,他和叔父~。⑵指夫妻共同生活。也指男女双方没有结婚而共同生活。•大量语例为“男女双方没有结婚而共同生活”,介于两个义项的中间状态。(五)义项过近【冰箱】⑴冷藏食物或药品用的器具,里面放冰块,保持低温。⑵电冰箱的简称。【韵味】⑴声韵所体现的意味:他的唱腔很有~。⑵情趣;趣味:这首诗的~很浓︱古塔古树相互映衬,平添了古朴的~。•【浴室】⑴有洗澡设备的房间。⑵澡堂。•【救灾】⑴救济受灾的人民:放粮~。⑵消除灾害:防洪~。•查看/v灾情/n,/w慰问/v受灾/vn群众/n,/w指导/vn抗灾/vn救灾/vn工作/vn。/w(六)义项过窄•【出场】①演员登台(表演)。②运动员进运动场(参加表演或竞赛)。•“有人怕闹事,开始退场,剧团的领导|出场,恳求大家安静。”(《戴厚英文集·流泪的淮河》)(七)义项缺损•【字号】•⑴商店的名称:这家商店是什么~?⑵指商店:这是一家老~︱这家~名气大。•缺“字体的大小”•【装扮】⑴打扮:节日的广场~得分外美丽。⑵化装:他~算命先生进城侦察敌情。⑶假装:巫婆~神仙欺骗人。•缺“打扮出来的模样。”•语例:他这个~,哪里是个丁忧的样子。•【庄子】⑴村庄:他是我们~里的人。⑵田庄。•删“田庄”•缺“人名,战国时期思想家,道家思想集大成者。”(八)罕用义造成极低频义项的有多种原因:•方言义•行业义•临时义•【巴结】⑴趋炎附势,极力奉承:~上司。⑵〈方〉努力;勤奋:他工作很~。•【安排】⑴有条理、分先后地处理(事物);安置(人员):~工作丨~生活丨~他当统计员。⑵规划;改造:重新~家乡的山河。•【霸道】⑴我国古代政治哲学中指凭借武力、刑法、权势等进行统治的政策。⑵强横不讲理;蛮横:横行~丨这人真~,一点理也不讲。•【拔腿】⑴迈步:他答应了一声,~就跑了。⑵抽身;脱身:他事情太多,拔不开腿。•【激发】⑴刺激使奋发:~群众的积极性。⑵使分子、原子等由能量较低的状态变为能量较高的状态。•以上八种情况,除了“义项缺损”“罕用义”外,其他六种都表现为义项划分的困难,直接造成机器对义项认别的困难。•学术界多将其概括为“义项颗粒过细”、“义项边界模糊”。四、对传统词典义项的修改与完善原则:1.对语言现实作全面、客观的反映。(现代汉语、通用程度较高、书面语)2.依语义高地来划分义项,突出义项特征和典型性,拉开义项之间的距离。边缘义、相邻义就近归类。(辞书学中的距离说、概括说、频率说、功能说)3.划分义项时以语义为主,语法功能为辅。词义内涵一致,词性与功能稍有区别的不另立义项。4.基于且适合于计算机的能力和工作条件,注重对义项特征形式的提取。•【专制】⑴(君主)独自掌握政权:~政体丨~帝王丨君主~。⑵凭自己的意志独断独行,操纵一切。•改“⑵凭自己的意志独断独行,操纵一切的。”•增“专门制作。”•【主席】⑴主持会议的人。⑵某些国家、国家机关、党派或团体某一级组织的最
本文标题:多义词甄别的知识库建构与对传统词典义项的改造
链接地址:https://www.777doc.com/doc-5144017 .html