您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 中文组织机构名称与简称的识别
第1页共11页中文组织机构名称与简称的识别1沈嘉懿1,李芳1,徐飞玉2,HansUszkoreit21上海交通大学计算机系上海,2002402德国人工智能研究中心语言技术实验室摘要:本文提出了一种基于规则识别中文组织机构名称和简称的方法。中文组织机构全称的识别是通过确定其左右边界实现的:首先借助机构称谓词库获得组织机构的右边界,然后运用规则匹配以及贝叶斯概率模型决策出昀优规则,确定组织机构名称的左边界。对应每一条全称规则,应用其对应的简称规则,获得该机构全称对应的候选简称。在封闭性测试中,该方法的总体查全率为88.72%,查准率为92.68%,简称的查全率为73.33%,查准率为77.19%;在开放性测试中,该方法的总体查全率为88.8%,查准率为83.03%,简称的查全率为67.18%,查准率为74.14%。该方法实现的系统可以独立运行,也可以嵌入在GATE环境,目前,该方法已应用在中文关系的抽取系统中,得到了较好的结果。关键词:组织机构名称识别,组织机构简称识别,词性标注,规则匹配,贝叶斯概率模型中图分类号:TP391.1RecognitionofChineseOrganizationNamesandAbbreviationsShenJiayi1,LiFang1,FeiyuXu2,HansUszkoreit21DepartmentofComputerScienceandTechnology,ShanghaiJiaoTongUniversity2GermanResearchCenterforArtificialIntelligenceAbstract:ThispaperproposesamethodforrecognizingChineseorganizationnamesandtheirabbreviationsbasedonrules.TherecognitionofChineseorganizationnamesneedstoidentifytheleftandrightboundary.Therightboundaryoftheorganizationisidentifiedwiththehelpoforganizationpostfixlexicon.TheleftboundaryisrecognizedbytheoptimumrulebasedonBayesianprobabilitymodel.Afteridendifyinganorganizationname,wecangetcandidateabbreviationsbasedonabbreviationrulesaccordingly.Inclosetest,wegettherecallof88.72%,theprecisionof92.68%ingeneralandtherecallof73.33%,theprecisionof77.19%inabbreviationrecognition.Inopentest,wegettherecallof88.8%,theprecisionof83.03%ingeneralandtherecallof67.18%,theprecisionof74.14%inabbreviationrecognition.Therearetwoimplementations,oneisstandalone,theothercanbeembeddedintheGATE.TheimplementationhasbeenappliedintheChineserelationidentificationsystemandachievedgoodresult.Keywords:RecognitionofChineseorganizationnames,RecognitionofChineseorganizationabbreviations,Poslabeling,Rulematching,BayesianProbabilityModel1本项研究工作是在中德语言技术联合实验室进行,得到了上海市科委(项目编号:045107035)和德方的赞助。作者沈嘉懿,1984年生,女,上海交通大学计算机科学与技术专业本科生,现是德国卡尔斯鲁厄大学研究生研究方向:自然语言处理.李芳,1963年生,女,博士学位,副教授,研究方向:自然语言处理,信息检索与抽取.徐飞玉,Dipl.Ling.SeniorSoftwareEngineer,研究方向:信息抽取,问题回答.HansUszkoreit,ProfessorofComputationalLinguisticsatSaarlandUniversity,研究方向:计算语言学,语言技术.第2页共11页一、引言当今世界,随着计算机的普及和互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息,于是信息抽取研究应运而生,而命名实体识别研究又是信息抽取中的重要组成部分。命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、日期、时间、百分数、货币。其中人名,地名和机构名是昀重要的三类。机构泛指机关,团体或其他企事业单位,包括院校,公私企业,政府部门,院校,宗教组织,科研部门,国际组织,体育团队,音乐团体,军队等等。例如:“中国工商银行”,“国家教委”,“西门子公司”,“上海交通大学”,“英国皇家乐团”等等。1.1机构名识别的难点1.中文机构名的用词十分广泛。通过对1998年1月人民日报语料中的10817个机构名所含的19986个词进行统计,共计27种词,其中名词昀多(9941个),地名其次(5023个),并且这些词中很大一部分词是未登录词,例如大部分的企业字号。2.中文机构名的长度极其不稳定。机构名的长度短到两个字“宝钢”,多到几十个字“中国人民政治协商会议第八届全国委员会常务委员会”,这就导致了机构名称的边界难以确定。3.机构名中含有大量其他的命名实体,在这些命名实体中,地名占有很大的比例,其中未登录地名占相当一部份的比例,这些未登录的地名制约了机构名的识别。4.大多数机构名称都有其简称,简称一般都是取全称中的几个关键字或关键词,例如“联想”,“人大”,甚至同一机构全称有不同的简称,比如说“上海交通大学”可以简称为“上海交大”或者“上交大”,甚至在某些特定场合下就是“交大”。大量的机构简称的出现,使得机构名的识别变得更加困难。1.2机构名识别研究现状目前,已有的命名实体识别研究主要是对人名[1],地名[2],组织机构名等采取不同的方法进行孤立的研究。其中人名和地名研究得较多,提出了各种各样的处理方法,因此对于人名和地名的识别已经基本能够满足人们的要求,而对于机构名实体的研究较少,主要有:文献[3]从机构名称的语法特征和语义特征着手,人工分析总结出机构名称的组织规律,进而识别机构名称。通过对以高校名称为重点的语料测试,正确率达到97.3%,召回率达到96.9%。文献[4]利用金融领域的机构名称的特征,专门针对公司名的识别问题进行研究。在识别策略上综合考虑了公司名的结构特征和文本上下文信息,通过机器统计和人工辅助相结合的方法,建立了多个知识库,并根据人工总结的规则进行机构名称识别。在开放测试中召回率达到62.1%,精确率达到62.8%。文献[5]指出机构名称识别是名称识别中昀困难的部分,但是没有对机构名称进行专门处理,只是把它当作命名实体的七种类型之一,通过模式匹配进行识别,专名识别的召回率和准确率在含有1117个NE的测试集上为46%和53%,在含有254个NE的测试集上为17%和29%。由于组织机构在构成上与其他命名实体存在较大的差异,本文没有采用与其他命名实体识别相同的一揽子解决方案,而是在充分分析了组织机构名称的构成特征后,建立了其专属的特征词库;其次,考虑到机构名称的构成是极其不稳定的,无法人工总结出较为完美的构成规则使之适用于所有类型的机构,因此我们通过机器学习的方法总结出多条规则,并通过规则匹配昀终识别出机构名称。经测试,对于各种类型的机构全称,该方法能达到较高的识别率。在全称识别的基础上,本文又提出了一种简称识别的方法——对每条全称规则通过机第3页共11页器学习的方法总结出它对应的多条简称规则,并对一类特殊的全称,额外总结出八条规则,再通过规则匹配识别简称。经实验,该方法也能获得较高的识别率。二、中文组织机构全称识别2.1中文组织机构全称特征分析对中文组织机构名称的构成分析发现:机构名称通常是以X+Y结构出现的定名型短语,其中X+表示一个或多个定语修饰词,它的词性一般为名词,形容词,动词,序数词;Y表示机构称谓,它主要集中在“公司”,“集团”等一些名词,这些词一般情况下是特定的,有限且为数不多的,所以可以通过列举或者训练完整这样一个集合,而这个集合一旦建立,便能帮助识别机构名称的右边界。要确定机构名称的左边界,就必须确定X+的长度L,正如上文提到的中文机构名的长度极其不稳定,因此X+的长度也极其不稳定表1中文机构名长度机构名称X+YX+L贝恩/人名公司/名词人名1成都/地名军区/名词疾病/名词预防/动词控制/动名词中心/名词地名+名词+名词+动词+动名词5国家/名词体育/名词总局/名词足球/名词运动/动名词管理/动名词中心/名词名词+名词+名词+名词+动名词+动名词6对此本文中采取的策略是通过对大量的语料进行分词,词性标注后,统计机构名称中定语修饰词的可能词性序列,形成规则集,并对经过分词和特征词标注初加工文档进行规则匹配,从而确定中文机构名称的左边界。2.2中文组织机构特征词库及规则集本文使用的语料搜集自网上,由包含机构全称的句子构成,共计1130句,包含1500个真实机构名称。首先,对语料库进行了分词,词性标注,在此基础上,利用机器统计的方法和人工辅助相结合的方法,建立了如下的特征词词典和机构名称定语修饰词组成规则。2.2.1机构称谓库在本文讲述的方法中,对组织机构名称的识别首先从确定组织机构名称的右边界开始,例如,通过找到“公司”,“银行”,“集团”,“企业”之类的机构称谓词,得到组织机构的在文中可能出现的位置。因此,可以通过搜集此类机构称谓,建立机构称谓库,作为识别的触发条件。2.2.2地点词库经分析,不少机构名称是以地点开头的,比如“上海玩具厂”等,因此地点特征词对标识机构左边界有很大的帮助。在词性标注中,分词器虽然会标识出部分地点,但是它毕竟不是一个专门的地点标识器,存在一定的遗漏和错误,因此我们引入Gate2的地点词库。2.2.3独立机构名称库本文讲述的方法基于这样的前提:组织机构名称必须含有一个明显的机构称谓,但是在研究中发现,有大量的组织机构名称并不包含机构称谓,比如“欧佩克”,“摩托罗拉”,“毕马威”,通常这些机构是一些英译过来的组织机构名称,对此,我们在训练过程中,将其搜集形成一个独立机构名称库。2.2.4定语修饰词规则集2页构造定语修饰词规则集的步骤如下:定义集合R=空,1)对于训练语料中每一个机构名称,经过分词后得到它定语修饰词部分的每个词的词性,形成词性序列r;2)如果Rr∈,则将R中的r频度++,转13)如果Rr∉,则将r的频度置1,加入R,转1于是可以得到了构成组织机构名称定语修饰词部分的可能规则以及各自的频率。2.2.5机构类型库机构类型名包括“股份有限”,“开发”,“责任”等附加在机构称谓前的词,建立该词库为了辅助系统在机构简称识别时界定机构名关键字。2.3中文组织机构全称识别组织机构名称识别的整体结构如下图所示:图1组织机构名称识别整体结构图原始文档首先进入分词系统,此处借助的是中科院的分词系统,并对该分词结果进行了额外的处理,添加了分词专用词库:机构称谓词库,地名词库,独立机构名称词库。经过分词后,得到了初加工文本。这个文本中已经包含对组织机构名称识别有用的词性信息,地名,组织机构称谓,独立机构名称。在识
本文标题:中文组织机构名称与简称的识别
链接地址:https://www.777doc.com/doc-847426 .html