您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 一种准确高效的领域知识图谱构建方法-软件学报
软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,2018,29(10)[doi:10.13328/j.cnki.jos.005552]©中国科学院软件研究所版权所有.Tel:+86-10-62562563一种准确高效的领域知识图谱构建方法杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉(清华大学计算机科学与技术系知识工程实验室,北京海淀100084)通讯作者:杨玉基,E-mail:yangyujiyyj@gmail.com摘要:作为语义网的数据支撑,、知识图谱在知识问答语义搜索等领域起着至关重要的作用,一直以来也是研究领域和工程领域的一个热点问题,、但是构建一个质量较高规模较大的知识图谱往往需要花费巨大的人力和时间成本.如何平衡准确率和效率,快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战.本文对领域知识图谱构建方法做了系统研究,提出了一种准确高效的领域知识图谱构建方法——“四步法”,我们将此方法应用到中国基础教育九门学科知识图谱的构建中,在较短时间构建出了准确率较高的学科知识图谱,证明了该方法构建领域知识图谱的有效性.以地理学科知识图谱为例,使用“四步法”共得到67万个实例,1421万条三元组,其中标注数据的学科知识覆盖率和知识准确率均在99%以上.关键词:语义网;知识图谱;本体;语义标注;实体集扩充;关系抽取中图法分类号:TP311中文引用格式:杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉.一种准确高效的领域知识图谱构建方法.软件学报,2018,29(10).英文引用格式:YangYJ,XuB,HuJW,TongMH,ZhangP,ZhengL.Accurateandefficientmethodforconstructingdomainknowledgegraph.RuanJianXueBao/JournalofSoftware,2018,29(10)(inChinese).(KnowledgeEngineeringGroup,TsinghuaUniversity,Beijing100084,China)Abstract:Asthesupportingdataofsemanticweb,knowledgegraphshaveplayedavitalroleinknowledgeQA,semanticsearchandsoon.Therefore,theyhavebeenahottopicinthefieldofresearchandengineering.However,itisoftencostlytobuildalarge-scaleknowledgegraphwithhighaccuracy.Howtobalancetheaccuracyandefficiency,andquicklybuildahigh-qualitydomainknowledgegraph,isabigchallengeinthefieldofknowledgeengineering.Thispapermakesasystematicstudyontheconstructionofdomainknowledgegraphs,andputsforwardanaccurateandefficientmethodofconstructingdomainknowledgegraphs,Four-steps.WehaveappliedthismethodtotheconstructionofknowledgegraphsofninesubjectsintheChinesek12education,anddevelopedtheninesubjectknowledgegraphswithhighaccuracy,whichdemonstratesthatourmethodiseffective.Forexample,thegeographicalknowledgegraph,whichisconstructedusingthe“Four-steps”method,hasgot670thousandinstancesand14.21milliontriples.Andaspartofit,theannotationdata’sknowledgecoverageandknowledgeaccuracyarebothabove99%.Keywords:semanticweb;knowledgegraph;ontology;semanticannotation;entitysetexpansion;relationextraction1998年,互联网的创始人TimBerners-Lee最先提出了“语义网”(SemanticWeb)的概念[1],其核心思想是在网页数据中添加能够被计算机所理解的语义信息,从而提升机器的理解能力.作为语义网的数据支撑,知识图谱成为了研究领域和工程领域的热点问题.知识图谱是一个巨大的知识网络,网络中的节点表示实体,节点之间的边表示实体和实体之间的关系,实体包含概念和实例两种,每个实体还有很多(属性-值)对来描述实体的内在特性.例如,“中国”和“俄罗斯”是实例,也是“国家”,而“国家”是一个概念;“中国”和“俄罗斯”有着“毗邻”的关系,“中国”和“俄罗斯”也都有各自的“人口数量”、“面积”等属性.上述知识都可以通过(主语-谓语-宾语)的形式来描述,这种形式被称为三元组,也被称为事实.以上事实在知识图谱中就可以表示为:(中国-类型-国家)(俄罗斯-类型-国家)(中国-毗邻-俄罗斯)(中国-面积-9,634,057平方公里)(中国-人口数量-13.8亿(2016年))基金项目:国家高技术研究发展计划(863)Foundationitem:NationalHigh-TechResearchandDevelopmentPlanofChina(2015AA015401)本文由本体工程与知识图谱专刊特约编辑漆桂林教授推荐.收稿时间:2017-07-22;修改时间:2017-11-08;采用时间:2018-01-24;jos在线出版时间:2018-02-08CNKI网络优先出版:2018-02-0811:55:49,软件学报(俄罗斯-面积-17,098,242平方公里)(俄罗斯-人口数量-1.4亿(2016年))知识图谱可以分为不限领域的知识图谱(通用知识图谱)和限定领域的知识图谱(领域知识图谱)两种.通用知识图谱有很多,包括研究领域的DBpedia[2],YAGO[3],Freebase[4]等和工程领域的Google的KnowledgeGraph[5]、百度的“知心”、搜狗的“知立方”等.领域知识图谱也有很多被构建出来,例如地理信息领域知识图谱Geonames、“天眼查”的企业领域知识图谱等.知识图谱的构建往往需要很大的代价.由于当前的自然语言处理方法还不够好,完全自动化的构建方式难以得到较为准确的知识图谱,例如DBPedia,YAGO等都存在有较多错误;而完全人工构建的方法虽然保证了准确性,但是却需要花费巨大的人力和时间成本,完全人工构建较大规模的知识图谱几乎不可能.因此如何协调准确率和效率,平衡自动化方法和人工参与,以最高效的方式构建出最准确的知识图谱是目前构建知识图谱需要解决的一大难题.本文主要基于以上难题提出了系统性的解决办法——“四步法”,四个步骤分别是步骤一:领域本体构建、步骤二:众包半自动语义标注、步骤三:外源数据补全和步骤四:信息抽取.本体构建是指构建出知识图谱的本体结构,本体结构可以理解为知识图谱的框架.众包半自动语义标注指的是将文本页面众包给多个标注者,根据步骤一构建好的本体,利用语义标注工具标注得到高质量的标注数据.外源数据补全是指将其他来源的结构化程度较好的数据按照本体结构处理后,和标注数据整合在一起.而信息抽取则是针对知识图谱中较为稀疏的实体或者关系,从文本中进行大规模的抽取和补充.步骤一、二是知识图谱的骨架部分,是基础,也是核心.两个步骤相互迭代,本体构建指导标注,标注中遇到的新的情况又可以反向改进本体结构.步骤一、二保证了知识图谱的准确性.步骤三、四是知识图谱的血肉部分.在步骤一、二得到的高质量的标注数据的基础上进行针对性的可控的扩充和补全,保证了知识图谱的覆盖率和构建的高效性.步骤三、四也是相互迭代的关系,步骤四可以利用步骤三中得到的关系和实体从文本中进行信息抽取,步骤三也可以利用步骤四中抽取出的新的实体和关系,将其他来源的结构化数据中的相关知识补充到知识图谱中.以上四个步骤能够充分地利用领域内高质量的专业资料和海量的互联网数据,高效地构建出准确率较高的实际可用的领域知识图谱.我们还使用此方法构建出了面向基础教育的地理学科的知识图谱,实例数量67万,三元组数量1421万,其中标注数据的知识覆盖率和知识准确率达99%以上.本文的主要贡献如下:提出了一种准确高效地构建领域知识图谱的方法——“四步法”,并用“四步法”构建出了一个面向基础教育的高质量的地理学科知识图谱,验证了“四步法”的有效性.构建的面向基础教育的高质量的地理学科知识图谱,为基于地理学科知识图谱的应用系统(知识问答与高考答题)提供语义数据支撑.研究实现的众包半自动语义标注工具可以在标注三元组的时候很好地兼顾质量和效率,同时可以用于完善本体结构.本文共分四章.第一章是相关领域的研究综述;第二章是地理学科知识图谱构建,详细地介绍了用“四步法”构建地理学科知识图谱的整个过程;第三章是实验,介绍了众包半自动语义标注、实体集扩充和关系抽取的相关实验和效果,还有地理学科知识图谱的数量统计信息;第四章是结论.1相关研究综述本章对知识图谱构建过程中的主要挑战进行介绍,包括本体构建、语义标注和信息抽取三个部分.1.1本体构建1993年,Gruber[32]将本体定义为“一种概念化的精确的规格说明”.1998年,Studer[33]进一步扩充了本体的概念,将其定义为“共享概念模型的明确形式化规范说明”.简而言之,本体主要是用来描述某个领域内的概念和概念之间的关系,使得它们在共享的范围内具有大家共同认可的、明确的、唯一的定义.所以,本体具有共享化、明确化、概念化和形式化四个基本特征.本体构建的过程相当繁琐,而且构建过程往往因各自领域和具体工程的不同而不同[6].但是,大家公认的是在领域本体的构建过程中需要相关领域专家的协作与指导[7-9].一般而言,本体构建通常有人工、自动和半自动三种构建方法:人工构建本体的方法通常是由大量的领域专家相互协作完成,例如WordNet[10].常见的人工构建本体的方法主要有Skeletal法[47](又称骨架法)、TOVE法[48]、SENSUS法[49]、Methontology法[50]、OntologyDevelopment101法[51](又称七步法)等.自动构建本体通常也称为本体学习,其目标在于利用知识获取技术、机器学习技术以及统计技术等从数据资源中自动地获取
本文标题:一种准确高效的领域知识图谱构建方法-软件学报
链接地址:https://www.777doc.com/doc-4605967 .html