您好,欢迎访问三七文档
technologyintelligenceengineering0042017年第3卷第1期知识图谱研究进展TheResearchAdvancesofKnowledgeGraph东南大学计算机科学与工程学院 南京 211189SchoolofComputerScienceandEngineering,SoutheastUniversity,Nanjing211189,China漆桂林高桓吴天星QIGuiLinGAOHuanWUTianXing随着大数据时代的到来,知识工程受到了广泛关注,如何从海量的数据中提取有用的知识,是大数据分析的关键。知识图谱技术提供了一种从海量文本和图像中抽取结构化知识的手段,从而具有广阔的应用前景。本文首先简要回顾知识图谱的历史,探讨知识图谱研究的意义。其次,介绍知识图谱构建的关键技术,包括实体关系识别技术、知识融合技术、实体链接技术和知识推理技术等。然后,给出现有开放的知识图谱数据集的介绍。最后,给出知识图谱在情报分析中的应用案例。Withtheadventofbigdataera,knowledgeengineeringhasattractedwideattention,asminingknowledgefromlarge-scaledataiscriticalforbigdataanalysis.Knowledgegraphtechniquesprovideawaytoextractstructuredknowledgefromlarge-scaletextsandimages,thushavewideapplicationprospect.Inthisarticle,wefirstgaveabriefoverviewofthehistoryofknowledgegraph,anddiscussedtheimportanceofknowledgegraphresearch.Wethenintroducedkeytechnologiesofknowledgegraph,includingtechniquesofinstancerelationdetection,techniquesofknowledgefusion,techniquesofinstancemapping,andtechniquesofknowledgereasoning.Afterthat,weintroducedsomewell-knownopenknowledgegraphdatasets.Finally,wepresentedsomeusecasesofknowledgegraphinintelligenceanalysis.关键词:人工智能,知识图谱,知识挖掘,情报分析基金项目:本文受国家自然科学基金面上项目:基于图的并行OWL本体推理方法研究(61672153)的资助。作者简介:漆桂林(1977-),博士,教授,研究方向:人工智能、知识工程、语义网,gqi@seu.edu.cn;高桓(1984-),博士研究生,研究方向:数据挖掘,信息抽取,知识库构建;吴天星(1990-),博士研究生,研究方向:知识图谱,语义Web,知识挖掘。摘要Abstract中图分类号:G35Keywords:ArtificialIntelligence,knowledgegraph,knowledgemining,intelligenceanalysisdoi:10.3772/j.issn.2095-915x.2017.01.002sPEcialarticlEs特约专题technologyintelligenceengineering2017年第3卷第1期0051知识图谱历史回顾知识图谱(KnowledgeGraph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。知识图谱本质上是一种叫做语义网络(semanticnetwork)的知识库,即具有有向图结构的一个知识库,其中图的结点代表实体(entity)或者概念(concept),而图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。语义网络[1]是19世纪50年代末60年代初提出,代表性人物有M.RossQuillian和RobertF.Simmons。语义网络可以看成是一种用于存储知识的数据结构,即基于图的数据结构,这里的图可以是有向图,也可以是无向图。使用语义网络,可以很方便地将自然语言的句子用图来表达和存储,用于机器翻译[2]、问答系统[3]和自然语言理解[4]。19世纪70年代开始有不少工作研究语义网络跟一阶谓词逻辑之间的关系,比如说,文献[5]提供了一个算法将一个语义网络转化成谓词逻辑的形式,但是具有计算方面的优势,而文献[6]则给出了如何用语义网络来表示一阶谓词逻辑中的连接词和量词。到了19世纪80年代,人工智能研究的主流变成了知识工程和专家系统,特别是基于规则的专家系统开始成为研究的重点。这一时期,语义网络的理论更加完善,特别是基于语义网络的推理出现了很多工作(例如文献[7]中的工作),而且语义网络的研究开始转向具有严格逻辑语义的表示和推理。19世纪80年代末到90年代,语义网络的工作集中在对于概念(concept)之间关系的建模,提出了术语逻辑(terminologicallogic)以及描述逻辑。这一时期比较有代表性的工作是Brachman等人提出的CLASSIC语言[8]和Horrock实现的FaCT推理机[9]。进入20世纪,语义网络有了一个新的应用场景,即语义Web。语义Web是由Web的创始人Berners-Lee及其合作者提出[10],通过W3C①的一些标准来实现Web的一个扩展,从而数据可以在不同应用中共享和重用。语义Web跟传统Web的一个很大的区别是用户可以上传各种图结构的数据(采取的是W3C的标准RDF),并且数据之间建立链接,从而形成链接数据[11]。链接数据项目汇集了很多高质量知识库,比如说Freebase②、DBpedia③和Yago④,这些知识库都是来源于人工编辑的大规模知识库-维基百科。这些高质量的知识库的发布,为谷歌知识图谱项目的成功打下了坚实的基础。谷歌知识图谱很重要的一部分是一个大规模的协同合作的知识库,叫Freebase,即链接数据的一个数据集。Freebase采用的数据结构是图模型,即可以把一个Freebase的知识库看成是有向图,这种数据模型相对于传统数据库的优势在于可以处理更复杂的数据以及方便数据的插入。谷歌知识图谱的模式(Schema)是由谷歌自己的专业团队在Freebase的基础上开发和设计的。谷歌知识图谱中,所有的对象都有属于它的Type。Type的数量不是固定的,有tHErEsEarcHaDVancEsoFKnoWlEDGEGraPH知识图谱研究进展①②③④年第3卷第1期一个数据结构Collection记录的是计算机自动抽取出的类型,Collection中有成千上万种类型,有些今天生成后第二天就被删除了,有些则能长期的保留在Collection中,如果Collection中的某一种类型能够长期的保留,发展到一定程度后,由专业的人员进行决策、命名,最后上升为一种Type,作为谷歌知识图谱的一种类型保存在模式中。谷歌知识图谱的Type有音乐家、网球运动员等等。不过谷歌的知识图谱中的模式并没有太多去考虑类型的层次性。虽然很多文献都把知识图谱看成是一个实体-关系的有向图,但是也有一些观点认为知识图谱应该包含更抽象的概念之间的关系,比如说,谷歌和必应、雅虎一起推出了Schema.org2来提供一个覆盖广泛主题(包括人物、地点、事件等)的模式(schema)。跟早期的语义网络相比,知识图谱具有自己的特点。首先,知识图谱强调的是实体之间的关联,以及实体的属性值,虽然知识图谱中也可以有概念的层次关系,这些关系的数量相比实体之间的关系的数量要少很多,而早期的语义网络主要用于对自然语言的句子做表示;其次,知识图谱的一个重要来源是百科,特别是百科中半结构化的数据抽取得到,这跟早期语义网络主要靠人工构建不一样,通过百科获取高质量知识作为种子知识,然后通过知识挖掘技术可以快速构建大规模、高质量知识图谱;最后,知识图谱的构建强调不同来源知识的融合以及知识的清洗技术,而这些不是早期语义网络关注的重点。知识图谱跟本体标准语言,比如说RDFS⑤和OWL⑥具有紧密的关系。一方面,知识图谱可以看成是一种知识存储的数据结构,本身并不具备形式化的语义,但是可以通过RDFS或者OWL的规则应用于知识图谱进行推理,从而赋予知识图谱形式化语义。另外一方面,并不是所有的OWL本体都适合转化成知识图谱,因为转化过程中会丢失语义信息(在文献[12]中,OWLEL语言表示的本体已经被证明适合转化成知识图谱,并且可以实现高效推理机)。下面几个小节将介绍知识图谱构建的关键技术、一些开放知识图谱以及知识图谱在情报分析的应用案例。2知识图谱构建技术本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。2.1知识图谱技术地图构建知识图谱的主要目的是获取大量的、让计算机可读的知识。在互联网飞速发展的今天,知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。为了阐述如何构建知识图谱,本文给出了构建知识图谱的技术地图,该技术地图如图2.1所示。整个技术图主要分为三个部分,第一个部分是知识获取,主要阐述如何从非结doi:10.3772/j.issn.2095-915x.2017.01.002sPEcialarticlEs特约专题⑤⑥年第3卷第1期007构化、半结构化、以及结构化数据中获取知识。第二部是数据融合,主要阐述如何将不同数据源获取的知识进行融合构建数据之间的关联。第三部分是知识计算及应用,这一部分关注的是基于知识图谱计算功能以及基于知识图谱的应用。2.1.1知识获取在处理非结构化数据方面,首先要对用户的非结构化数据提取正文。目前的互联网数据存在着大量的广告,正文提取技术希望有效的过滤广告而只保留用户关注的文本内容。当得到正文文本后,需要通过自然语言技术识别文章中的实体,实体识别通常有两种方法,一种是用户本身有一个知识库则可以使用实体链接将文章中可能的候选实体链接到用户的知识库上。另一种是当用户没有知识库则需要使用命名实体识别技术识别文章中的实体。若文章中存在实体的别名或者简称还需要构建实体间的同义词表,这样可以使不同实体具有相同的描述。在识别实体的过程中可能会用到分词、词性标注,以及深度学习模型中需要用到分布式表达如词向量。同时为了得到不同粒度的知识还可能需要提取文中的关键词,获取文章的潜在主题等。当用户获得实体后,则需要关注实体间的关系,我们称为实体关系识别,有些实体关系识别的方法会利用句法结构来帮助确定两个实体间的关系,因此在有些算法中会利用依存分析或者语义解析。如果用户不仅仅想获取实体间的关系,还想获取一个事件的详细内容,那么则需要确定事件的触发词并获取事件相应描述的句子,同时识别事件描述句子中实体对应事件的角色。
本文标题:知识图谱研究进展
链接地址:https://www.777doc.com/doc-6168564 .html