您好,欢迎访问三七文档
面向知识图谱构建的信息抽取技术韩先培中国科学院软件研究所2015-6-27传统信息抽取Grishman(1997):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术−实体−实体和实体之间的关系−实体参与的事件传统信息抽取示例据美联社消息,当地时间7月7日清晨,英国伦敦金融中心的地铁发生6次爆炸,其中还包括一辆满载乘客的双层公共汽车。由于事发当时处于上班的高峰时期,造成了大量人员伤亡。据初步统计的数字,多起爆炸已至少造成45人死亡、约1000人受伤。类型地点时间死亡人数受伤人数爆炸英国伦敦金融中心的地铁当地时间7月7日清晨45人约1000人信息抽取传统信息抽取的核心技术字典匹配AlabamaAlaska…WisconsinWyoming滑动窗口分类器对每个分割候选进行分类有限状态自动机上下文无关文法边界模型AbrahamLincolnwasborninKentucky.member?AbrahamLincolnwasborninKentucky.AbrahamLincolnwasborninKentucky.Classifierwhichclass?AbrahamLincolnwasborninKentucky.Classifierwhichclass?Tryalternatewindowsizes:Classifierwhichclass?BEGINENDBEGINENDAbrahamLincolnwasborninKentucky.Mostlikelystatesequence?AbrahamLincolnwasborninKentucky.NNPVPNPVNNPNPPPVPVPS分水岭1985Cyc1990WordNetWikipedia高质量数据源500万概念多语言富含丰富语义结构的文档:Infobox,table,list,category…2005-2010知网信息抽取目标的转变从文本中抽取指定类型的实体、关系、事件等事实信息从海量数据中发现实体相关的信息,并将其与现有知识库进行集成文本分析为核心--知识发现为核心主要任务:抽取--发现数据源:文本--海量数据抽取对象:预先指定类型--OpenDomain与现有知识库的集成成为了新的核心任务ACEKBP面向知识图谱的IE—核心模块验证集成FuelPumpPumpRelayShortsColdwetherHeadlightFailsRunninghotEngineStallsAtlowspeeds开放抽取知识链接高价值信息检测面向知识图谱的IE—核心模块验证集成FuelPumpPumpRelayShortsColdwetherHeadlightFailsRunninghotEngineStallsAtlowspeeds开放抽取知识链接高价值信息检测高价值信息检测目的:对目标知识,找到容易抽取的数据块(Nugget)−大大降低信息抽取的难度−面向知识图谱的IE以知识为核心,目标是覆盖要抽取的知识,不需要覆盖所有文档−数据规模导致无法覆盖数据的每一部分高价值结构:WikipediaInfobox,WebTable,List,…高价值文本:匹配特定模板的文本,概念定义句…姚明身高2.29米姚明父亲姚志源身高2.08米,姚明比他还高了21厘米OntoLearn(Velardietal.,CL2012)寻找概念的定义句来抽取IS-A关系−(像素,点),(红色,颜色),…一个概念定义句必须包含四个域:−DEFINIENDUM:被定义概念的声明,如在计算机科学中,像素−DEFINITOR:用来引入定义的动词短语,如指的是,被认为是−DEFINIENT:概念的从属项,通常包含其上位词,如一个点−REST:额外的从句,用于进一步明确或区分开类似概念的不同之处,如计算机图像的构建了有限状态自动机来识别给定概念的所有定义句计算机科学像素计算机图像点在NN1中,Target是NN2的NN3JJ一个面向知识图谱的IE—核心模块验证集成FuelPumpPumpRelayShortsColdwetherHeadlightFailsRunninghotEngineStallsAtlowspeeds开放抽取知识链接高价值信息检测知识链接将自然语言文本中的信息与知识库中的条目进行链接作用:−信息抽取的结果需要与现有知识图谱集成−识别不同数据源中同一知识的冗余表示,处理表示的歧义性,提升信息抽取性能实体链接系统???苹果公司库克Object-C艾维iPhoneiPad设计师CEO同事发布苹果在今年WWDC上发布了Swift编程语言编程语言是一种Swift是一种知识链接计算文本提及到实体之间的匹配程度,使用多方位的信息:•先验可能性(Popularity)•上下文相似度(ContextSimilarity)•文本的主题一致性(Coherence)使用知识库提供构建模块:•名字-实体词典•实体关系,类别•实体的文本描述和关键特征•用来构建权重的参数实体链接代表性方法—统计方法使用统计量来表示实体链接所需的知识使用知识库和大规模语料库来估计上述统计量设计统计模型综合多个不同的统计量来进行决策−生成式模型(实体-提及模型ACL11,实体-主题模型EMNLP12,…)−深度学习模型(Heetal.,ACL13,Sunetal.,IJCAI’15,…)0.00%20.00%40.00%电影苹果苹果银行苹果公司水果苹果实体链接代表方法—图方法使用知识库中的知识来构建mention-entitygraph构建算法来计算最大似然链接结构−同时考虑mention-entity的一致性和entity-entity之间的语义关联−保证每一个mention指向且只指向一个目标实体公牛乔丹大灌篮宇宙大灌篮乔丹(NBA球星)乔丹(机器学习)乔丹(好莱坞影星)芝加哥公牛队公牛(动物)0.200.080.120.030.130.010.660.82实体链接代表方法—图方法计算最大似然链接结构的算法−寻找具有最大似然值的子图/最稠密子图(Chakrabartietal.:KDD’09,Hoffartetal.,EMNLP’11,…)−基于GraphRanking寻找最大可能节点(Hanetal.,SIGIR’11,AlhelbawyandGaizauskas,ACL’14…)公牛乔丹大灌篮宇宙大灌篮乔丹(NBA球星)乔丹(机器学习)乔丹(好莱坞影星)芝加哥公牛队公牛(动物)0.200.080.120.030.130.010.660.82面向知识图谱的IE—核心模块验证集成FuelPumpPumpRelayShortsColdwetherHeadlightFailsRunninghotEngineStallsAtlowspeeds开放抽取知识链接高价值信息检测开放抽取传统的人工标注语料+机器学习算法模式无法满足开放域开放语料下的信息抽取−语料构建成本过高−跨领域跨文本类别时抽取性能严重下降−需要抽取的信息类别通常未预先指定需要研究新的抽取方法−按需抽取—Bootstrapping−开放抽取—OpenIE−知识监督抽取—DistantSupervision−…(如知识库挖掘算法PathRanking算法)按需抽取:BootstrappingBootstrapping:模板生成-实例抽取-迭代直至收敛语义漂移问题:迭代会引入噪音实例和噪音模板−首都:Rome城市模板“*isthecityof”(McIntoshetal.ACL09):同时扩展多个互斥类别同时扩展人物、地点、机构,一个实体只能属于一个类别COLING14:引入负实例来限制语义漂移开放抽取:ReVerb通过识别表达语义关系的短语来抽取实体之间的关系−(华为,总部位于,深圳),(华为,总部设置于,深圳),(华为,将其总部建于,深圳)同时使用句法和统计数据来过滤抽取出来的三元组−关系短语应当是一个以动词为核心的短语−关系短语应当匹配多个不同实体对优点:无需预先定义关系类别缺点:语义没有归一化,同一关系有不同表示关系短语的句法结构约束知识监督开放抽取-DistantSupervision开放域信息抽取的一个主要问题是缺乏标注语料DistantSupervision:使用知识库中的关系启发式的标注训练语料CEO_Of(乔布斯,苹果公司)Founder_Of(乔布斯,苹果公司)知识库RelationInstanceLabelS1:乔布斯是苹果公司的创始人之一Founder-of,CEO-ofS2:乔布斯回到了苹果公司Founder-of,CEO-of标注训练语料简单远距离监督方法(Mintzetal.,ACL09)DS假设:每一个同时包含两个实体的句子都会表述这两个实体在知识库中的对应关系基于上述假设标注所有句子作为训练语料使用最大熵分类器来构建IE系统最大的问题:噪音训练实例噪音训练实例RelationInstanceLabelS1:乔布斯是苹果公司的创始人之一Founder-ofS1:乔布斯是苹果公司的创始人之一CEO-ofS2:乔布斯回到了苹果公司Founder-ofS2:乔布斯回到了苹果公司CEO-of√xxx基于噪音实例去除的DS方法通过去除噪音实例来提升远距离监督方法的性能假设:一个正确的训练实例会位于语义一致的区域,也就是其周边的实例应当都有相同一致的Label−基于生成式模型的方法(Takamatsuetal.ACL12)−基于稀疏表示的方法(Hanetal.ACL14)+++++×××××S2×S1×+:CEO-of×:Founder-of+×+×××+:Manager-of:CTO-of语义一致区域语义不一致区域基于多实例学习的DS方法一个实体对由一个句子集合表示AtLeastOne假设:只要实体对的一个句子具有特定关系,那么该实体对也就具有该关系使用FactorGraph来表示多个变量之间的关系(Surdeanuetal.EMNLP12,…)founderfounderCEO-of0100......乔布斯是苹果公司的创始人之一.乔布斯回到了苹果公司.乔布斯重新成为了苹果公司的CEO....{bornIn,…}{bornIn,…}{bornIn,…}{0,1}{0,1}{0,1}{0,1}Z1Z2Z3创始人UNCEO0101Y出生于Y创始人Y位于YCEO基于协同推荐的DS方法使用矩阵来表示实体对与Pattern,实体对与语义关系,Pattern与语义关系之间的关联关系抽取任务被建模为矩阵填空问题基于协同过滤推荐的方法(Riedeletal.NAACL13)基于Low-Rank矩阵分解的方法(Fanetal.ACL14)面向知识图谱的IE—核心模块验证集成FuelPumpPumpRelayShortsColdwetherHeadlightFailsRunninghotEngineStallsAtlowspeeds开放抽取知识链接高价值信息检测验证与集成同一条知识可以从多个不同的数据源中抽取−如何综合多个数据源中的证据来提升抽取的准确度和可靠性?知识图谱构建不是一个静态的过程,需要及时更新动态知识并加入新知识−如何判断新知识是否正确?−如何判断新知识与已有知识是否一致?Google‘sKnowledgeVault[L.Dongetal,SIGKDD2014]Sources:Priors:华为总部位于深圳文本HTML:表格DOMTreesIT公司总部华为深圳中兴深圳......RDFaresource=“华为PathRankingAlgorithm使用最大熵模型来融合上述输出的证据对每一个基本分类器,使用两个特征:-该抽取结果的数据源的数量(平方根)-抽取的置信度平均值Web表格语义数据文本抽取DOMTree开放抽取知识与知识库的集成OpenIE可以抽取大量的知识,但是其关系使用自然语言短语表示,而不是知
本文标题:知识图谱构建
链接地址:https://www.777doc.com/doc-4500341 .html