您好,欢迎访问三七文档
面向Web文本的语义关系抽取韩先培xianpei@nfs.iscas.ac.cn2016-4-17北京中国科学院软件研究所语义关系语义关系描述实体及概念之间的关联与交互,是人类知识的核心组成部分−首都(北京,中国)−ISA(中书省,唐代中央行政机构)−获得奖励(莫言,诺贝尔文学奖)…语义关系来自于−日常生活中积累的对世界的认识和经验医生救治病人,老师教育学生…−来自于特定信息(文本、视频…)的表述欧冠-马竞2-0巴萨进四强拜仁客场2-2晋级语义关系抽取识别文本中实体和实体之间的语义关系并将其分类−输入:自然语言文本语料库,Web,…−输出:文本中包含的特定语义关系莫言是首位获得诺贝尔文学奖的中国山东作家获得奖励出生于位于职业为什么需要语义关系抽取?构建可以支撑类人推理和自然语言理解的知识库—知识图谱基于知识的推理:我今天去看医生了--我生病了知网为什么需要语义关系抽取?文本语义理解和智能信息服务的基础技术唐朝中央的三省中书、门下和尚书,分别负责决策、审议和执行。三省的长官都是宰相,相权分散。ISA(中书省,中央机构)ISA(门下省,中央机构)ISA(尚书省,中央机构)职能(中书省,决策)职能(门下省,审议)职能(尚书省,执行)长官(中书省,宰相)…海量文本结构化知识(科研测试)1.唐代负责审议的中央机构是什么?(门下省)(实际高考)2.唐朝时每年春天都要举行一次恩科来选拔人才,按当时的制度,其工作程序是?(中书省——门下省——尚书省——礼部)语义关系抽取方法有监督方法−基于特征的分类,基于Kernel的分类,基于深度学习的分类…−优点:性能更好−缺点:需要大量标注语料,需要预先确定抽取的目标,领域自适应性不强无/弱监督方法(本报告重点)−Bootstrapping,远距离监督,无监督(聚类),自学习技术…−优点:可扩展,适合开放/Web环境下的信息抽取−缺点:性能比有监督方法有差距核心组件:表示模型+学习算法语义关系抽取的表示语义关系抽取的表示将待抽取的关系实例表示为适合机器学习算法输入的形式Arg1莫言/Arg1是首位获得Arg2诺贝尔文学奖/Arg2的中国山东作家Arg1莫言/Arg1是首位获得诺贝尔文学奖的中国山东Arg2作家/Arg2关系实例特征表示语义关系实例表示的挑战结构性:关系实例中的词语必须按照特定的结构组合才能表达特定语义关系−小明的哥哥是小强V.S.小强的哥哥是小明−词袋子(BoW)模型无法使用稀疏性:语义关系通常只用很少的几个词语表达−莫言,山东高密人−相比之下,文档分类任务中的文档通常有几百到几千词多样性:关系表达多种多样−莫言获得了诺贝尔奖,莫言领取了诺贝尔奖,诺贝尔奖得主莫言外部性:表示通常还依赖于外部知识−中国山东高密:中国是国家,山东是省,高密是县关系实例表示—人工特征向量人工定义一系列的特征,使用0-1向量来表示一个关系实例−莫言是首位获得诺贝尔文学奖的--[特征1,特征2,…]实体特征:用来捕捉并表示关系论元的语义−E1_Word=莫言,E1_POS=NR,E1_Type=人物,E1=Subject_of_Sentence,…−通常会使用额外的资源:BrownCluster,WordNet,…关系特征:用来捕捉两个论元之间的关联−两个论元之间的词:within_获得,within_是−两个论元周围特定窗口内的词:Right_E2_的−词/词性序列:2gram,3gram,…E1_是,获得_E2−…关系实例表示—人工特征向量性能:−在ACE2005数据集上,Jiang&Zhai(2007)获得的性能是P=0.715,R=0.694,F=0.715优点:−系统容易构建,可以无缝使用现有的各种分类模型−Debug容易缺点:−需要人工定义大量特征模板−面临严重的特征稀疏问题:在KBP数据集中,超过四百万个单独特征,出现次数超过5的只有60万个,大部分实例只有10-30个特征−很难捕捉整体的结构信息关系实例表示—句法结构为解决特征向量不能很好表达结构的问题,使用句法树(或依存路径)来表示关系实例Zhangetal.(2006)定义了一系列的句法结构来表示关系−MinimumCompleteTree,Path-EnclosedTree,Context-SensitivePathTree…在句法结构中加入语义信息−feature-enriched/semantictreekernel[Plank&Moschitti,2013;Sun&Han,2014]ACE2005性能:P=0.82,R=0.70,F=0.76关系实例表示—Embedding考虑关系实例的结构(句法、词序列),同时加入语义信息(词向量)使用神经网络来表示关系实例−Recursivenetworks:基于句子的句法结构,自底向上递归的组合不同部分的表示[Socher&al.,2012]−Convolutionalnetworks:按特定窗口大小,依次组合窗口内词的信息,并通过max-pooling来得到最后的关系实例表示[Zeng&al.,2014]−Recurrentnetworks:按照关系实例里面词的顺序,依次处理每一个词并更新关系实例的表示[Li&al.,2015]上述Embedding表示可以与之前的特征组合一起用来分类RecursivenetworksCNN位置向量WordVec关系实例表示—Embedding在关系分类任务(SemEval-2010Task8dataset)是当前的State-of-the-art表示方法关系实例表示—Embedding在关系抽取任务上(ACE2005)上性能仍然离之前的方法有差距根据(Nguyen&Grishman,2015)的实验结果,CNNEmbedding在ACE2005上的性能为:−P=0.71,R=0.54,F=0.61(State-of-the-Art性能:P=0.82,R=0.70,F=0.76)原因分析:−关系抽取任务与关系分类任务的差异−在ACE2005数据集中,90%的实体对之间都不存在语义关系–关系检测是核心−相比之下,SemEval-2010下只有17%的实体对之间是不存在语义关系的–关系分类是核心关系实例表示总结三种方法−人工特征向量−句法结构(句法树,依存树,依存路径)−基于神经网络的Embedding(RNN,CNN,…)性能−在关系分类任务上,Embedding效果最好−在关系抽取任务上,句法结构表示最好−人工特征向量都能取得具备相当竞争力的性能在定义良好特征集上,性能一般比state-of-the-art系统低2~5个点左右语义关系抽取学习算法面向Web文本的有监督语义关系抽取如何构建有监督关系抽取模型:−1.选择要抽取哪些关系:{出生于,位于,生日,…}−2.选择一种表示:特征向量|句法树|Embedding…−3.标注语料:已有的,找人标−4.找一个已有分类模型并训练:SVM,MaxEnt…−5.评估性能。完成!但是通常实际需求是:我想构建一个[XX=历史/金融/音乐/地理]领域知识图谱,你把里面的所有关系都抽出来吧−数据源在哪里?…百科?垂直站点?新闻网站?Web?−没有标注好的语料,标好的语料换种文本不好使,关系类别太多了标不过来…−甚至不知道要抽那些关系…−连评估都很难…无/弱监督语义关系抽取Bootstrapping:不需要标语料,只需要大文档集DistantSupervision:不需要标语料,需要知识库OpenInformationExtraction:不需要标语料,不需要知道要抽哪些关系BOOTSTRAPPINGBootstrapping初始化:−一些种子实体对−(北京,中国),(巴黎,法国),(华盛顿,美国)扩展Expansion−新模板:E1是E2的首都,E2首都E1,…−新实例:(东京,日本),(圣胡安,波多黎各)迭代数次,输出结果主要的困难−语义漂移(Semanticdrift)Bootstrapping:一种经典(古老|不好发论文)、有不足之处、非常实用的方法Bootstrapping-语义漂移语义漂移问题:迭代会引入噪音实例和噪音模板(北京,中国)(巴黎,法国)(华盛顿,美国)(东京,日本)(圣胡安,波多黎各)(纽约,美国)(河南,中国)(山东高密,中国)E1是E2的首都E2首都E1E1位于E2关系种子模板新关系实例Bootstrapping-语义漂移根据[Krause&al.,2012],人物之间四种关系Pattern的交叉程度Bootstrapping-语义漂移解决方案MutualexclusiveBootstrapping(McIntoshetal.,09):同时扩展多个互斥类别,一个实体对只能属于一个类别Coupledtraining(Carlson&al.,10):建模不同抽取关系之间的约束,寻找最大化满足这些约束的抽取结果Co-Bootstrapping(Shietal.14):引入负实例来限制语义漂移DISTANTSUPERVISION知识监督开放抽取-DistantSupervisionDistantSupervision:使用知识库中的关系启发式的标注训练语料−WordNet,Freebase,Yago,DBPedia,WikiData…启发式标注所有句子作为训练语料使用最分类器来构建系统CEO_Of(乔布斯,苹果公司)Founder_Of(乔布斯,苹果公司)知识库RelationInstanceLabelS1:乔布斯是苹果公司的创始人之一Founder-of,CEO-ofS2:乔布斯回到了苹果公司Founder-of,CEO-of标注训练语料远距离监督方法—主要难点DS假设:每一个同时包含两个实体的句子都会表述这两个实体在知识库中的对应关系主要难点:带来大量噪音训练实例,严重影响抽取性能噪音训练实例RelationInstanceLabelS1:乔布斯是苹果公司的创始人之一Founder-ofS1:乔布斯是苹果公司的创始人之一CEO-ofS2:乔布斯回到了苹果公司Founder-ofS2:乔布斯回到了苹果公司CEO-of√xxx基于噪音实例去除的DS方法通过去除噪音实例来提升远距离监督方法的性能假设:一个正确的训练实例会位于语义一致的区域,也就是其周边的实例应当都有相同一致的Label−基于生成式模型的方法(Takamatsuetal.ACL12)−基于稀疏表示的方法(Hanetal.ACL14)+++++×××××S2×S1×+:CEO-of×:Founder-of+×+×××+:Manager-of:CTO-of语义一致区域语义不一致区域基于多实例学习的DS方法一个实体对由一个句子集合表示关系实例label被建模为hiddenvariable,使用FactorGraph来表示多个变量之间的关系(Surdeanuetal.EMNLP12,…)AtLeastOne假设:只要实体对的一个句子具有特定关系,那么该实体对也就具有该关系founderfounderCEO-of0100......乔布斯是苹果公司的创始人之一.乔布斯回到了苹果公司.乔布斯重新成为了苹果公司的CEO....{bornIn,…}{bornIn,…}{bornIn,…}{0,1}{0,1}{0,1}{0,1}Z1Z2Z3创始人UNCEO0101Y出生于Y创始人Y位于YCEO基于协同推荐的DS方法使用矩阵来表示实体对与Pattern,实体对与语义关系,Pattern与语义关系之间的关联关系抽取任务被建模为矩阵填空问题基于协同过滤推荐的方法(Riedeletal.NAACL13)基于Low-Rank矩阵分解的方法(Fanetal.ACL14)多源弱监督知识协同建模(AAAI2016)基于MarkovLogic,同时使用多种不同的弱监督来提升关系抽取的性能(16%F
本文标题:韩先培-Semantic-Relation-Extraction-from-Web-Text
链接地址:https://www.777doc.com/doc-5514877 .html