您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 科学院自动化研究所模式识别国家重点实验室.ppt
LeveragingFrameNettoImproveAutomaticEventDetection中国科学院自动化研究所模式识别国家重点实验室背景•FrameNet‒FrameNet的理论基础是FrameSemantics,该理论认为绝大部分词的含义可以通过语义框架(SemanticFrame)来描述。语义框架:一个对事件(event)、关系(Relation)或者实体(Entity)的类型及其参与者(Participants)的描述。‒FrameNet的数据结构包括Frame、LU(LexicalUnit)、FE(FrameElement)和Exemplar,Frame之间定义了八种关系。‒FrameNet包含1000多个Frame,10000多个LU和17000个标注例句(exemplar)背景•ACE-ACE定义了八大类33小类的事件,事件由触发词(Trigger)和参与者(Argument)组成,例如:恐怖分子于昨天袭击了叙利亚。-ACE包含599篇标注文档,约6000个标注的事件实例。恐怖分子昨天袭击叙利亚AttackerTimeTriggerofAttackPlace动机-事件识别面临严重的数据稀疏问题由于事件结构的复杂性,标注成本极大,ACE定义了33类事件,却只有599篇标注文档,尤其对于某些类型的事件,ACE语料只包含几个标注实例,这样规模的数据显然很难训练得到令人满意的识别模型。-Frame和Event的相似性结构的相似性•Frame由LU和FE构成,Event由Trigger和Argument构成•LU和Trigger功能类似•FE和Argument功能类似动机-Frame和Event的相似性内容的相似性部分Frame确实表达了某种类型的事件。动机以上的观察促使我们探究如下两个问题:a.Frame和Event之间是否存在比较好的对应关系研究思路:通过Frame下的标注例句是否表达事件来判断Frame和Event之间的关系。b.是否可以利用FrameNet的数据提高事件识别的效果研究思路:由上面分析可知,事件识别面临严重的数据稀疏问题,一个直接的利用FrameNet提高事件识别性能的方法是利用FrameNet中的事件扩充ACE的数据,缓解数据稀疏问题。如何在FrameNet语料上识别事件?方法在FrameNet语料上识别事件方法•BasicEDModel将事件识别建模为词分类的问题-和普通的事件识别区别a.只将LU作为候选触发词b.跨领域问题基于表示学习的模型能够很好的处理跨领域问题方法•BasicEDModel模型:三层全连接的神经网络(输入层、隐藏层、输出层)输入:候选词的词向量+当前句子包含词的平均向量词向量来源:使用word2vec工具在NYT语料上训练获得。方法•PSLModelBasicED模型对FrameNet中的事件进行初步识别,利用PSL融合初步识别的结果和三条全局限制,推理得到最终的识别结果。-全局限制H1:相同Frame表达相同的EventH2:相关Frame表达相同的EventH2是H1的扩展,这里相关Frame定义为具有Inheritance、See_also和Perspective_on关系的Frame。上面两条限制过于严格,FrameNet中,有很多Frame不能对应到唯一的事件类型上,例如Dead_or_alive,只有部分句子表达了Dead事件。为了弥补这一问题,引入第三个限制。方法•PSLModel-全局限制H3:相同LU表达相同的EventDead_or_alive的LU为:alive.a,dead.a,deceased.a,lifeless.a,living.n,undead.a,undead.n。其中标红的LU表达了Dead事件。另一方面,H1,H2也可以帮助H3纠正一些错误,例如对于Clothing下的LU“Suit.n”,BasicED模型会将其下的所有句子识别为Sue事件,这是因为“Suit”是个多义词。然而,如果考虑H1,那么这一错误将被纠正,因为Clothing下的其它LU并非多义词。方法•PSLModel-建模实验•数据ACE2005,529篇做训练集,30篇做开发集,40篇做测试集FrameNet1.5,共收集15万多个标注例句用于事件识别实验•BasicEDModel参数设置:200维词向量,300个隐藏层节点,batchsize为100。实验•在FrameNet中识别事件-Baselines:•ANN:在原始ACE语料上训练得到的事件识别模型;•SF(SameFrame):在ANN的基础上,加入H1的限制;•RF(RelatedFrame):在ANN的基础上,加入H2的限制;•SL(SameLU):在ANN的基础上,加入H3的限制实验•在FrameNet中识别事件-人工评价:每个系统产生的结果随机抽样200个,人工标注实验•在FrameNet中识别事件-自动评价:将每个系统识别的事件加入ACE,扩展数据,自动评价实验•利用FrameNet提高事件识别效果未来的工作未来工作:1.将这一工作扩展到完整的事件抽取任务上(包括事件参与者及其角色的识别)。2.ACE定义的事件粒度过粗,例如,街头斗殴和战争都被表示为同一种事件Attack。我们计划用FrameNet中粒度更细的Frame对ACE的事件框架进行优化,例如Attack可以被分为恐怖袭击、入侵等。ThankYou
本文标题:科学院自动化研究所模式识别国家重点实验室.ppt
链接地址:https://www.777doc.com/doc-7438571 .html