您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 文本信息提取技术概述
孙斌北京大学计算机系计算语言所(icl.pku.edu.cn)文本信息提取技术(概述)内容(1)信息提取的含义、目标(2)信息提取技术中若干相关基础问题(3)(中文)信息提取系统的流程与设计(4)Web信息提取1、“信息提取”的含义举例说明:什么是信息提取设想有一个用户,他关心《人民日报》中出现的一类特定的信息,即会议信息。属于“单纯信息”:无相互关联、时序条件、因果等。通常他是一篇一篇地看报,把其中报道会议的所有段落标记出来,然后对每一个会议信息填写如下一个表格(或者称其为“会议信息模板”):会议信息(填写预定义语义的表格)会议时间Time会议地点Spot召集人Convener姓名/团体名称Name机构、职位Org/Post会议名/标题Conf-Title会议信息一例会议报道(例1):人民日报1998-03-09新华社北京3月8日电(记者李术峰):中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央1998年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有100多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。会议时间Time1998年3月9日会议地点Spot北京会议召集者/主持人Convener个人姓名/团体名称Name蒋正华机构、职位Org/Post主席,农工民主党中央会议名/标题Conf-Titleahref=“…”中国农工民主党第十二届中央常务委员会第一次会议/aICL.CS.PKU系统输出结果:会议报道(例1)事件模板实例ConferenceInfoTime今天(19980309)/TimeSpot北京/SpotConverner蒋正华/ConvernerTitle中国农工民主党第十二届中央常委员会第一次会议/Title/ConferenceInfo会议报道(例2):人民日报1998-01-0719980107-06-016-001意大利总理普罗迪4日说,欧洲国家将采取行动,共同对付库尔德难民涌入问题。普罗迪4日晚召开了由意外长、内政和国防部长参加的紧急会议,商讨应付库尔德难民问题的对策。会前,普罗迪说,“在经过最初的混乱后,欧洲国家的行动已经大大加强”,今后几天内将在此问题上进行系统合作。会议报道(例2):汉语分词、标注、短语分析19980107-06-016-001/m意大利/ns总理/n普罗迪/nr4日/t说/v,/w欧洲/ns国家/n将/d采取/v行动/vn,/w共同/d对付/v库尔德/nr难民/n涌入/v问题/n。/nx{{{MP[0,0]PersonNP[1,3]TimeNP[4,4]VP[5,5]XP[6,6]LocationNP[7,7]NP[8,8]XP[9,9]VP[10,10]NP[11,11]XP[12,12]XP[13,13]VP[14,14]VP[17,17]NP[18,18]XP[19,19]}}}普罗迪/nr4日/t晚/Tg召开/v了/u由/p意/j外长/n、/w内政/n和/c国防部长/n参加/v的/u紧急/a会议/n,/w商讨/v应付/v库尔德/nr难民/n问题/n的/u对策/n。/nx{{{PersonNP[0,0]TimeNP[1,2]VP[3,3]XP[4,4]PP[5,5]NP[6,6]PostNP[7,7]XP[8,8]NP[9,9]XP[10,10]PostNP[11,11]VP[12,12]XP[13,13]AP[14,14]NP[15,15]XP[16,16]VP[17,17]VP[18,18]XP[22,22]NP[23,23]XP[24,24]}}}会前/t,/w普罗迪/nr说/v,“/w在/p经过/p最初/b的/u混乱/an后/f,/w欧洲/ns国家/n的/u行动/vn已经/d大大/d加强/v”,/w今后/t几/m天/q内/f将/d在/p此/r问题/n上/f进行/v系统/n合作/v。/nx{{{TimeNP[0,0]XP[1,1]PersonNP[2,2]VP[3,3]XP[4,4]PP[5,5]PP[6,6]AP[7,7]XP[8,8]NP[9,9]XP[10,10]XP[11,11]LocationNP[12,12]NP[13,13]XP[14,14]NP[15,15]XP[16,16]XP[17,17]VP[18,18]XP[19,19]TimeNP[20,20]MP[21,22]XP[23,23]XP[24,24]PP[25,25]RP[26,26]NP[27,27]XP[28,28]VP[29,29]NP[30,30]VP[31,31]XP[32,32]}}}会议报道(例2):命名实体与关系NamedEntitiesPersonList库尔德(occurrence:1/1/15;1/2/19;)普罗迪(occurrence:1/1/3;1/2/0;1/3/2;)/PersonListOrgList/OrgList/NamedEntitiesEntityRelationspost_of(意大利总理,普罗迪)/EntityRelations会议报道(例2)事件模板实例EventTemplateInstatncesConferenceInfoTime4日晚(1998-01)/TimeSpot意大利/SpotConverner普罗迪/ConvernerTitle由意外长、内政和国防部长参加的紧急会议/Title/ConferenceInfo/EventTemplateInstatnces例2会议信息结果会议时间Time4日晚(1998-01)会议地点Spot意大利召集人Convener姓名/团体名称Name普罗迪机构、职位Org/Post意大利总理会议名/标题Conf-Title由意外长、内政和国防部长参加的紧急会议会议信息自动提取?任务:收集历年《人民日报》中所有的相关信息以便于自己或他人的某些重要应用需求定义:自然地,有了使用一种能够自动完成这种工作的工具的需求——希望将历年《人民日报》的光盘数据交给这个(计算机软件)工具处理,然后得到一个包括了大量会议信息记录的数据库文件,以非常方便地使用标准的数据库系统来浏览和查询这些信息(必要时再调出原文作更细致的考察)。“XXX系统”这个软件工具就是一个典型的信息提取系统,或者更准确地说,“人民日报会议信息自动提取系统”。更多的信息提取任务:访问信息外交事件恐怖活动自然灾害……一种报刊信息加工“高级应用”系统结构香港日报:199819992000…湖南日报:199819992000…人民日报:199819992000…语料库信息提取会议信息访问信息外交事件恐怖活动自然灾害……内容索引库用户界面DBInterface错误匹配19980410-06-006-004目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议4月18日在智利召开。图为首都圣地亚哥市中心商业区过街通道旁竖起展览橱窗,向市民介绍参加首脑会议的美洲国家的历史文化。(新华社记者韩晓华摄)错误匹配EventTemplateInstatncesConferenceInfoTimeUNKNOWN/TimeSpot智利/SpotConvernerUNKNOWN/ConvernerTitle目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议/Title/ConferenceInfo/EventTemplateInstatnces!--多少还是有一些用吧!--(文本)信息提取的定义按比较正式的说法,信息提取(InformationExtraction)是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。-例如上面提到的会议信息;-或者从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等;-或从产品发布的新闻语料中提取某产品的各种感兴趣的指标,例如计算机网络交换器的协议类型、交换速率、端口数、软件管理方式等。信息提取涉及到两个方面的因素(1)用户指定感兴趣的信息特性,以及待分析的文本集(数据源);(2)系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。与相关信息处理技术存在实质差异:信息检索(InformationRetrieval):只是找出满足一定检索条件(query)的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。自动文摘、文本理解:自动文摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。MUC(MessageUnderstandingConferences)美国政府支持的一个专门致力于真实新闻文本理解的例会,至今已举行7届。除像一般的学术会议一样交流论文外,它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。其主要的评测项目是从新闻报道中提取特定的信息,填入某种数据库中。评测语料大都出自各大通讯社发布的新闻。对每一条消息,由专业人员人工给出标准答案,然后将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结果,其中最主要的指标是准确率、查全率等。当前,由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。MUC的IE任务定义5个典型的提取阶段:(MUC-7IETaskDefinitionVersion5.1)-NE(NamedEntities)-ER(EntityRelations)-TemplateScenario(EventStructures)-Coreference(Identitydescriptions)-TemplateMerger具体提取哪些NE,ER,Events以及做哪些Coref,Merger是任务相关的(每次MUC独立定义)。各个阶段的IE任务5个典型的提取阶段:-NE(NamedEntities):提取文本中相关的命名实体,包括人名、机构/公司名称的识别国家财政部/Org部长项怀诚/Person-ER(EntityRelations):提取命名实体之间的各种关系(事实)Post_of(部长,项怀诚),employee_of(国家财政部,项怀诚)-TemplateScenario(EventStructures):事件召开会议(Time…,Spot…,Convener…,Topic…)-Coreference(Identitydescriptions):代词、名词共指-TemplateMerger:相同事件的合并实体(Entities)识别:90%属性(Attributes)识别:80%(TE任务)事实(Facts)识别:70%(TR任务)事件(Events)识别:60%(ST任务)SRA公司的系统(MUC-7)RecallPrecisionF-ScoreTE86%87%86.76TR67%86%75.63ST42%65%50.792、理解IE:目标、问题和对策如何界定一门新的技术:它想做什么/能做什么、它不做什么(e.g.,OOPhypeintheearlier90s==limitedtostructuredtypes;GPismuchbetter,butlimitedtosourcecodereuse;…)范式转移(paradigmshift
本文标题:文本信息提取技术概述
链接地址:https://www.777doc.com/doc-4916331 .html