您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 基于web的数据挖掘的方法综述
Web中实体关系分析与面向实体的社会网络分析研究邸楠北京大学网络实验室摘要:以实体为核心的Web内容挖掘可以分为三个层次:实体层次—提取、分析单个实体及其属性—、实体关系层次—提取、分析多个实体间的关系的—和基于实体的社会网络分析。本文对后面两个部分的相关研究进行了总结,描述了近年来该领域的研究路线,分析了其中用到的主要方法,并提出了几个该领域亟待解决的问题。关键字:实体关系、社会网络分析、综述YYY目录1.前言.................................................................................................................32.Web中的实体关系发现................................................................................42.1.关系发现研究概况..................................................................................42.2.先确定关系类型的方法..........................................................................72.2.1.有监督的学习方法...........................................................................72.2.2.半监督的学习方法方法...................................................................82.3.后确定关系类型的方法........................................................................142.4.实体关系发现的难点............................................................................152.4.1.实体关系对的确定.........................................................................152.4.2.实体关系描述文本的筛选与扩展.................................................152.4.3.实体关系对的验证.........................................................................162.4.4.实体关系体系的发现.....................................................................163.Web中的社会网络分析..............................................................................173.1.以网页为研究对象的社会网络分析....................................................173.1.1.基于HITS的技术..........................................................................183.1.2.基于二分有向图的技术.................................................................203.1.3.基于流量的技术.............................................................................203.1.4.几种技术的总结.............................................................................213.2.以实体为研究对象的社会网络分析....................................................213.2.1.以实体为核心的社会网络构建.....................................................223.2.2.以实体为核心的社会网络分析方法.............................................233.3.基于Web的社会网络分析主要难点问题..........................................254.参考文献.......................................................................................................271.前言随着计算机的广泛应用与互联网的高速发展,网络信息不断爆炸式地增长。信息的过量增长带来一定负面影响:面对大规模的信息,用户难以找到自己真正的需求。如何利用一些自动化的方法帮助人们在海量信息源中迅速找到真正需要的信息,现有的搜索引擎已经不能满足用户的要求。下面就是一个例子:例如对于“丁磊”这个名字来说,叫这个名字的人很多,新闻报道中也会很常见,通过其服务的机构以及职务来分析,会发现网易公司有丁磊,而上海通用汽车公司也有一个丁磊,并且网易公司的丁磊的任职包括:董事会主席、总裁、总经理、CEO、董事等等。除了了解“丁磊”的个人情况外,发现他与“人物”、“机构”、“事件”等其他命名实体地关系。“命名实体关系标注”时还可以进行“机构名+职务”、“机构+人名”等组合搜索,获取检索机构和特定职务的历任信息等。能够极大的提高情报分析、猎头行业的工作效率,因此具有很高的应用前景和商业价值。基于实体对Web的分析挖掘已成为Web挖掘领域研究开发的焦点,信息抽取(InformationExtraction)正是在这种背景下产生与发展起来。信息抽取系统的主要功能是从文本中抽取出特定的事实信息(FactualInformation)[1]。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。近十年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,涉及到了深层次的语言理解、篇章分析与推理、多语言文本处理、WEB信息抽取、名实体识别等自然语言研究领域。通过系统化、大规模地定量研究和评测推动了自然语言处理研究的发展,促进了自然语言处理研究与应用的紧密结合。近年来,信息抽取的处理对象也扩展到了语音、图像、视频等其他媒体类型的数据。可以说,信息抽取已成为当前自然语言处理和相关领域的研究热点。信息抽取技术对搜索引擎、网络信息过滤和信息安全、自动问答系统、机器翻译、文本挖掘、企业智能信息系统等许多应用领域具有至关重要的作用[2][3]。在信息抽取领域中,命名实体(NamedEntity)是文本中基本的信息元素,是正确理解文本的基础[3]。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。关系(Relation)被看作两个实体在一段时间或空间范围内的某种联系[4],在信息抽取研究中关系的发现在事件的侦测与描述中起着关键的作用。所以命名实体之间语义关系的抽取是信息抽取领域的一项重要的基础性研究现如今,命名实体语义关系抽取技术在很多专业领域中有着更高的要求和更迫切的需求。在教育自动化、公司人事管理等领域都期待着高质量的专业领域的命名实体语义关系抽取技术。面向专业领域的信息抽取技术作为未来高层次、高效率的专业领域信息处理技术的基础具有重大研究价值。而作为信息抽取的核心任务之一的关系抽取在专业领域中的研究同样极具价值。当前,虽然有一些有指导或弱有导的语义关系抽取方法可以移植到专业领域,但是这些方法的抽取规则、关系种子、训练语料库都要重新构造,从而耗费大量的时间和人力。而目前效率较高的无指导的命名实体语义关系抽取方法却只适用于一般领域,在特定的专业领域中却难以满足用户的需求。所以寻求一种在专业领域中高效的命名实体语义关系抽取方案具有重大意义。2.Web中的实体关系发现2.1.关系发现研究概况从20世纪80年代末开始,由于信息量的迅速增长,人们对信息处理的质量和速度的要求也日益增高,信息抽取也因此成为自然语言理解和自然语言处理的一个热点问题,美国纽约大学开展的LinguisticString项目[5]开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式(InformationFormats),这种信息格式实际上就是现在我们所说的模板1(Templates)。另一个相关的长期项目是由耶鲁大学RogerSchank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生GeraldDeJong设计实现的FRUMP系统[6]是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动(top-down,脚本)与数据驱动(bottom-up,输入文本)相结合的处理方法。这种方法被后来的许多信息抽取系统采用。特别是由美国国防高级研究计划署(theDefenseAdvancedResearchProjectsAgency,DARPA)资助的消息理解系列会议(MessageUnderstandingConference,MUC)[7]的召开,使得各国学者有了一个公开、公正、统一的研究平台,从而可以在一致的条件下对比各自的系统,总结成功的经验,探讨解决问题的方法,因此信息提取技术在其影响下得到了迅速的发展。MUC是信息提取方面的一个国际性的评测会议,与TREC类似,它也是典型的评测驱动会议。无庸置疑,评测是技术发展的动力,各个参赛单位为了取得好的评测结果,千方百计地发掘和利用新技术,从而在整体上推动了信息提取技术的不断进步[8]。从1987年开始到1998年,MUC会议共举行了七次,在1998年的第七届MUC会议上,首次将关系识别作为单独的一个模板任务提出来,这极大地推动了关系抽取研究的发展[8]。随着MUC会议的停止,从2000年开始由美国标准技术研究院组织的自动内容抽取评测会议(theAutomaticContentExtraction.ACE)接过了MUC的任务,将信息抽取的研究推到了一个新的高度。ACE的目标是为了达到发展自动内容抽取的技术以支持人类语言文本方式的自动处理。ACE技术的研究发展目标是支持不同方式的分类、过滤和选择,通过抽取来呈现文本的内容,因此ACE需要发展自动检测和表现语言的意义的技术。自ACE2000开始到ACE2006一共进行了7次评测,其基本任务定义了实体检测和识别、数值检测和识别、时间检测和识别、关系检测和识别、事件检测和识别[10]。该会议将继续开展下去,对于信息抽取的未来发展将
本文标题:基于web的数据挖掘的方法综述
链接地址:https://www.777doc.com/doc-6105459 .html