您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于Web的信息抽取技术研究
西南交通大学硕士学位论文基于Web的信息抽取技术研究姓名:王旭东申请学位级别:硕士专业:计算机应用技术指导教师:朱焱20080501基于Web的信息抽取技术研究作者:王旭东学位授予单位:西南交通大学相似文献(10条)1.学位论文毕蕾基于领域本体的Web信息抽取技术研究2008随着WorldWideWeb(简称,Web)的迅速发展,网络上的信息与日俱增,互连网已成为人们获取信息的重要来源。而网络技术的迅猛发展为信息集成技术带来了新的问题和挑战,面对Internet上异质、异构数据的大量涌入,信息集成技术的研究呈现出前所未有的生命力。Web信息抽取技术是实现Web信息的集成一个有效途径。其主要目标是支持对Web上的多个数据源的查询,满足用户的查询需求。信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解还是不同的。在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别等深层理解问题。因此,信息抽取只能算是一种浅层的文本理解技术。而Web信息抽取在某些方面和Web信息检索类似,主要目的是方便用户获得所需信息为目的的;但两者又存在着很大的不同,如信息检索直接将检索到的Web相关网络资源直接提供给用户,Web信息抽取是将Web中各种不同格式表达的信息通过抽取技术转化为统一的信息表达方式。它为数据挖掘、新一代搜索引擎、面向专业领域的垂直搜索等提供了巨大的数据支持。信息抽取还可以看作是信息检索的进一步深化,研究指定信息的查找、理解和抽取,并将指定信息以适当的方式输出。信息抽取本身也是多种基本自然语言处理技术的综合应用,因此应用领域十分广泛。总之信息抽取的最终目的还是抽取出用户需要的信息供用户检索,查询和使用。本文主要做了以下几方面工作。1.基于领域本体的Web商品表格信息抽取。首先是提出以领域本体知识为指导,抽取表格信息表达为主的商品信息。由于市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。信息在网络上传播具有高时效,低成本等特性,因而越来越多的企业和个人都选择在网上发布商品信息,汽车,房产等信息都是鲜活的例子。这些信息本身多数都是以有一定的结构的信息如表格或类表格呈现,但是不同网站的表现形式却大相径庭。这里提出了以领域本体知识为指导,抽取表格信息表达为主的商品信息,自动集成不同网站的同类服务或产品的信息,用以实现专业检索的功能。以房产信息为例,首先利用本体及领域本体的相关知识,建立了一个房产信息领域的领域本体,用以指导信息抽取,并做了相关的实验。2.基于领域本体的Web商品文本信息抽取。由于Web上的部分商务信息不是以表格或类表格形式呈现的,而是以自由文本形式出现的,而这些信息是以上的系统的盲区。因此进而结合自由文本信息提取方法,对自由文本的提取做了一定的深入研究,同样应用了领域本体的知识在上一步的基础上对Web上自由文本形式存在的房产信息进行提取。3.有关领域本体的属性约简及文本相似度的计算的讨论。本文还讨论了有关对领域本体的属性约简方面的理论,以实现对Web信息抽取的优化。2.会议论文杨桢.赵燕平.朱东华基于正则表达式的信息抽取系统在国防技术监测中的应用2005从应用的角度提出了一种快速的基于正则表达式的半结构化信息抽取的方法。该方法通过对单个样本页面生成DOM树来完成抽取规则的自动生成,在实际大批量的抽取工作中能够避免多次生成页面DOM树。该方法采用了全部基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的定义和执行。通过Web页面的DOM树完成抽取规则的自动生成,抽取规则使用正则表达式的形式记录目标信息的页面特征,最终通过抽取规则的执行完成信息的抽取工作。并将这一新的方法应用在国防技术监测领域,获得最新的国防武器装备方面的信息。因此,该抽取系统具有较高的现实性与创新性,能够在一定程度上很好地支持国家重大国防和武器装备研制计划。3.学位论文肖明军多策略的Web信息采集系统的研究2004该文结合国家自然科学基金项目--具有突现智能的多主体模型及应用(70171052)和国家科技部项目--互联网竞争情报智能监测系统的研究,对基于多策略协作的Web信息采集系统进行了研究和实践.对于多策略的Web信息采集系统的研究,该文对系统所涉及到的基本技术:Web信息检索技术、Web信息抽取技术以及多Agent系统中多策略协作的规划问题进行了研究,并在这些工作的基础上,实现了一个基于多策略协作的Web信息采集系统:该文首先对Web信息检索的核心技术之一--网页的排序算法进行了研究.在HITS算法[Kleinberg99]的基础上,引入了网页内容与查询主题的相似度的影响因素,提出了一种基于超链接和网页内容的网页排序算法--SHITS(Similarity-HITS)算法.其次,该文对表格式Web页面的信息抽取进行了研究.针对已有的基于路径学习的信息抽取方法[于琨03,蔡智02]具有人工维护代价较大的缺点,提出了一种多策略联合的信息抽取方法--MSCIE(Multi-StrategyCombinationwebInformationExtraction).MSCIE由于采用了不同的学习策略,通过协作共同完成信息抽取任务,使得该方法能够以较小的人工维护代价、较高的准确率和召回率对大量Web站点的表格式网页进行信息抽取.对多Agent系统中策略协作学习的协作规划和协作效益问题,该文也进行了初步研究,从参与协作的Agent的功能合成的角度出发,提出了一种多策略协作的规划方法.该方法不需要对复杂任务进行分解,不仅能够对给定任务的协作求解的可行性进行判定,而且能够直接获得所有的协作求解方案.最后,则介绍了该文所实现的一个基于多策略协作的Web信息采集系统--互联网竞争情报智能监测系统CIS.net,该系统采用了多种策略的Web信息检索技术和信息抽取技术,能够对大量Web站点中的商品供求信息、厂商信息等企业生产相关的竞争情报信息进行检索和抽取.4.期刊论文胡国晴.李建华.HUGuo-qing.LIJian-hua一种自动抽取Web信息方法的设计与实现-计算机与现代化2009,(1)针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.5.学位论文王静基于GHMM的Web文本信息抽取技术研究与系统设计2008随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页文本的特殊性。另外,信息抽取也很少涉及语义的理解。目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含有更多其他信息的网页来说也并不合适。通过对网页的分析,Web文本信息通常包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型的状态转移过程中仅将单一词条属性作为观测输出特征,本文将多重属性(包括词条,版面以及格式属性)作为隐马尔可夫模型观测输出特征,从而引入广义隐马尔可夫模型。对于纯文本,传统的HMM是以单一语句为信息抽取的基本单位,其假设的状态转移序列(从左到右,然后从上到下)对含有多媒体的二维空间的网页来说也并不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法(VIPS)对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在前一时刻所处的状态,所以本文提出了基于二阶Markov链的改进的广义隐马尔可夫模型。另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名实体的识别,进而实现了从Web网页的结构及语义两方面对信息的抽取。本文通过对当前招聘网站上海量的招聘信息进行定题Web信息挖掘和信息抽取,开发了基于GHMM的Web文本的抽取系统WebIE。本文首先介绍了Web文本信息抽取技术的基本概念,然后通过对Web页面的分析,根据Web页面的特点并结合角色标注的实体识别技术,从Web页面结构和语义两方面,应用改进的GHMM模型对Web信息进行抽取。最后,通过实验说明改进的广义隐马尔可夫对于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。6.期刊论文刘其云Web信息抽取中XML在Agent技术中的应用-黑龙江科技信息2007,(21)目前的Web信息抽取技术中,基于内容方式又需要复杂的语言知识和自然语言处理技术.如何将基于结构方式和基于文本方式有效的结合起来克服各自的缺点.7.期刊论文孙阳WEB信息的抽取与集成研究-中国电子商务2009,(8)随着信息技术的快速发展,人们从网络上发布、获取信息也越来越多,但网络上浩大的信息量也使得人们从网络上抽取信息的难度也越来越大.如何从网络上海量的信息中找出对自己有用的信息,是人们关注的问题.在此背景下,本文设计了WEB信息抽取系统,提高了系统的灵活性,可以有效利用现有资源.8.学位论文李禹生面向Web信息的RDF生成技术研究与实现2005给信息技术以及人们日常生活带来了一场革命。然而,大多数现有Web信息的形式都是为人使用而设计构造的,计算机很难予以理解。而语义Web的目的就是试图构架一种新型Web,形成机器可理解的Web信息形式,从而实现高效使用Web信息的目的。自2000年秋季的W3C年会上,TimBerners-Lee宣布语义Web(SemanticWeb)为W3C的三大研究主题之一以来,对语义Web的研究与开发在全球范围内出现了一个新局面。从收集到的资料看,关于语义Web的研究领域众多。其中,传统Web信息形式的转换利用应该是较为迫切需要解决的一个问题。即,目前已经存在于Web上的浩瀚信息如何转换成为具有机器可理解的、具有语义的信息形式,以便于有效的得以使用。面对传统Web所承载着的海量且宝贵的丰富信息,鉴于传统Web信息发布多为HTML格式的特点,本文提出如何将嵌在HTML页中有效信息提取形成基于RDF格式信息的技术,并进行了具有针对性的实现。为此,本文首先分析了传统Web信息技术应用基础,包括,标记语言的演变过程及其特征,基于Web的信息检索需求以及存在的问题,Web信息抽取技术概述及其要点,信息表示的三要素——数据、结构和显示方式——之间的关系等内容。进而,本文引入语义Web与XML/RDF技术概念,包括语义Web体系结构与应用,扩展标记语言及其模式(XML/XMLSchema)的技术要点,资源描述框架(RDF)的意义、模型与语法,本体(Ontology)的意义及其与语义Web的关系。然后,本文介绍Web信息提取技术要点与RDF文档生成技术要点,包括基于HTML的Web信息提取技术,基于Web信息的元数据体系特征,基于Web信息的RDF文档生成技术。最后,本文介绍所完成的基于中华粮网的粮食购销信息抽取以及对应RDF文档生成实例。9.学位论文张净Web信息自动抽取技术的研究与实现2009随着Internet技术的不断发展及其应用的深入,Web已经发展成为一个巨大的、分布式的和共享的信息资源,可用信息正在呈指数级增长。目前Web数据大都以HTML的形式出现。由于H
本文标题:基于Web的信息抽取技术研究
链接地址:https://www.777doc.com/doc-4970913 .html