您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于领域本体的Web信息抽取技术研究
扬州大学硕士学位论文基于领域本体的Web信息抽取技术研究姓名:毕蕾申请学位级别:硕士专业:计算机应用技术指导教师:沈洁20080501基于领域本体的Web信息抽取技术研究作者:毕蕾学位授予单位:扬州大学相似文献(10条)1.期刊论文李超.王兰成.LIChao.WANGcheng应用领域本体的Web信息知识集成研究-情报科学2007,25(3)缺少领域知识而进一步提高Web信息检索的质量是困难的,知识集成能够发挥重要作用.本文首先分析了目前Web用户信息利用的现状,研究领域本体与知识集成的方法,然后结合Web网页文档的特点及本体知识,给出一种基于领域本体的Web信息个性化集成方法,能够提高Web信息检索和用户利用的效率.2.学位论文孔凡壬基于本体的制造业领域Web信息集成2008随着Internet和Web技术的发展,已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息。通过Internet和Web技术,人们可以很容易地访问互联网上各种各样的数据。但由于Web信息是无结构化的,没有明确的语义,因此用户获得有用的信息越来越困难。目前的搜索引擎技术是基于关键词简单匹配,己经不能满足人们快速、准确得到信息的要求。为了能有效的利用Web上的信息资源,使Web能真正成为人们随时可用的知识库,人们提出了Web信息集成的概念,其目标是为用户提供完全透明的、智能的、统一的信息访问接口。本体最初用来描述事物的本质,后来随着人工智能的发展,本体被赋予新的定义。在Web信息集成方面,本体常用于将某个或多个特定领域的概念和术语规范化,为异构Web数据源集成提供统一的概念和术语标准,减少了因为Web数据源采用不同命名造成的语义冲突。在一定程度上解决语义异构的问题,进一步提高了系统的精确性,为用户提供更有价值的信息。本文作为广西科学研究与技术开发计划项目(编号:桂科攻0719001-11)的组成部分,以制造业中汽车领域Web信息为例,研发基于本体的汽车领域Web信息集成平台,全文以基于本体的Web信息集成这条线索进行研究,研究领域本体的构建、基于语义的Web信息抽取和查询。本文的主要工作和创新点如下:首先,本文使用OWLDL本体语言建立一个汽车资讯领域的本体模型。在分析Web网站的特征之后,根据网页可转换为DOM树结构的特点,利用汽车资讯本体关键词,进行页面区域定位,提取页面正文内容。其次,对提取的页面正文内容进行语义抽取,在传统的向量空间模型基础上结合领域本体,根据本体的层次结构特征对概念特征向量赋权重值,生成基于本体的概念特征向量,半自动化地生成本体知识库实例。利用本体,使概念特征向量具有更明确的语义,同时降低了向量模型维数,减少了计算的复杂度;将无结构化网页的文本变成具有语义的、机器可理解的结构化信息。然后,在已建立领域本体的基础上,本文设计了基于本体的查询推理算法,该算法以OWL本体为基础,利用描述逻辑的推理能力,对查询关键词进行概念扩展,再进行实例匹配。为把最符合的结果优先显示给用户,本文对扩展概念赋权重,设计一个基于本体的相关度排序算法,该算法比传统的向量空间模型相关度的算法效果要好,且效率要高。最后,根据研究的关键技术,本文实现了一个基于本体的汽车资讯领域Web信息集成平台原型。该平台使用了描述逻辑推理机提供的推理服务,实现了基于语义的Web信息抽取和查询推理,并对系统进行测试分析,给出了实验结果,表明这种方法的技术可行性,具有实际应用前景。3.学位论文史军强WEB信息集成技术研究2005WEB如同一个庞大的知识库,但其中的知识纷繁复杂、浩如烟海难以使用.WEB信息集成技术能够对凌乱的WEB页面进行分析、筛选、集成,为人们提供一个统一的知识视图和访问方式,从而实现对WEB资源的高效利用.目前的WEB信息集成技术还很不成熟,尤其是缺乏自动性和智能性.我们将领域本体引入到WEB集成中,基于领域本体在WEB信息集成的自动性和智能性方面作了一系列成功的尝试,并提出了完整的解决方案.我们回顾了信息集成系统的发展历程,总结了信息集成的基本原理和经典方法;阐述了WEB信息集成的功能要求和经典体系结构以及现有的各个功能部分的实现方案;通过与传统信息集成的对比,分析了WEB信息集成系统的新特点、新需求和关键技术.阐述了本体的基本理论、功能和表示方法,特别分析了利用领域本体进行知识表示、知识匹配的具体方法.为了实现信息集成系统及其构建过程的自动化和智能化,我们为其引入了领域本体.设计了基于领域本体的查询重写、查询分解、查询优化和查询结果处理等一系列的智能化查询处理方法;对于动态WEB数据源,采用类似于服务的描述和访问方式从而实现了动态数据源的集成.采用上述方法,设计并实现了一个原型系统.对该原型系统进行了充分的查询测试,在查准率、查全率、响应时间和跨数据源查询等方面均得到了不错的性能数据.这也证明了我们的基于本体的WEB信息集成技术的解决方案的正确性和有效性.4.期刊论文吴恒亮.WUHeng-liang基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例-图书馆论坛2010,30(3)以网易汽车资讯网页信息抽取为例,研究了基于领域本体的Web信息抽取技术的设计与实现.5.学位论文谢冬松基于Web的主题搜索应用技术研究2007进入新世纪以来,互联网络上的Web空间发展日益迅速,Web信息在很多方面得到了广泛的应用,人们对Web信息的领域本体相关性和领先性的要求越来越高。基于Web的主题搜索技术的发展和演进,已经成为有效开启互联网络知识宝库的关键之匙。Web信息搜索服务主要通过国内外一些成熟的搜索引擎站点提供。但是,目前被搜索引擎广泛采用的Web信息获取爬虫系统存在着明显的缺陷,缺陷是系统只能依据超链在Web空间里遍历公开被索引的Web页面,而对占据大部分Web空间的隐含型Web页面缺乏有效的获取手段。隐含型Web页面通常指那些由用户与站点Web信息数据库通过查询表单Form发生交互而动态产生的,带有明显领域主题色彩的Web页面。针对这一问题,本文展开了对隐含型Web页面信息获取技术的研究。在吸取国内外相关网络爬虫系统理论知识的基础上,新总结出了符合中文Web页面呈现规律的,领域相关数据源接口Form启发式发现与过滤原则,并基于Form领域本体相关性由其所包含表单项的领域相关度决定这一思想,提出了一个新的Form领域相关度自动识别算法。在此基础上,本论文设计并实现了一个具有隐含型Web信息获取能力的网络爬虫系统。其中包括系统的整体架构和功能模块划分,给出了系统分析、处理查询表单Fom和优选查询词汇的具体方法和算法。而后基于教育领域本体词汇库,实现了一个实验性的,面向教育领域隐含型Web信息获取的网络爬虫系统。通过对领域内多个站点的实际爬行测试,证明了系统的有效性。6.学位论文吴楠楠基于本体和服务发现的Web信息集成研究2007随着Web信息的爆炸式增长,如何构建Web信息集成系统来有效地组织和管理分布于世界各地海量的Web数据,从中有效的获取有用信息,成为人们最关注的问题。本文在深入分析和讨论Web信息集成系统的研究现状和发展趋势基础之上,提出了一个基于本体和服务发现的Web信息集成系统,并围绕系统中的几个主要关键技术,如:在领域本体构建和数据源的服务封装和服务描述以及基于服务发现的查询分解技术等方面进行了研究,其主要内容如下:1)改进了传统的虚拟集成方法,在Mediator和数据源之间增加了一个Web服务库层,包含了用Web服务技术封装的各数据源包装器的服务,并采用语义Web服务本体描述语言(OWL-S)对各数据源服务进行语义描述,形成了中介器和数据源的松散耦合结构,使得数据源访问更具透明性。2)在Mediator实现上,系统采用了带语义的动态服务发现机制实现LAV模式,满足了Web信息集成系统对数据源的动态扩展需求;在查询分解方面提出了一种语义匹配与选择算法,它采用语义相似度的计算,实现服务选择,完成查询分解。此外,系统使用基于领域本体构建全局和局部视图的策略,避免领域中概念的语义冲突。3)设计和实现了集成系统的领域本体、基于领域本体的数据源服务包装与语义描述和Mediator模块,包括查询处理、服务发现与选择策略等模块。并介绍了主要的本体结构和查询分解策略的实现情况。7.会议论文李贵.张兆鑫.李征宇.韩子洋WEB环境下基于领域本体的语义匹配技术研究2008随着本体技术研究的不断深入和WEB信息集成技术的快速发展,本体在WEB信息集成中应用越来越广泛.通过本体可以将某个或多个特定领域的概念和术语规范化,为WEB环境下异构数据源的集成提供统一的概念标准和术语标准,为WEB环境下领域或领域之间的应用组合提供便利,本文通过一种基于领域本体匹配算法,来解决WEB信息集成中的不同数据源的语义匹配问题.8.学位论文张松一种半自动构建本体的方法研究:基于主题层次树和常识知识库构建概念关系图2004目前,本体在各个领域得到了越来越广泛的使用,领域本体肩负着对领域知识进行建模的任务.许多本体研究者们都在努力探索半自动的本体构建方法以提高领域本体构建的效率.互联网上的信息,即Web信息具有海量、更新及时的特点,能够全面及时的反映领域知识.现有的一些能被计算机使用的常识知识库描述了通用、基本的知识,能帮助计算机对领域本体的两个基本组成元素——概念和关系进行识别.结合了这两者的优点,该文介绍了一种在常识知识库辅助下的由Web信息驱动的半自动领域本体构建方法.该方法首先通过统计聚类的方法从领域Web文档中获得蕴含领域知识的主题层次树.然后利用常识知识库的辅助,对主题层次树中蕴含的领域知识进行精化和完善,形成概念关系图.最后由知识工程师修整和优化概念关系图,形成领域本体.该文着重讨论的是在由Web信息形成的主题层次树的基础上,如何将知网和WordNet-SUMO映射库结合起来共同实现概念关系图的自动生成.这两个常识知识库对领域内的概念具有一定的识别能力,并且能够从中发掘出概念之间的关系.最终得到的概念关系图不仅保留了从Web信息中获取的领域信息,也包含了更加丰富的、由常识知识库得到的概念和关系,因此在知识的结构上更加完整,更接近领域本体.我们选择计算机硬件领域进行了实验,证明了方法的可行性和有效性.并且通过对实验数据的分析,评测了系统处理能力所依赖的三个要素:概念频度过滤中的阈值系数α、知网对概念的识别能力、WordNet对知网中未定义概念的识别能力.9.学位论文黄文利基于语义的Web信息抽取技术研究2009Web作为一个全球化信息空间,蕴含着巨大的潜在价值,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。尽管目前已对Web数据抽取技术进行了大量的研究工作,但是现有的技术缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确,难以适应各个网站的结构各异,形态多样的特点。这使得应用程序无法直接解析并利用Web上海量的信息,造成资源极大的浪费。针对上述问题,本文在结合知识密集型Web站点的数据特征的基础上,引入SuffixTree技术,根据不同网站的格式特征,提取出有效的数据模式,并利用基于语义的本体建立方法,借助Protégé工具建立领域本体,完成信息抽取过程中语义信息的扩展,消除了同类信息源Web页面的异构性。本文在研究了本体技术和半结构化Web信息抽取技术总体解决方案的基础上,着重研究了知识密集型Web站点的信息数据抽取的实现技术。通过对传统信息抽取方法的基本原理、技术及发展现状等方面的分析研究,提出了由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的模型,详细描述了该模型的设计思想和抽取流程。该系统首先获取指定的HTML格式的Web文档,根据基于栈结构与链式结构的HTML到XML文档转换算法,将Web页面转换为XML格式,从而解决了Web文档之间的异构问题;然后利用SuffixTree技术从该XML文档中提取数据模式;同时利用基于语义的本体建立方法,为这些信息
本文标题:基于领域本体的Web信息抽取技术研究
链接地址:https://www.777doc.com/doc-4874745 .html