您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于RDF的数字图书馆信息检索技术研究
,南京(210098)E-mail:ydfu@hhu.edu.cn摘要:随着计算机和网络的高速发展,数字图书馆在如何对海量的信息资源进行有效地组织、管理和检索面临着严峻的挑战。传统的采用HTML、XML为置标语言的数字图书馆在实现智能浏览、提供个性化服务、语义互操作和信息检索等方面已无法满足用户的需要。针对这一问题,本文在DC基础上,提出了一套期刊论文元数据集,并实现了基于RDF的数字图书馆原型系统RDF4DL和信息资源的语义检索,提高了信息查询的查准率和查全率。关键字:数字图书馆,RDF,元数据,语义检索,SPARQL中图分类号:TP1811.引言近年来,随着计算机和网络的高速发展,互联网上的信息正以几何级的速度增加,信息可以由任何人、任何时间、任何地点自由的发布和获取,BBS和博客(Blog)的出现使得这种自由达到极致。因此,数字图书馆在如何对海量的信息资源进行有效地组织、管理和检索也面临着严峻的挑战。传统的采用HTML、XML为置标语言的数字图书馆在实现智能浏览、提供个性化服务、语义互操作和信息检索等方面已无法满足用户的需要。然而,随着语义Web概念的提出[1]和一系列语义Web技术的出现,尤其是RDF/RDFS的出现使得数字图书馆领域解决以上问题成为了可能。本文在着重研究数字图书馆中元数据方案的设计和RDF相关技术后,和同组同学史志更共同提出了基于RDF的数字图书馆体系结构,并实现了期刊论文元数据的用户可视化和语义检索。2.当前技术现状元数据方案的设计是构建数字图书馆的关键问题,信息检索是任何数字图书馆和Web应用都必须具有的基本功能,相关研究现状如下:2.1元数据研究的项目与成果CDWA[2](CategoriesfortheDescriptionofWorksofArt):CDWA主要用于博物馆的收藏,由美国J.PaulGettyTrust资助的AITF(theArtInformationTaskForce)项目开发,为提供和使用艺术信息的团体描述艺术作品,提供结构化工具。ResearchinMetadataforComputerModels[3]:该站点整理了一些关于计算机模型方面的元数据的资料:如通过web可以获得的模型,关于模型的研究和论文,元数据及编目的实例、思想和文章。该站点还提供了计算机模型元数据的内容标准。名人手稿馆元数据方案的设计和实现[4]:由上海图书馆历史文献中心和系统网络中心合作完成,目的是对名人手稿馆所涉及的所有资源进行有效的管理和利用。名人手稿数字图书馆的元数据方案是一种“混合”型元数据应用概要的形式,即借鉴OAIS、FRBR以及DCMI目前正在形成的AbstractModel作为方法论,采用以DC-Lib8为基础的“上海图书馆元数据方案”作为核心元数据,并从多种元数据标准、方案中“复用”元素,对所有元素的语义强调严格遵从,但在著录规范中对在每种特定资源类型中的具体含义进行补充说明,限定或扩展方式也强调尽可能采用现有的框架、体系和规范,并充分采用XMLSchema(METS10和)和RDFS(WSDL12)提供的结构限定方式,昀后再增加子元素或元素。2.2基于RDF的数字图书馆研究ARDF-basedDigitalLibrarySystem[5]:美国亚利桑那州大学图书馆的一个项目。这个系统是基于手工的RDF模型,使用Sesame[6]来进行内部信息资源的管理。文中以日刊交付项目(journaldeliveryproject)为背景,使用JavaServlet技术实现,并讨论了MARC与DC元数据的映射问题。HealthCyberMap[7]:是一个医学语义Web项目,基于修饰词的都柏林数据集描述RDF元数据。它使用Protégé-2000[8]来进行数据建模,并产生RDF元数据,并使用UMLSTab(Protégé的一个插件)来连接美国国家医学图书馆的知识资源数据库,显示和查询处理都是建立在Protégé和其插件上。RDF-BasedRepresentationandQueryofInformationinDigitalLibrary[9]:本文提出了一种融合谓词逻辑的声明性语言Query-RB(QueryofRDFBased)来进行语义映射,逻辑理解,把数据模式和数据查询结合在一起,然而文章却未提及数据检索的具体实现。一种基于RDF的科技论文搜索引擎的设计与实现[10]:文章提出一种基于RDF的科技论文搜索引擎的设计与实现方案。却并未提及查询的具体实现,查询结果没可视化显示。基于RDF的数字图书馆内容管理[11]:文中讨论了基于RDF的数字图书馆内容管理的关键技术、管理方式和实现机制,但没有涉及具体的实现技术。国内还有很多研究,但是多半是集中在元数据的RDF表示和资源描述的问题,目前在数字图书馆领域还没有具体的应用和实现。2.3语义Web环境下的信息检索信息检索是任何数字图书馆和Web应用都必须具有的基本功能,目前正在研究和使用的信息检索技术可以分为三类:全文检索、数据检索和语义检索(知识检索)。其中,全文检索是基于词语的机械匹配的,比较好地保证了检索的查全率,但是查准率不能令人满意;数据检索是基于一定的格式和结构对特定字段的检索,这是目前国内主要的期刊论文数据库所采用的主要检索方法,但是这种方法要求人工基于特定的字段对信息资源进行标识,检索的效果取决于标识方法的优劣以及用户对标识字段的理解;语义检索(SemanticRetrieval)则是基于知识的语义匹配,在提高检索的查准率和查全率方面都有很好的性能。实现语义检索系统目前主要有两种思路:一是基于受控词表实现语义检索,二是在语义Web环境下实现语义检索。鉴于语义Web的研究与发展正在得到越来越多的支持,所以语义Web环境下实现的语义检索研究正在成为主流,而本文正是基于语义Web环境下实现数字图书馆的信息检索,目前国内外的相关工作如下:OntoSeek[12]针对一个较窄的领域(比如电话黄页或产品目录),让用户详细地描述产品的各项特征。这种描述在一个领域本体的支持下,被交互地翻译成一个用概念图[13]表示的语义模型,所有产品的这种语义描述随后被存储在一个中央数据库中。在查询时,用户根据这种语义描述来描述所需要产品的特征。之后,OntoSeek系统通过比较数据库中的所有产品的语义表示和用户查询的语义表示,计算出它们之间的语义匹配度,排序并返回用户结果。SHOE[14]假设Web网页的语义信息被标注在网页内部并且这些语义信息是通过本体定义的。SHOE随后收集和下载网页并过滤出其中的语义信息,再将这些语义信息存储在一个知识库中。用户通过从本体中选择概念和关系来表达其信息需求。一旦用户基于本体的查询,这个查询被提交给知识库来查找相关的网页和信息。因为主要依赖于知识库来完成查询,SHOE的方法可以被看作是一种形式化的语义搜索。为了和传统的Web搜索有所结合,当知识库的查询不能返回有效的答案时,SHOE系统会自动把用户的基于本体的形式化查询转换为一个关键词查询,并把该查询提交给传统的Web搜索引擎去搜索出相关的网页。此外还有OWLIR[15]、DLDB[16]、Instancestore[17]等工具。国内对语义检索的研究还处于起步阶段,在数字图书馆领域的语义检索主要还集中在理论研究阶段,基本上还没有实现的原型系统。3.基于RDF的数字图书馆元数据方案设计元数据提供数字图书馆的语义基础。数字图书馆的基本逻辑构成是“资源”,资源是可以被标识的任何东西,可以是物理的实体,也可以是数字对象或者虚拟的复合对象或对象集合。元数据提供了对资源的各种属性的描述,可以看成是“资源”的替代品。数字图书馆通过管理元数据而管理资源,并提供绝大多数功能。因此元数据通过定义数字图书馆中资源的信息结构,以及定义由数字对象构成的资源库的组织结构,决定着的数字图书馆的信息组织和利用方式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具,并承担了向数字图书馆中高层协议提供标准数据访问接口的功能,同时元数据还是实现跨资源库语义互操作的基础。因此,元数据方案的设计是构建数字图书馆的关键问题。3.1数字图书馆元数据标准目前应用于数字图书馆领域中的主流元数据主要有DublinCore(都柏林核心,简称DC)、IEEELOM(IEEELearningObjectMetadata,学习对象元数据)和MARC(MachineReadableCataloging,机读目录)三种,其他元数据大多是在这三种的基础上或复用、或扩展而形成的。所以本文只针对这三种元数据描述的资源信息进行研究。3.1.1IEEELOMIEEELOM是由IEEE学习技术标准委员会学习对象元数据工作组建立,用以完整、充分地揭示包括多媒体内容、教育内容、教育软件和工具、参考资料等学习对象的属性特征,如类型、作者、所有者、发行类型、格式、应用环境、教学要求等。3.1.2DublinCoreDublinCore是由网络和数字图书馆等多个领域专家参与的、DCMI[18]负责维护的、提供描述网络信息资源的一种元数据标准,它定义了一个所有Web资源都应遵循的通用的核心标准,标准内容较少,也比较通用,因此,得到了其它相关标准的广泛的支持。自从1995年制定以来,DC已经发展成为昀重要的元数据标准,有些Web文档已经开始使用DC进行描述。DC元素据15个标记元素如表1所示。“机器可读编目信息”,是图书馆用来交换、处理编目信息的通讯标准。它提供了一个用于计算机交换、应用、解释图书、情报编目信息的一种协议,MARC是被广泛用于图书馆书目记录数据,是目前图书馆描述、存储、交换、处理以及检索信息的基础,缺点是结构复杂、著录项目过于繁琐、要求专业性强。3.2RDFRDF(ResourceDescriptionFramework,资源描述框架)[19]是W3C提出的用于描述Web资源元数据的标准模型和语言,是语义Web七层结构中的重要组成部分,它是一个对结构化的元数据进行数据交换和重用的体系框架,为元数据提供了一个可操作的载体。RDF通过资源属性及其相应值来描述资源,是一种能同时被人和计算机理解的领域无关的简单而强大的数据模型。从数据本质的角度RDF图本质上是一个三元组的集合。一个三元组由主语(subject)、谓语(predicate)和宾语(object)组成。其中,主语对应所要描述的资源,谓语对应资源的属性,宾语对应属性的值。每个三元组对应RDF图中的一条弧,且这个弧的起始节点和终止节点分别对应三元组的主语和宾语。RDF采用XML作为交换和处理元数据的通用语法结构体系,是一个XML语言的应用,为XML加入结构化约束来提供明确的表达语义的方法。虽然XML同样可以描述资源,但是由于XML的描述元数据的格式复杂嵌套,所以比较难于控制,对元数据的使用效率要远低于RDF。当前RDF已经成为语义Web上表示和交换信息的标准,人们已经在实际系统中利用RDF来处理信息[20]。3.3元数据方案设计元数据方案是数字图书馆需求分析和系统设计时需要首先考虑的因素,元数据方案基本上决定了系统的整个架构,好的元数据方案也会为后面的信息检索奠定良好的基础。目前,,如OAIS[21]所提供的信息系统参考模型在数字资源的永久保存方面提供了一个思考框架,国家图书馆已经在它的基础上有一些元数据方案的探索;FRBR[22]对于资源对象生命周期提供了一个参考模型,据此提出的元数据方案可用于完整描述资
本文标题:基于RDF的数字图书馆信息检索技术研究
链接地址:https://www.777doc.com/doc-46737 .html