您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 面向关联数据的语义数字图书馆资源描述与组织框架设计与实现
中国图书馆学报JournalofLibraryScienceinChina1面向关联数据的语义数字图书馆资源描述与组织框架设计与实现欧石燕摘要本文提出了一个面向关联数据的语义数字图书馆资源描述与组织框架,该框架具有四个层次:元数据层、本体层、关联数据层和应用层,其核心是RDF语义元数据的构建与关联。以“图书、情报与档案学”领域的数据为例对该框架进行了实现,实现的重点是在本体层和关联数据层,包括相关本体的设计、普通元数据到语义元数据的自动转换、不同数据集间RDF语义链接的建立、关联数据的发布等。图5。参考文献46。关键词语义数字图书馆关联数据元数据本体分类号G250DesignandImplementationofaLinkedData-OrientedFrameworkforResourceDescriptionandOrganizationinSemanticDigitalLibrariesOuShiyanABSTRACTInthispaper,theauthorproposedalinkeddata-orientedframeworkforresourcedescriptionandorganizationinsemanticdigitallibraries,whichincludesfourlayers--metadatalayer,ontologylayer,linkeddatalayerandapplicationlayer.ThecoreoftheframeworkistheconstructionandlinkingofRDF-basedsemanticmetadata.Usingthedatafromthedomainof“Library,Information&Archives”asanexample,theauthorfocusedontheontologylayerandlinkeddatalayertoimplementtheframework,whichinvolvesthedesignofrelatedontologies,automatictransformationoftraditionalmetadataintosemanticmetadata,constructionofRDFsemanticlinksamongdifferentdatasets,andpublishingoflinkeddataetc.Infuturework,theauthorwillimplementtheframeworkattheapplicationlayer,inwhichthekeypointisquestionansweringoverlinkeddata.5figs.46refs.KEYWORDSSemanticdigitallibraries.Linkeddata.Metadata.Ontology.1.引言自上个世纪90年代以来,数字图书馆这一综合研究领域在世界各地蓬勃兴起并取得了巨大发展。随着数字图书馆基础设施建设和遗留资源数字化的基本告一段落,研究人员和从业者更多地开始关注如何保证在分布式的异构数字环境中,人们能够准确全面地获得所需的信息与知识,这涉及到当前数字图书馆关于资源组织和利用的几个难题:(1)信息在局部范围得到组织但在整体上并不相互联系,形成了许多分散独立的信息孤岛;(2)无法对不同的信息系统实现统一的访问;(3)无法通过机器对信息进行语义层面的操作。进入本世纪以来,互联网技术得到了突破性进展,以语义网为核心的各种技术与标准的出现正在逐步影响并改变着我们当前的Web以及基于Web的各种应用,这其中也包括数字图书馆。将语义网技术应用到数字图书馆中是国内外计算机和图情界近年来的研究热点。较早的研究主要偏重于采用RDF、OWL、SKOS等技术分别解决数字图书馆中的某些局部问题,如元数据、知识组织、信息检索等,当前的研究则更致力于探索如何利用语义网技术对数字图书馆中资源的描述、组织和检索本文系国家社科基金项目“基于SOA架构的术语注册和服务系统构建与应用研究”(编号:11BT0023)和教育部人文社科基金项目“数据关联的语义数字图书馆研究”(编号:10YJA870014)的研究成果之一。通讯作者:欧石燕,Email:oushiyan@nju.edu.cn2012-09-2811:43中国图书馆学报JournalofLibraryScienceinChina2等问题进行一揽子的解决,打造具有完全语义功能的语义数字图书馆,比较有代表性的项目有三个:JeromeDL[1]、SIMILE[2]和Bricks[3]。所谓语义数字图书馆,是指以机器可读可理解的RDF语言为介质,能够集成基于不同元数据的各种信息,支持与其他数字图书馆或信息系统之间在通信层面或元数据层面的互操作,并提供具有语义功能的浏览和检索服务的数字图书馆[4]。当前的几个语义数字图书馆原型系统(如JeromeDL)虽然实现了元数据的语义化描述,解决了元数据语义互操作问题,并支持语义检索,但是它们并没有真正成为语义网的一部分。首先人们对图书馆数据的访问需要通过Web应用程序接口(即API)来进行,不同的数字图书馆系统拥有各自不同的访问界面,它们之间的互操作往往需要采用某种机制才能实现(如OAI-PMH①),因此无法在不同的数据集间建立无缝连接,从而象浏览Web文档一样通过链接的URIs地址在分布式的结构化数据之间进行冲浪。其次,虽然语义数字图书馆在一定程度上解决了语义互操作问题,但是这种互操作主要是针对图书馆的文献信息资源,还无法在不同的知识单元(如文献资源、知识组织资源等)之间建立显性链接来揭示它们之间隐含的各种相关关系,因此不同的知识单元是分散而独立地存在着。此外,即使在同一知识单元内部,也无法有效揭示资源之间的深层次关系,如相同、相关的资源等。关联数据的提出为上述问题的解决提供了现实和可能。关联数据是由语义网创始人伯纳斯.李于2006年7月首次提出的一个概念,是指在语义网上发布、共享、连接各类数据、信息和知识的一种方式[5]。它以HTTP协议可参引的URI地址命名所有资源,以RDF语言语义化地描述资源,以RDF链接指向相关资源并揭示资源间的语义关系,是一种推荐的语义网最佳实践。2007年至今,许多机构和研究者已经开展了众多的关联数据项目,如DBPedia②、DBLPBibliography③、GeoNames④等,将不同领域的结构化数据发布到网络上进行关联和共享,构成数据之网。虽然当前在数字图书馆中还没能实现全方位的数据关联与发布,但是已经有了关联数据的局部应用,有两个代表性案例:一个是瑞典国家图书馆实现书目数据的关联[6],另一个是美国国会图书馆将其主题词表LCSH进行语义化描述后以关联数据的形式发布到Web上[7]。但是这两个项目都没有对关联数据之上的应用(如浏览和检索)做进一步的探索。本研究的目的是构建一个数据关联的语义数字图书馆原型,实现对数字图书馆各种资源的语义化描述和语义检索以及全方位的数据关联,其核心是基于本体的元数据语义化转换和关联数据的构建与发布。该数字图书馆将具有以下功能和特点:(1)实现文献资源的语义化描述和不同元数据类型间的语义互操作;(2)实现图书馆知识组织资源(如受控词表、规范档等)的语义化描述;(3)实现图书馆不同知识单元间资源的关联,使图书馆的资源组织由传统的基于主题的层次化组织结构扩展到多方位、多层次的网络状组织结构;(4)支持在网络上通过RDF链接浏览语义相关的资源,实现不同信息系统间或不同数据集合间信息的无缝过渡;(5)实现对数字图书馆资源的统一检索和访问;(6)支持语义检索和自然语言检索。2.相关研究综述本文所述的研究涉及数字图书馆和语义网领域的两个热门主题“语义数字图书馆”和“关联数据”。语义数字图书馆是由爱尔兰DERI研究所(DigitalEnterpriseResearchInstitute)的Kruk等人首先提出的一个概念[4],是建立在传统数字图书馆、语义网、社会网络和人机交互研究之上的一个新①全称OpenArchivesInitiativeProtocolforMetadataHarvesting,用于收割基于XML的描述性元数据记录,实现不同信息系统间互操作的协议标准。②该项目将维基百科中的数据作为关联数据在Web上发布,见。③该项目将80万个科学论文书目数据作为关联数据在Web上发布,见。④该项目将全世界超过650万个地名信息作为关联数据在Web上发布,见。中国图书馆学报JournalofLibraryScienceinChina3事物。语义数字图书馆系统将传统图书馆中的知识组织系统与语义网和社会网络技术相结合,支持对信息的语义标注和与其它信息系统间的语义互操作,并允许用户参与到信息标注和知识共享中来,使信息发现变得更加容易。相对于普通数字图书馆,语义数字图书馆有两个主要优点:(1)提供了对信息空间新的搜索范式,如基于本体的搜索/分面搜索;(2)提供了数据层面的互操作,如集成各种不同来源的元数据,在不同的数字图书馆系统之间建立连接[4]。目前具有代表性的语义数字图书馆项目有JeromeDL、SIMILE和Bricks。JeromeDL是波兰Gdansk理工大学图书馆与爱尔兰DERI研究所合作进行的一个社会语义数字图书馆项目,它采用一个共享的书目本体MarcOnt作为中介实现不同类型元数据(即DublinCore、BibTeX和MARC21)的语义化转换以及它们之间的互操作,从而在同一个数字图书馆内部实现对各种资源的语义搜索和浏览[8]。SIMILE是麻省理工学院、万维网联盟(W3C)和HP实验室联合研制的一个数字图书馆项目,其目的是支持和扩展DSpace数字资源管理系统,提高它对分布存储在不同地点和环境中的各类数字资产、概念体系(包括词表和本体等)、元数据之间语义互操作的支持[9]。通过对RDF和语义网技术的应用,SIMILE提供了一系列用于转换、浏览、检索和映射异质元数据的工具,首先针对不同类型的元数据构建元数据本体并在它们之间建立映射关系,然后依据各个本体对相应的元数据类型进行语义化转换,最后通过元数据本体间的映射关系实现不同元数据间的互操作[9]。此外,SMILE还将不同类型的数据(包括数字资产的元数据、OCLC人名规范档、维基百科中的人物生平信息)进行了关联,可以看作是关联数据的雏形;但是因为没有采用可参引的HTTPURI地址将关联的数据在Web上发布,还不能算作是真正的关联数据[9]。BRICKS是一个欧盟研究项目,目的是建立分布式文化遗产数字图书馆网络基础结构并实现互操作[10]。Bricks与SMILE实现元数据语义互操作的方法大致相同,都是采用元数据本体间相互映射的方法,但是Bricks是采用OAI-PMH协议①在不同数字图书馆系统之间实现互操作,而SIMILE则是在同一数字图书馆系统内部实现不同元数据间的互操作。本文的研究属于关联数据在数字图书馆领域的应用。关联数据自提出以来受到了计算机和信息领域的极大关注,许多个人和组织机构采用关联数据作为发布数据的一种途径,从而构成了一个称之为数据之网的全球数据空间。数据之网的出现源自于语义网研究社区的努力,特别是得益于万维网联盟(W3C)的关联开放数据项目(LinkingOpenData)。至2011年8月,以关联数据形式在万维网上发布的数据集,即构成“关联开放数据云(LinkingOpenDataCloud)”的数据集,已达295个,其中图书馆及其相关领域的关联数据集有87个,约占整个数据云的9.33%[11]。图书馆
本文标题:面向关联数据的语义数字图书馆资源描述与组织框架设计与实现
链接地址:https://www.777doc.com/doc-3426273 .html