您好,欢迎访问三七文档
《异构系统统一检索平台实现技术研究》课题组时间:2015-03-1716:43[摘要]根据图书馆文献资源的复杂性和各图书馆运行不同类型应用系统的现状,本文简述了建立资源统一检索平台的重要性。同时,结合数字图书馆实际应用详细叙述了dILAS统一检索平台的实现机制、关键技术和实现过程。[关键词]资源整合统一检索Z39.50协议HTTP协议OpenURL异构系统统一检索平台实现技术研究与应用《异构系统统一检索平台实现技术研究》课题组深圳图书馆广东深圳518026[摘要]根据图书馆文献资源的复杂性和各图书馆运行不同类型应用系统的现状,本文简述了建立资源统一检索平台的重要性。同时,结合数字图书馆实际应用详细叙述了dILAS统一检索平台的实现机制、关键技术和实现过程。[关键词]资源整合统一检索Z39.50协议HTTP协议OpenURLResearchontheUnifiedSearchPlatformforDifferentSystemsanditsApplicationProjectGroupof“ImplementationoftheUnifiedSearchPlatformforDifferentSystem”Shenzhenlibrary,Shenzhen,Guangdong518026[Abstract]Accordingtothecomplexityofliteratureresourcesandtheactualityofdifferentapplicationsystemsinlibraries,thepaperintroducestheimportanceofbuildingtheunifiedsearchplatformfordifferentsystems.Inthemeanwhile,combiningwiththeapplicationindigitallibrary,itdilatesuponthearchitecture,keytechnologiesandtheimplementationofdILAS.[Keywords]Resourcesintegrating;Unifiedsearch;Z39.50protocol;HTTPprotocol;OpenURL1引言随着信息技术的发展,数字资源的建设与服务在图书馆起着举足轻重的作用。基于多种平台、结构各异的各种类型的数字资源成为了图书馆的重要收藏源。图书馆书目、题录、文摘、全文数据库、电子期刊数据库、电子图书数据库、网络数据库、自建的特色数据库等数字资源与传统的纸质馆藏文献共存,形成了丰富多样的数字图书馆馆藏体系。在多种异构资源并存的情况下,如何为读者提供便捷、有效的文献信息服务,是每个图书馆必须解决的问题。本课题旨在探索实用化的图书馆资源整合解决方案,包括图书馆的馆藏资源、联合目录资源、自建专题资源以及从数据库商购买的各种数字资源;建立异构系统统一检索平台,在多种不同的图书馆应用系统的基础上形成统一的服务体系。本课题需采用统一的检索界面和检索语言,除提供馆藏目录、目次、文摘、全文、图片等信息的检索外,还应与图书馆的各类应用系统相结合,如OPAC系统、馆际互借系统、原文传递服务系统、参考咨询系统、统一认证系统,为读者提供更便捷、更贴切、更人性化的服务。课题组首先对常见统一检索技术进行认真的分析研究,选择了两种统一检索技术构建dILAS统一检索平台,形成了实用化的统一检索体系。并将dILAS统一检索检索技术运用到了粤港澳图书目录检索、深圳市公共图书馆通借通还和深圳图书馆电子资源检索中,实现了图书馆常见资源的整合,达到了课题总体目标的要求。本课题得到了2006年度深圳市图书情报科研基金支持,组成了《异构系统统一检索平台实现技术研究》课题组,由秦格辉担任组长,组员包括王林、彭静、黄进、蔡晖、甘琳、梁奋东。2统一检索技术目前,在解决异构数据库统一检索方面,通常采用以下几种方法:(1)通过数据库接口软件与不同的数据库直接连接,如ODBC和JDBC等。在同时检索的数据库数量较少时,使用此技术可在一定程度上解决异构检索问题,但数据库达到一定数量时,处理速度很难保证。(2)通过对元数据的收集整理,安装在本地系统中,形成本地的大型元数据仓储。这种方式的优点是,经过收集转换后的元数据不仅格式统一,而且结构清晰,可以按照需求建立各种分类体系,或者按照更高级的知识本体对数据进行再组织和管理。但缺点是对于类型不同、分布广泛、更新频繁的数字资源,很难做到即时、准确地将数据收集齐全。(3)运用元搜索引擎的基本原理,利用数据库的Web客户端进行统一检索。这种方法的缺点在于需要对各个数据库的Web处理接口进行详尽分析,若其中某个数据库的Web处理接口发生改变则需重新设计,接口的稳定性较差。(4)利用专业的检索协议,如Z39.50协议,对异构数据库进行统一检索,这种技术的优点是能提供读者完整的目录资料,检索接口稳定,能快速实现资料传输,但缺点是要求掌握复杂的专业检索协议,而且要求所检索的资源必须提供对应的标准检索协议服务。现有的大部分跨库检索系统都是以这四种方法为基础设计的,每种技术都有自己的优势和局限性。根据图书馆资源的内容特性和发布特性,单纯选用其中一种跨库检索技术是不能完全满足资源的整合服务需求的,必须结合多种检索技术。对于具有Z39.50服务的数字资源,如图书馆馆藏资源、自建数字资源、联合目录资源等,都提供了标准的Z39.50服务,因此优先采用Z39.50网关整合检索技术;而对于那些仅提供Web检索服务的网络数据库,则采用基于HTTP协议的Web浏览器技术。通过这两种技术的紧密结合,基本上可以解决图书馆数字资源的整合检索问题。3dILAS统一检索平台的技术实现课题组在统一检技术实现中,选择了两种统一检索技术,构建了基于Z39.50协议的统一检索平台和基于HTTP协议的统一检索平台。3.1基于Z39.50协议的统一检索平台(Z-USP)Z-USP检索平台基于Unix/Linux/AIX/Solaris操作系统,通过简单的资源配置,实现多个远程Z39.50服务器的广播检索。Z-USP不仅能支持多种格式的元数据(CNMARC、USMARC、DC等)的检索,而且支持多种字符集的互转(UNICODE、GBK、BIG5、CCCII)。(1)资源配置Zgate.ini为Z-USP资源配置文件,配置参数包括基本控制参数及资源服务器参数:控制参数为平台的核心参数,其中指定了平台的连接上限、超时处理机制及一系列模版页面,如平台入口页面、检索页面、结果发布页面等,通过修改这些参数,可动态改变平台风格。资源服务器参数包括服务器名称、URL、IP、端口Port、检索数据库名称、数据库所用字符集、登录服务器ID、密码、进入图书馆OPAC的入口、详细数据模版页面等。通过修改这类参数可灵活增减检索服务器,而不需对检索程序作任何修改。(2)平台构成a.ZstartZstart为Z-USP的启动程序。Zstart通过读取资源配置文件Zgate.ini,形成动态的广播查询网页。b.ZgateZgate为Z-USP的客户接口部分,与客户间通过HTTP交换信息。Zgate每接到一个用户请求,根据其请求类型(ZAction)及SessionID确定连接的服务端Zcon。如果是新的连接,则将请求发给主Zcon服务,否则发给上次为其服务的Zcon服务进程,然后等待Zcon的处理结果。当Zgate接收到Zcon的回应消息后,则将其结果(已格式化的HTML文件)回传给浏览器。一次请求操作完成后,Zgate自动退出。c.ZconZcon为Z-USP的服务端,也是远程Z39.50服务的客户端。Zcon通过Zgate的“初始化消息Z_initAction”激活启动。每次均启动一个新的Zcon进程,并与远程的某个Z39.50服务器上的Zserver建立连接,该连接一直保持激活状态,直到Zgate发来中断请求为止。Zcon启动后,将等待从Zgate发来的后续操作请求,并将其转化为Z39.50协议要求的数据形式,传给远程的Z39.50服务器上的Zserver;当接收Zserver的回应消息后,则根据平台要求,形成需要的结果文件,回传给对应的客户端Zgate。(3)工作原理通过统一的检索界面接收用户检索请求(Zstart),分发给Z39.50的前端接口(Zgate),将其转化为Z39.50的标准请求(Zcon),传递给多个远程Z39.50服务器上的Zserver,然后等待返回结果。当接收到检索结果时,将结果变为统一格式发布。图1显示了对多个远程Z39.50服务器进行检索时的工作原理及实现过程。(4)平台特点a.基于类UNIX操作系统Z-USP基于类UNIX操作系统,各个模块之间的信息交互及一致性控制采用了IPC通讯方式,即通过共享内存(ShareMemory)、消息队列(MessageQueue)、信号灯(Semaphore)联合控制方法。共享内存记录当前活动的所有Z39.50连接信息(如任务ID、启动时间、最近活动时间、所使用的资源情况)及资源使用情况(如资源活动状态[忙/闲]、资源ID、被使用的检索服务PID等),用以保证HTTP请求的连续性。消息队列用来实现平台的客户端Zgate与服务端Zcon之间的请求/回答交互。信号灯用来控制多进程间的互斥操作。b.实时馆藏链接服务通过资源配置参数中的OPAC入口、详细数据模版页面及针对各馆配置的JavaScript脚本,动态生成书目的馆藏链接点,实时揭示文献的在馆情况。c.文献利用服务将实体馆藏信息展示给读者的同时,结合馆际互借(ILL)协议,提供文献借阅请求登记服务。对于电子文献,则通过文件传输协议FTP、E-Mail等,直接将电子原文传递到读者手中,实现原文传递服务。d.简繁数据一体化检索通过对远程数据库字符集及客户端语言环境(HTTP_ACCEPT_LANGUAGE)的分析,对检索条件进行预处理,以实现不同字符集之间的互检功能,目前支持互检的字符集有UNICODE、GBK/GB2312、BIG5、CCCII。3.2基于HTTP协议的统一检索平台(W-USP)W-USP检索平台基于Unix/Linux/AIX/Solaris操作系统,通过一系列资源配置参数,采用URL和Web页面分析技术,对各种电子数据库及专业网络数据库进行统一检索。W-USP支持多种用户验证方式(用户登陆、IP控制)及Cookie机制,支持多种字符集的互转(UNICODE、GBK、BIG5、CCCII)技术。(1)资源配置USP.ini为W-USP主配置文件,包括平台控制参数和网络数据库连接参数。控制参数中定义平台的连接上限、超时处理机制(SessionTimeOut、ServerTimeOut)、模版页面文件、数据库类型、检索浏览器、语种分类参数、学科分类参数、数据库类型参数;网络数据库参数,包括资源ID、资源名称、检索浏览器名称、资源来源、语种、URL、字符集、数据库标识、资源类型、学科分类、检索入口IP、资源检索脚本文件。通过修改这类参数可灵活增减检索数据库,对于增加同类型数据库,只需修改配置文件,而不需增加检索浏览器,更不需要对程序作任何修改。Script4***.ini为特定网络数据库的检索脚本,对于不同类型的数据库,都有其特有的检索脚本配置文件(如Script4CNKI.ini、Script4VIP等),内容包括该数据库的授权级别、授权访问方式、检索方式(即索引转换表)、登录脚本、检索脚本、详细数据提取脚本、原文下载脚本。如果某类数据库的检索方式发生变化,一般情况下,只需修改该文件中的脚本,勿需修改程序源码。(2)平台构成a.USPstartUSPstart为W-USP的启动程序,通过读取平台配置参数文件USP.ini,形成动态的电子资源统一检索网页。它与USP.ini结合起来,形成图书馆电子资源的门户。b.USPgateUSPgate为W-USP的客户接口部分,与客户间通过HTTP交换数据。每当US
本文标题:异构数据库检索
链接地址:https://www.777doc.com/doc-2429030 .html