您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 基于OAI和METS远程收集数据的
基于OAI和METS远程收集数据的方法和流程赵阳zhaoyang@lib.tsinghua.edu.cn清华大学图书馆学位论文项目组2007.09.27南京主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW“CALIS学位论文数据库”服务体系架构参建馆本地系统CALIS数字图书馆门户计费中心认证中心资源调度中心CALIS-OID解析中心纸本扫描加工CALIS中心学位论文提交与发布系统DRM阅读器读者DRM数字版权保护浏览器CALIS高校学位论文数据库分中心CALIS学位论文参建馆本地系统涉及到三个层面:本馆层面满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求符合相关标准、规范开放架构CALIS子项目(分中心)层面纳入“CALIS高校学位论文数据库”服务体系CALIS中心层面纳入“CALIS高等教育数字图书馆”服务体系学位论文参建馆本地系统结构图Web检索全文检索引擎专业编目文档标准化论文回溯发布管理论文元数据库论文(PDF)对象库服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM版权保护系统(PDF)纸本扫描加工系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析学位论文参建馆本地系统结构图12345678读者浏览器DRM阅读器Web审核Web提交参建馆本地系统与CALIS子项目中心的互操作关系服务接口层安全通信层MQ服务器METS接口模块OAI收割服务器CALIS-OID访问数字对象请求中心论文元数据仓库论文(前16页)对象仓库仓储层服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析12345678参建馆CALIS学位论文分中心学位论文提交与发布系统与CALIS中心的互操作关系CALIS中心CALIS-OID解析中心认证中心计费中心资源调度中心CALIS数字图书馆服务门户服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRCOpenURL接口对象安全访问接口CALIS-OID本地解析12345678参建馆本地系统升级的主要接口OAI和METS数据收割接口,实现元数据和对象数据的收集;CALIS_OID解析接口,实现数字对象的解析和获取;数字对象安全下载接口,实现数字对象的安全下载;CALISODL接口,实现CADLIS各系统之间的统一检索;CADLIS认证/计费接口,实现认证计费。系统接口子项目学位论文参建馆学位论文CADLIS门户网站,统一检索系统ODL-SearchyODL-BrowseyODL-RecentyODL-RecommendyCADLIS解析中心CALIS-OID解析接口y子项目资源调度系统Link源注册yOpenURL接口yLink目标注册yLCRC接口y数据对象交换OAI接口yyMETS接口yy数字对象获取数字对象安全下载接口yyCADLIS认证中心认证接口yy用户管理功能扩展yyCADLIS计费中心计费接口yy信用核查接口y对帐接口yy本地系统升级的主要接口主要内容:“CALIS学位论文全文数据库”服务体系架构基于OAI和METS数据收割模式基于OAI和METS数据收割实施步骤NOW基于OAI和METS数据收割模式模式一:OAI-DP/METS-DP+MQ联动模式二:仅采用OAI-DP模式一:OAI-DP/METS-DP+MQ联动---收割方式(1)实时自动收割元数据通过OAI-DP发布。OAI-DP所发布出来的OAIRecord采用“CALISOAIRecordV1.0”数据格式;本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALISMETSRecordV1.0”;元数据和数字对象之间的关系通过OAIRecord中的CALIS_OBJ:objInfo子元素所包含的MetaID进行关联;学位论文中心系统接收到OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;模式一:OAI-DP/METS-DP+MQ联动---收割方式(2)手动收割用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAIRecord数据的XML文件,该文件称为OAI记录文件,数据格式为“CALISOAIRecordV1.0”;用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METSRecord数据的XML文件,该文件称为METS记录文件,数据格式记为“CALISMETSRecordV1.0”;本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;模式一:OAI-DP/METS-DP+MQ联动---数据格式(元数据)record……/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadataCALIS_OBJ:objInfo……/CALIS_OBJ:objInfo/aboutCALISRECORDV1.0用于维护元数据与METS一致的四项信息模式一:OAI-DP/METS-DP+MQ联动---数据格式(对象数据)模式一:OAI-DP/METS-DP+MQ联动---实际收割测试2006.03月---2006.07月学位论文和特色库项目验收前,采用模式一方式收割学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作;在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割;参加测试的学校:TPI:中国人民大学,中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院模式一:OAI-DP/METS-DP+MQ联动---实际收割测试收割结果实时自动收割:本地系统和数据都存在问题中心系统对本地系统的自动收割难以有效进行手工收割:本地系统能顺利提交数据但所上传的数据仍存在问题本地系统存在的主要问题系统bugs数据问题模式一:OAI-DP/METS-DP+MQ联动---实际收割测试(系统bugs)OAI-DP本身的bugs比较容易发现。但本地管理员仍缺乏有效易用的工具;METS-DP本身的bug问题以及MQ配置问题难以由本地管理员自行发现;OAI-DP+METS-DP+MQ联动问题厂商技术人员和本地管理员都难以测试和发现;其他问题著录和导入工具不完备;本地DP所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题;METS包传输丢包问题;模式一:OAI-DP/METS-DP+MQ联动---实际收割测试(数据问题)数据不符合schema导出的OAI和METS包文件,其数据不符合schema数据必备性问题很多数据项缺乏,不符合子项目组的数据规范性要求CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致)OAI记录中的about内容不合逻辑如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。METS包中的时间戳应与OAI-about中的时间戳一致等。数据的语义问题张冠李戴模式一:OAI-DP/METS-DP+MQ联动---实际收割测试(问题原因)本地系统的著录工具问题单条入库的元数据和数字对象在必备性、一致性等方面存在问题。本地系统的批量导入工具问题批量入库的元数据和数字对象在必备性、一致性等方面存在问题;批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。统计结果的一致性问题本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。——由内部检索机制不一致因素所造成。本地系统缺乏有效的“数据质量检测工具/模块”在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。管理员无法自行发现上面的“数据问题”。模式二:仅采用OAI-DP收割为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二;厂商依据规范要求,改进和完善系统;模式二:收割方式实时自动收割手动收割模式二:仅采用OAI-DP收割---收割方式(1)实时自动收割元数据和数字对象仅通过OAI-DP发布。发布出来的OAIRecord采用“CALISOAIRecordV2.0”数据格式;学位论文中心系统接收到OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;手动收割用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALISOAIRecordV2.0”;METS-DP中的数字对象数据无需再单独导出;本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;模式二:仅采用OAI-DP收割---收割方式(2)模式二:仅采用OAI-DP收割---数据格式record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadataCALIS_OBJ:objInfo……/CALIS_OBJ:objInfo/aboutMETS:mets……/METS:mets当前元数据所对应的METS包record/recordheader……/headermetadataabout符合CALIS元数据规范的元数据片断/metadata/about用于维护元数据与METS一致性的四项信息CALISRecordV1CALISRecordV2模式二:仅采用OAI-DP收割---数据格式record/recordheader……/headermetadata符合CALIS元数据规范的元数据片断/metadataCALISRecordV2,无Mets模式二:仅采用OAI-DP收割---实际收割测试2007.09月参加测试的学校:TPI:中国农业大学TRS:清华大学北大方正:北京大学杭州麦达:北京大学医学院比较:模式一与模式二----在系统部署和维护方面类型模式1模式2说明部署内容部署OAI-DP服务器部署METS-DP服务器部署MQ服务器只需部署OAI-DP服务器前者部署、培训、管理成本都较大数据校验和错误排查OAI文件METS文件OAI文件和METS文件对应关系(如相关文件个数一致、ID一致等)OAI文件(可含METS数据)对两类文件之间的对应关系的问题,模式1排查工作量很大,排查难度很大系统故障排查OAI-DP服务器METS-DP服务器、MQ服务器以上三个系统之间的联动OAI-DP服务器前者工作量和难度(尤其是系统之间联动)都很大厂商技术支持工作量较大,当出现复杂问题时,需厂商和CALIS全力配合才能发现大为降低比较:模式一与模式二----优缺点比较类型模式1模式2优点OAI-DP无需考虑大容量数据记录的传输问题,因此,模式1对OAI-DP在性能和超时处理等方面的要求较低;只需部署与OAI-DP,无需部
本文标题:基于OAI和METS远程收集数据的
链接地址:https://www.777doc.com/doc-29202 .html