您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 学位论文数据库建设可行性报告
“CALIS高校学位论文数据库”可行性研究报告CALIS工程中心清华大学图书馆2004.4.27汇报内容一、立项背景和需求二、总体目标三、主要建设内容四、实施方案(组织管理、总体框架、技术路线等)五、实施进度立项背景和需求背景近年来,国际范围内学位论文的网上利用已成趋势,可归纳为两种模式:美国UMI公司的商业性数据库PQDD采用集中建库、分级服务的模式;由于UMI较为公平地处理学位论文的知识产权。该数据库在全球范围内的到公认和广泛应用;国内同方光盘公司出版发行的《中国优秀博硕士学位论文全文数据库》采用了类同PQDD的集中建库模式。NDLTD(博硕士论文网络数字图书馆)由美国弗吉尼亚理工大学计算机学教授EdwardFox在1997年发起建立,目前有世界范围的185个成员;采用元数据集中建库,学位论文全文由各学校在本地建库的模式。通过OAI协议收集元数据,用户检索元数据库,通过OPENURL技术链接到分布在各学校的论文全文。这种模式符合网络环境下数字资源开放建设和分布服务的发展趋势。近几年台湾地区建立的eThesys系统也采用类同架构。“十五”期间,“CALIS高校学位论文数据库”的建设参考了NDLTD模式。立项背景和需求(续)需求博硕士学位论文集中反映了学校的教学、科研成果,是广大师生十分重视的一种学术文献。近十几年来,绝大部分学位论文都采用了计算机录入、排版和打印,由此产生了大量的“原生”的电子文本。在没有建立起电子版学位论文(ETD)收藏机制之前,每年大量的电子文本随毕业生的离校而流失,这对学位论文的电子化利用是非常遗憾的事情。清华大学自2000年6月开始进行ETD全文的收集工作,目前已积累四年(8批)电子版博硕士学位论文1万余篇。立项背景和需求(续)2001年以来,北京大学、北京农业大学、武汉大学、吉林大学、厦门大学、西安交通大学、东南大学等10余所学校也陆续建立了本校的学位论文提交和发布服务系统,反映了高校普遍希望改变传统纸本学位论文收藏和服务方式的需求。在数字图书馆建设的浪潮下,国内图书馆都在寻找自己的切入点,想做一些数字资源建设方面的事情。而电子版学位论文(ETD)正是各学校源源不断“自产”的,最有条件、有能力收集全、利用好的“原生”数字资源。立项背景和需求(续)在“九五”期间建设的博硕士学位论文文摘数据库基础上,建设一个提供集中式检索(含前16页全文浏览)、分布式全文获取服务的CALIS高校博硕士学位论文数据库。为高校范围内的读者通过网络共享学位论文信息提供途径和保障,促进高校教学、科研水平的交流与提高。总体目标包括三部分:1.分布建立本地学位论文网上提交与发布系统2.增加CALIS高校学位论文库数据量(元数据+前16页全文)3.建立学位论文集中检索服务平台和共享机制主要建设内容1.分布建立本地学位论文网上提交与发布系统借鉴国际上学位论文网上提交和利用的经验,综合国内高校的实际需求,接洽软件开发商开发“学位论文网上提交与发布系统”,推荐参建学校使用。从本地系统应用出发,促进高校范围内普遍建立起:①新型的学位论文网上提交与管理机制;②本地学位论文全文网上检索服务系统。打破高校多年来以收藏纸本学位论文为主,学位论文文献未能得以充分利用的局面。主要建设内容(续)2.增加CALIS高校学位论文库数据量“九五”期间,高校学位论文文摘库的数据量约10万条。“十五”新增数据量10万条,新增数据中可提供论文前16页浏览的比例不低于80%,可提供全文服务(包括直接下载或文献传递)的比例不低于70%。“九五”期间完成的10万条数据经转换后与“十五”期间新增的10万条数据归并在同一数据库结构中提供服务。在“十五”经费支持下,CALIS学位论文库的总数据量达20万条。主要建设内容(续)3.建立学位论文集中检索服务平台和共享机制①采用“OAI-PMH”和“METS”机制自动收集分布在参建单位的元数据和前16页全文;②集中检索CALIS学位论文库的元数据;③提供获取论文全文的链接调度功能;④数据库访问、全文获取、用户登录等统计功能;⑤个性化定制推送服务;⑥建立遵循知识产权公平利用学位论文的网上共享机制。主要建设内容(续)CALIS学位论文数据库的检索和服务:在元数据级公开免费提供检索论文前16页公开免费提供浏览论文全文通过认证结算机制在线浏览通过馆际互借/文献传递离线获取以两套系统的建设牵动:网上提交发布系统(本地)集中检索服务系统(清华)广泛建立起新的学位论文收集和利用机制:网上提交、电子版保存与服务、公平共享(互惠)主要建设内容(续)包括六部分:1.现有基础5.技术路线2.组织管理6.技术难点3.建设方式7.互操作4.总体框架和功能实施方案(续)现有基础“九五”期间,“CALIS高校学位论文文摘库”数据超出10万条,参建学校近百所。“九五”期间,先后组织了三次全国性的建库人员培训和研讨会,培训骨干人员150多人次。在项目组织和实施中,清华图书馆与参建单位形成了良好的合作关系,积累了项目组织和协作经验。清华图书馆参与了科技部《我国数字图书馆标准规范建设》项目,侧重“专门元数据”子项目中“学位论文元数据标准规范”的研究和制定。实施方案(续)组织管理在“CALIS工程中心管委会”领导下,成立由项目牵头单位、项目参建单位代表组成的“项目管理小组”,负责整个项目的组织、协调等工作。项目管理小组由8所学校图书馆的代表组成:北京大学、中国农业大学、吉林大学、上海交通大学、武汉大学、中山大学、西安交通大学、清华大学清华大学图书馆任组长单位并成立项目实施小组。实施方案(续)组织管理出于尽量全面地收集高校范围内的学位论文资源的考虑,鼓励所有“211”高校申请参加本项目,也欢迎非“211”高校申请参加。通过填写“成员单位基本信息登记表”和签定“CALIS高校学位论文全文数据库建设协议书”的形式确定参建单位的义务、责任和权利。实施方案(续)建设方式“CALIS学位论文全文数据库”采用元数据集中建库、论文全文分散建库的两级保障模式。项目主持单位(清华图书馆)负责元数据建库并提供集中检索和服务。各参建单位在本地建立起本校的“学位论文网上提交系统”和“学位论文全文检索系统”;遵循本项目制定的学位论文元数据标准规范提交统一格式的元数据,论文全文的访问权限(知识产权)由各学校自主控制。实施方案(续)总体框架方案设计尽量与国际接轨,采用开放、先进的主流技术。针对分布环境下的元数据收集,采用遵循“OAI-PMH”机制的自动收割技术。各参建单位作为OAI协议的数据提供方,负责建立本地的学位论文提交和发布系统。清华图书馆作为服务提供方,向分布在各参建单位的数据库(数据提供方)发出请求,抓取元数据。前16页全文的收集采用METS机制(类似OAI自动收集)。用户通过集中的元数据库检索到论文信息后,通过OPENURL和CALIS-OID技术链接到分布在各学校的论文全文。实施方案(续)元数据收割器TPI论文提交发布系统方正论文提交发布系统北大数图所论文提交发布系统其它平台TRS论文提交发布系统OAIDataProvider全文链接(OpenURL)索引用户界面统计与评估模块资源调度模块与CALIS大系统接口结算模块学位论文元数据库OAIServiceProvider收割进度设置模块收割管理模块OAIHarvesterServer数据提供方注册管理OAI-PMHCALIS学位论文全文数据库总体框架CALIS学位论文全文数据库系统结构与功能OAIDataProvider:各参建单位作为OAI协议的数据提供方,本地需要建立OAIDataProvider接口并提供DC和CALIS_ETD两种数据格式。本地系统的安装和维护由参建单位负责。OAIHarvester:清华图书馆作为服务提供方负责建立OAIHarvester接口,设置数据收割进度、管理数据提供方的注册和登记,提供日志分析功能,提供对收割不成功记录的再次收割功能等。实施方案(续)OAIServiceProvider:“CALIS学位论文元数据库”作为OAI服务提供方,存放从各参建单位收割来的元数据,通过集中检索服务平台,对参建单位范围内的用户提供免费元数据检索服务,对参建单位外的用户提供收费检索服务。该系统支持按学科分类浏览、查询(简单检索、复杂检索)等功能。提供通过OPENURL技术链接到分散在各参建单位的全文;提供统计与评估接口;提供与CALIS总体平台的接口(认证接口、日志访问接口、统计接口、结算接口、资源调度接口等)。实施方案(续)审核和编目学生审核员编目员发布服务不合格合格论文编目检索提交模块文档标准化(全文)原有论文数据迁移论文审核论文发布提交表单统计与评估结算模块OAI接口本地学位论文提交和发布系统结构流程本地学位论文提交和发布系统功能论文提交模块:研究生通过网络提交元数据信息并上载论文全文,可以网上修改已提交的论文信息,网上查询论文是否审核通过。管理员审核模块:图书馆员从格式的正确性、内容的完整性等方面审核验收论文全文,也包括审核对应的元数据信息。编目模块:图书馆员对记录做编目处理,加入一些必须的馆藏信息、权限控制信息等。文档标准化:将word格式的文件批量转换成PDF等格式的文件,包括对使用权限的处理。发布服务和检索模块:实现全文检索、学科分类浏览以及论文全文浏览等功能。提供认证、结算、统计与评估模块的接口以及OAI数据提供接口。实施方案(续)技术路线项目涉及的标准规范尽量采用国内外已有的通用标准(如OAI-PMH、METS、OPENURL、WebService以及我国数字图书馆标准规范等),扩展部分遵照CALIS统一规定(如:ODL接口协议,CALIS-OID技术等)。针对各单位本地学位论文提交发布系统的建设,项目实施组在广泛调研的基础上,已选择有经验和开发实力的软件商根据项目需求进行了二次开发(增加OAI接口等),并以组团购买的方式争取到优惠价格。推荐各参建单位购买成熟的商业软件,减少重复开发、成本低见效快。针对学位论文集中检索服务系统的建设,项目实施组计划在广泛调研的基础上,综合国内外同类系统的先进技术,提出系统需求和设计方案,通过招标或邀标的方式选择有经验、有实力的软件商开发。实施方案(续)技术难点1)论文全文(PDF格式)的权限控制;2)论文题目、文摘中特殊字符、各类公式的录入和展示;3)基于OAI协议收割数据的质量控制;4)两级系统(分布、集中)中的认证和结算功能等。拟采用的解决途径:•采用(嵌入)CALIS管理中心已经开发的模块;•开展更广泛的调研,挖掘出已有的成熟技术;•在招标中提出需求,由软件开发商解决;•设立项目子课题,邀请或者联合有研究基础的单位攻关。实施方案(续)互操作本项目系统接口涉及到三部分:①学位论文集中检索服务系统与CALIS整体平台之间;②各校学位论文提交和发布系统与CALIS整体平台之间;③学位论文集中检索服务系统与各校学位论文提交和发布系统之间。它们之间的关系如表1所示。实施方案(续)实施方案(续)实施进度拟采用先启动提交、发布系统建设,尽快收集数据,后建立集中检索服务平台的步骤,分三个阶段:第一阶段调查规划阶段(2002年8月2003年4月)调研国内外学位论文系统发展状况,确定项目实施方案和技术路线;申请立项并筹备成立项目管理组。召开项目管理组第一次工作会议,讨论通过本项目的整体规划、实施方案和技术路线;调研商业平台,选择、比较不同平台上的有代表性的3-4个系统,提出“学位论文提交与发布系统”的用户需求和系统功能,接洽软件开发商进行技术开发。第二阶段启动实施阶段(2003年4月2004年6月)起草“学位论文元数据标准方案”,确定核心表单数据项;分批召开项目启动、培训会议,帮助参建单位签定“学位论文提交与发布系统”的购买协议,落实系统安装和开通运行;参建单位安装运行学位论文提交与发布系统,开始本校的学位论文网上提交工作;项目实施组提出CALIS学位论文集中检索服务平台的功能需求,完成项目招标或邀标工作。实施进度(续)第三阶段滚动发展阶
本文标题:学位论文数据库建设可行性报告
链接地址:https://www.777doc.com/doc-5450571 .html