您好,欢迎访问三七文档
现代文献检索与利用第二章数字图书馆本章内容第一节数字图书馆概述第二节数字图书馆的建设第三节数字文献资源数字图书资源数字期刊资源数字特种文献资源第一节数字图书馆概述数字图书馆(DigitalLibrary,DL):凡是应用计算机技术和网络技术,解决数字资源的采集、存储、管理、发布和服务的图书馆,都可以称为数字图书馆。它涉及数字文献资源的加工、存储、检索、传输和利用的全过程。一、数字图书馆概念二、数字图书馆的特征1.资源数字化;2.存取网络化;3.管理分布式。指通过将管理任务分布到多个网点的多个服务器上,而使管理信息系统部门能够管理好大型网络环境。分布式管理三、数字图书馆的产生背景(1)数字图书馆产生的内在因素①印刷型文献的保存问题②文献信息的利用问题(2)数字图书馆产生的外在因素①文献信息资源的巨增②信息高速公路的建设和因特网的发展③数字化技术的发展,包括资源数字化和传输网络化a.信息存储技术b.数据库技术c.信息传输与通讯技术(3)数字图书馆发展的社会背景①数字图书馆是社会信息化发展的必然产物②数字图书馆是评价一个国家信息基础水平的重要标志③数字图书馆是21世纪全球文化竞争的焦点之一④数字图书馆建设有利于带动相关行业的发展三、数字图书馆的主要优点1.信息存储空间小且不易损坏;2.信息查阅、检索方便;3.远程、迅速传递信息;4.同一信息可以多人使用。数字图书馆与传统图书馆的比较传统图书馆数字图书馆信息载体形式印刷型为主,少量的音像制品、缩微制品,占用空间,不利保存信息数字化,压缩了大量的存储空间,保存期延长信息检索形式本馆检索,卡片目录检索为主远程检索信息获取开放性受图书馆开放时间、地点约束,不方便、不自由依靠因特网,不受时间、空间影响,信息获取比较自由信息可扩展性低高设备与技术依赖性依赖程度低严重依赖服务模式需读者自己到馆不需读者自己到馆读者与工作人员的关系面对面沟通,服务不能直接服务,沟通少四、中国数字图书馆研发概况起步试验操作实用1996,第62届国际图联大会,DL成为一个讨论专题。IBM和清华大学图书馆展示“IBM数字图书馆方案”97.1~99.12几个大图书馆承担了“中国试验型数字图书馆项目”99.9~01.11文化部与国家图书馆启动“中国国家数字图书馆工程”01.5.23国家重点科技项目“中国试验型数字式图书馆”通过专家技术鉴定第二节数字图书馆建设一、中国数字图书馆方案(1)数字图书馆解决方案三层技术说明1)资源加工层:资源加工层将各种类型的资料转化为有序的数字资源。将各种印刷型资料、音频资料、视频资料进行数字化加工,转化为数字格式的资源;2)资源管理层:数字资源管理系统依据OAIS、Z39.84(DOI)、ISO10646等国际标准构造。对网络资源进行分类、整合及发布;对异构数字资源进行整合,以便统一检索和使用;将经过加工和标引的数字资源进行发布;进行元数据管理、数字版权管理、数字对象管理。3)应用服务层:直接面向用户和读者的是应用服务层。作为图书馆的门户,为用户提供方便快捷的、主动的、个性化的、安全可靠的服务。(2)文献数字化技术1.文献数字化概述文献数字化是:印刷型资料→数字化加工→数字格式的文献资源。是数字图书馆建设过程中工作量非常大的基础工作。2.纸质文献数字化技术用数字化图书→建设数字图书馆,有两个重要的内容:●纸质图书转化为→电子版的数字图书;●电子版图书的存储,检索、交换,流通。(1)纸质文献数字化●将没有版权争议的印刷型文献数字化,建成数字化资源库。(2)纸质文献数字化的原则纸质文献数字化有“保真原则”、“整理原则”和二者兼顾原则。(3)纸质文献数字化的方法和设备按其发展过程分为:人工键盘录入法、语音识别法、扫描法。目前应用最多、效率最高的是→扫描法(扫描仪→●纸质文献数字化过程:①纸质文献放在扫描仪平板上,②通过扫描→纸质文献转换为→数字图形→输入计算机,③经软件OCR识别、校对后,转换为可进行编辑的数字化文献。实现计算机网络环境下快速转递、检索和资源共享等功能。3.影响OCR识别正确率的几个重要参数(1)分辨率参数分辨率参数决定扫描图像的清晰度,即决定扫描图像的图像细节。分辨率一般以dpi作为单位。dpi是dotperinch(点/每英寸)的缩写。文字OCR识别一般要300dpi。扫描仪能支持的dpi越大,其图像清晰度就越高。(2)亮度参数:亮度参数是扫描仪的重要参数之一,也是影响OCR系统文字识别效果的极为重要的因素。(3)扫描速度扫描速度是扫描仪的又一个重要指标,它决定扫描仪的工作效率,在文字识别应用中尤其如此,单位是英寸/每秒(IPS),4.数字文献著录标准(DublinCore,简称DC)●纸质文献→机读目录体系MARC;●数字文献也有一套都柏林核心(DublinCore)元数据来描述网上电子文献以方便检索,(关于数据的数据)都柏林核心集(DublinCoreElementsSet,DC)产生于1995年3月在美国俄亥俄州的都柏林召开的第一届元数据研讨会上,是52位来自图书馆、计算机、网络等方面的专家和学者共同研讨下的产物,是以图书馆界为主建立起来的元数据系统,用元数据代替MARC,来描述网络环境中的数字化信息的基本特征——元数据标引,以方便检索。比较:图书目录→MARC(机读目录数字文献→都柏林核心(DublinCore)元数据标引,第一次会议上提出的DC元数据核心集为13个,后来经过不断修改和补充,现在DC元数据为15个:DublinCore的15个元数据(描述项目)(1)名称(Title),(2)作者、制作者(Creator)(3)主题及关键词(SubjectandKeywords)(4)说明(Description)(5)出版者(Publisher)(6)发行者(Contributor)(7)时间(Date)(8)类型(Type)(9)格式(Format)(10)标识(Identifier)(11)来源(Source)(12)语言(Language)(13)相关资源(Relation)(14)范围(Coverage)(15)版权(Rights)5.数字资源的科学组织方法(1)将数字资源分为元数据和对象数据●简单全文检索,用于海量信息检索是行不通的?例如,美国在1TB的信息系统中用简单全文检索测试,用了6个小时才检索到满足用户要求的结果。●元数据——免费共享,检索用;(如中国知网CNKI可免费检索)●对象数据——传递全文用;(IP外,CNKI下载全文时要付费)●全国高校图书馆有很多文献资源,如何让读者知道那个图书馆典藏有何种文献?→CALIS:中国高等教育文献保障系统的任务:●全国高校联合书目就是解决这个问题而设计的。→超星公司收集的元数据已经达到:370万种中文图书目录,这差不多是中国出版的全部图书种数?5.数字资源的科学组织方法(2)元数据共享原则元数据是描述数字资源的文件,关于数据的数据,免费共享!因数据小,检索速度快,发展成为先进的元数据搜索引擎。●超星有专人搜索元数据,所以元数据最齐全。4.2亿条文献元数据,370万种书目元数据;●一般检索免费;下载全文付费(如中国知网CNKI)(3)对象数据分布式存储数字图书馆的对象数据是海量的,因此存储空间是海量的。超星公司的数字化图书已经达到260万种图书的全文数据。就按超星拥有自主知识产权的,国际上中文图像格式占用空间最小的一种压缩技术,做到100万种图书大约有5000G。260万种全文也是——13TGoogle想把全世界3000万种数字化——146T对象数据分布式存储,以减轻网络传送压力!(4)搜索引擎的检索能力元数据搜索引擎速度快,但当元数据的量达到海量时,对搜索引擎的检索能力是一个非常大的考验?如超星公司总数据达4.2亿篇学术文献,每个条元数据大约50个字段,约1.5K字节,则元数据有:420000000×1500=587G,在这么大的元数据库里检索,需要有更强大的查询工具,来满足用户大并发、多条件的检索要求。(4)计算机和网络系统的承载能力对象数据将是海量的,这就需要海量的存储空间。●对象数据必须分散在各个地方,解决大的并发和大的传输量,传送实行就近原则,以减轻网络的负担。5.数字资源的科学组织方法2.2.3图书数字的工业化进程国内进行图书数字化加工的有:①中国数字图书馆有限责任公司;②北京书生公司;③方正阿帕比Apabi;④北京超星数图信息技术有限公司(简称超星公司)●超星公司的技术最成熟,技术最先进,规模也最大,目前已经数字化中文图书260万种,成为行业的领跑者,为中国数字图书馆建设做出了突出的贡献!1.超星公司数字化图书发展历程超星公司1993年成立,是一家高科技民营企业,超星公司注册资金1500万元,目前拥有员工1400余人,平均年龄25岁。(1)从档案资料数字化起家超星公司从1993年起从事档案资料数字化软件的开发,国内最早提出档案资料数字化的概念,以光盘存储代替缩微胶片进行档案保存,发展了国内第一家以光盘形式存储档案的档案馆用户。●用户数量达2000多家,中央档案馆、外经贸部、林业部、中国人民银行总行、招商银行总行、北京市公安局和全国印钞造币系统等都是超星的用户。(2)把资料数字化技术应用于电子出版物;(3)把资料数字化技术应用于网络;(4)与国家图书馆合作创建“网上读书”取得实用经验;2.图书数字化加工厂(1)图书数字化加工生产线(DocScan)•1998年,超星公司第一条大规模数字化扫描生产线,加工能力达到每天20万页。(按每册300页计算,有660册图书)•五个数字化加工中心:在北京、成都、福州、长沙、郑州等生产流水线作业,三班倒的方式,进行图书数字化——扫描;入口:图书送进去,通过工人拆开、扫描,整个流水线采用C/S结构,客户端完成扫描加工处理,服务器完成数据管理和各工序任务的分配。出口:数字图书——建设数字图书馆的基础资源。到2012年,已经扫描图书260万种。(2)从数字图书到数字图书馆•加工数字图书的目的是为了建设数字图书馆,可以想象,当数字图书的数量达到260万种时•260万种是一个超大的数字图书馆,什么样的中文图书都可以在这里找到,满足率可达到95%,这个数字图书馆对读者是多么的诱惑。建设数字图书馆是一个非常好的解决思路。(3)超星数字图书馆的社会效益•超星数字图书馆是世界上最大的中文在线数字图书馆。•它为偏僻山区、中国的西部的市民都可以和大城市享有同样的阅读条件和教育机会,而且是24小时、没有等候的服务。•它是缩小东西部数字鸿沟差距、解决网上资源匮乏的重要举措。2.图书数字化加工厂超星的PDG格式2000年11月,超星与清华大学图书馆技术部联合开发的PDG图像全文检索技术。超星PDG应该是在参考了djvu技术的基础上开发的格式。名词解释:DjVuDjVu是于1996年开发成功的一项新的图片压缩技术,是一个公开标准。作为一种新的彩色文件压缩技术,DjVu在纸质世界和比特世界之间搭起了一座桥梁。它使得高质量的扫描图像可以轻易地在因特网上进行发布。DjVu有两大优势:1.可以将500M以上的高清晰杂志压缩到只有10M左右甚至更小的容量,而杂志质量丝毫不受影响。2.由于彻底改变了传统的互联网传输方式,在观看DjVu格式的文件时,甚至比打开普通的网页更快。超星的PDG格式超星PDG应该是在参考了djvu技术的基础上开发的格式。采用分层压缩,体积是其它的几分之一,浏览速度很快。★PDG图像全文检索技术原理:(巧妙构思)当纸质原稿→通过扫描仪输入到终端→存储为图像格式;负责集中运算的服务器→自动对该图像进行OCR识别→并完成相关运算→实时生成三层信息:●第一层信息是图像,用来保留原文原貌,即反映连续色彩图像和纸张的背景,用较低的分辨率,通常为100dpi足够。●第二层信息是用来进行OCR文字识别的,要确保文字和线条的清晰度需要较高的分辨率,提高清晰度是OCR文字识别率要求的,通常为300dpi。●第三层是确定文本在原稿图像中所处的坐标位置。这三层信息组成一个页文件→当读者用关键词对整本
本文标题:文献检索第二章.
链接地址:https://www.777doc.com/doc-2338263 .html