您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 馆藏数字资源加工的方法与技术
馆藏资源数字加工的方法与技术四川大学图书馆张盛强馆藏资源数字化的定义所谓馆藏资源数字化,是指图书馆利用数据压缩技术、光盘存储技术、网络技术、数据库技术和多媒体技术等技术手段,将馆藏印刷型文献、缩微型文献、音像型文献等传统介质的文献,转化为数字化、电子化的光盘文献或网络信息的工作。馆藏资源的数字化,可以充分发挥图书馆的文献优势,加强信息资源建设工作,丰富网上虚拟图书馆信息资源的品种与数量,促进虚拟图书馆的发展,同时也为图书馆开展特色信息服务创造条件。馆藏资源数字化的主要意义是对传统重要文献资源的“内容”一种技术性保存能拓宽文献资源的使用的时间和空间范围为文献资源的深度揭示和组织提供了基础为读者高效率地获取一次文献提供了基础馆藏资源数字化的相关思考馆藏资源数字化工作是数字图书馆建设的重要部分,但不能等同于数字图书馆。目前的技术环境下,馆藏资源数字化是对传统文献“内容”的迁移、开发和利用。由于馆藏的差异和数字化成本的现实性,数字资源工作应该是基于共建共享的模式下,才可能具有效益最大化。资源数字化工作的规范与标准是馆藏资源数字化共建共享的利用效果的关键。馆藏资源数字化的主要流程数字资源加工技术方案的相关讨论数字资源加工中流程最常见的对象资源类型包括:a.文本资源b.图象资源c.音频资源d.视频资源e.专门数字对象资源文本数字资源的主要文件格式TXTRTFDOCWPSPDFHTMLXMLSGML1.文本数字资源的主要文件格式介绍(一)-----TXT纯文本格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能阅读,不同操作系统之间通用。但不能插入图片、图表,不能插入超链接,不支持字体样式编辑文本数字资源的主要文件格式介绍(二)-----RTFRichTextFormat的缩写,由未格式化的文本、控制字,控制符以及表明文档属性的组构成。优点:容易识别可以在不同程序和版本间传递数据具有很强的编排功能缺点:内容繁多有特殊意义字符的特殊书规定文本数字资源的主要文件格式(三)-----DOC通用的PC格式化文本格式,通常是使用microsoftword创建的。优点:表现力强、操作简便缺点:文件体积相对纯文本较大,与其他公司字处理程序不通用,版本不能向下兼容。文本数字资源的主要文件格式(四)-----WPS国内唯一自主知识产权办公软件的文本格式。优点:兼容性强开放性好采用unicode内核缺点:市场用户少,不通用1.文本数字资源的主要文件格式(五)-----PDFPDF是Adobe公司开发的用于进行全球电子文档分发的开放式标准。优点:电子读物美观,便于浏览,安全性高。缺点:不支持css\flash\java等基于html的技术,适合静态文本的阅览。文本数字资源的主要文件格式(六)-----HTML超文本标记语言,专门为建立超媒体文件。优点:制作简单,表现丰富,在INTELNET上最为流行。缺点:作为电子书表现格式,它在图文定位上有很大局限,同时由于现有的图像识别软件识别出来的结果并不如意,存在较多的错误,需要化大量的人力进行校对,大大增加了成本的投入,而且HTML语言的定义混杂了格式和内容,无法进行语义处理,标准化程度差,不同浏览器之间存在兼容性问题1.矢量图形数字资源的主要格式1.DWT2.EPS3.FLASH4.SVG5.VML6.VRML位图图象数字资源的主要格式BMPGIFJPEGPNGTIFFPDF音频数字资源的主要格式WAVMID和RMIMP3RAM/RMASF视频数字资源的主要格式MPEG系列(1.4.7.21)RealViedioAVIQuickTime其他类型的资源包括拓片(墓志、碑文、金铭、甲骨)舆图、字画手稿、乐谱、契约等四川大学图书馆的数字资源加工实践四川大学图书馆已经完成了1980年-2001年所有馆藏学位论文的数字资源加工工作,目前正在进行民国书刊的数字化加工工作,下面将以博硕士论文数字化加工为例,讨论数字资源加工工作的相关实践问题。博硕论文资源数字化的选题背景博硕士学位论文与图书、期刊、报纸、会议记录、科技报告、专利、标准一样,是记载知识信息的一种重要的文献类型,与其它文献相比具有以下特点:(1)独创性(2)学术价值(3)内部保存为了提高学位论文学术资源的利用率、充分发挥学位论文的学术价值,四川大学图书馆作为四川大学学位论文的长期收藏单位,有条件、也有责任将收藏的本单位博硕士学位论文进行数字化加工,为用户提供方便快捷的网上检索查询和全文服务。学位论文全文数据库的建立有助于研究生确定论文的选题和研究方向,避免与他人研究工作不必要的重复;帮助从事相近科研工作人员了解相关研究动态、借鉴有关的理论与方法,同时学位论文的网络公布使其研究和实验的结果受到更广泛的关注,这将进一步提高反盗版、反剽窃的能力,使作者的研究成果得到更好的保护;电子版学位论文的网上公布,还可以让更多的人了解和评判学位论文的水平,有助于促进指导教师精心指导学生、研究生努力写出高水平的学位论文。博硕论文资源数字化的研究方案相关规范?数字对象保存格式?制作流程?发布和揭示资源?博硕论文资源数字化的规范问题为了保证制作出的电子版学位论文有最广泛的机器阅读和最大的兼容性,将遵从OEBPS(openebookpublicationstructure)规范。OEBPS规范主要由6个核心元素组成:包标识符(packageunique-identifier)元数据(metadata)文件表单(manifest)脊骨(spine)漫游(tours)向导(guide)元数据著录标准复用了DublinCore的15项核心元素。博硕论文资源数字化的数字资源保存格式选择问题(一)当前的电子书格式有很多种,一般可以分为文本格式、HTML格式、特殊开放格式(如PDF、DJVU等)、特殊封闭格式(如超星,书生等)。文本是最通用的格式了,通用性也强,但对于电子书而言,他的功能太简单;HTML它的制作简单,表现丰富,在INTELNET上最为流行,但作为电子书表现格式,它在图文定位上有很大局限,同时由于现有的图像识别软件识别出来的结果并不如意,存在较多的错误,需要化大量的人力进行校对,大大增加了成本的投入,而且HTML语言的定义混杂了格式和内容,无法进行语义处理,标准化程度差,不同浏览器之间存在兼容性问题;PDF、DJVU是制作电子书的专业格式,在性能和功能上是其它电子书格式所无法比拟的。博硕论文资源数字化的数字资源保存格式选择问题(二)PDF是Adobe公司开发的用于进行全球电子文档分发的开放式标准。扫描版的PDF文件其大小和TIF文件是差不多的,也就是说,PDF是兼容扫描格式和混合格式的。PDF较好地解决了版式问题,但是混合格式的制作成本远远超过了扫描格式。虽然现有的OCR技术标称都有97%甚至更高的识别率,但实际使用往往因为表格、中英文混排等原因造成识别率下降,人工校对成为资源数字化成本的瓶颈。所以互联网上的PDF文档大多数仍然只是扫描图像的封装。博硕论文资源数字化的数字资源保存格式选择问题(三)DJVU是AT&T实验室针对扫描文档、数字文档或照片中高解析度图像的WEB应用开发的格式。作为一个公开的标准,DJVU文件格式规范,解码器实现及部分译码器是开放的。典型的DJVU文档压缩率比现有的如JPEG和GIF格式彩色文档优5到10倍,比TIFF格式的黑白文档好3到8倍。以300DPI全彩色方式的扫描文档可被从25MB大小压缩至30-100KB大小。而且DJVU也支持像双层PDF那样的隐含文本。一个包含隐藏文本(hidden-txt)的文件在被浏览时,浏览器上的文本选择按钮会被激活。这时按下文本选择按钮,用鼠标在图像中相应文本内容上划一个矩形框,被选中的部分即反色。被选中的文字可以被复制到系统的剪贴板中,相应还可实现对图像中文字内容的搜索和查询。同样的内容,DJVU比PDF(TIF)的压缩率高近一倍(对彩色图像更是独具优势),而且DJVU拥有适用于各种操作系统的标准互联网浏览器的插件程序,用户可以免费下载实现对DJVU文档的方便浏览和缩放。因此决定采用DJVU作为电子版学位论文的主要格式。博硕论文资源数字化的制作流程①扫描。扫描纸质学位论文,得TIF格式的图像文件,拟采用高速平板式文档扫描仪(虹光AVA3Plus),对于纯文字页面,采用黑白二值600dpi,颜色模式为为Binary,TIFF图像采用CCITT4压缩格式;对于有灰度插图的页面,采用8位灰度/黑白600dpi;对于彩页,采用8位灰度/彩色600dpi扫描。博硕论文资源数字化的制作流程②图像处理。图像处理的内容包括对扫描生成的图书页面进行加工、美化,具体包括:对扫描引起的图像倾斜进行校正、去处扫描带来图像黑边、去处图书页面上原有的污点、对齐图书页面的版心。博硕论文资源数字化的制作流程③分析识别和格式转换。采用DJVU转换工具来完成自动OCR和DJVU压缩,即在文字识别之后,不进行人工文字校对和人工排版,而直接将识别出的文字置于DJVU文件的隐藏文字层,在原始图像之后,用于检索和利用,而不用于显示浏览。其优点是:减少人工成本,简化加工流程从而降低管理成本;文字识别错误不影响浏览,用户看到的只是图像层的内容;文字可以满足检索的要求;文字准确率只依赖于OCR软件而于人员素质无关,可以在OCR技术进步后重新进行文字识别,提高准确率。博硕论文资源数字化的制作流程④目录制作。按照项目制定的目录制作标准进行博硕论文资源数字化的制作流程⑤元数据编辑。按照项目制定的元数据制作标准进行,采用DubinCore元数据标准,采用DubinCore的15个元素为核心元素,并根据学位论文的特点增加个别元素博硕论文资源数字化的制作流程⑥OEB封装。主要功能是根据DC和Catalog的XML数据和DJVU文件生成符合OEBPS1.0标准的OPF文件。博硕论文资源数字化的制作流程⑦质量检测、入库。仔细核查制作以上步骤是否达到制作标准的要求,并提交检测合格的学位论文原始扫描文件、OPF文件及相应的DC和Catalog文件。博硕论文资源数字化的发布对于制作好的电子版学位论文,还需要进行数据发布,实现基于WEB的检索和全文服务。制作成功的每一本电子都有一个包含其基本信息的文件,其内容是xml格式,可以对这种具有xml格式的文件进行研究和分析,提取其中有用的信息,并根据这些信息完成对电子学位论文全文数据的管理和分类,形成全文数据库,便于数据检索。同时开发网上发布系统,将制作好的学位论文进行数据发布。谢谢!
本文标题:馆藏数字资源加工的方法与技术
链接地址:https://www.777doc.com/doc-1990365 .html