您好,欢迎访问三七文档
第6章数字图书馆信息组织一、数字图书馆概述1.数字图书馆概念数字图书馆(DigitalLibraryDL)是采用现代信息技术的、超大规模的、分布的、可以跨库检索的数字信息资源系统。数字图书馆不是数字化的图书馆,“Library”也不是传统的图书馆,而是借用它象征一种新的资源存储、传播中心。2.数字图书馆及信息资源的特点1)数字图书馆的特征①数字化:数字图书馆是一个内容丰富的、组织化的、多媒体形式的数字化系统,它的资源、工作过程和服务提供都是数字化的,它集中了不同载体、不同地理位置的资源,以数字化存储、以网络实现连接和共享,本质上是一个数字化、网络化的信息空间。②网络化:数字图书馆是以网络为依托、以资源共享为目标的数字化系统、设计时重视网络功能的需求与实现。通常在网络环境中具备浏览器的浏览与检索功能、广泛采用Z39.50标准、网上的各种应用协议、通信协议、数据交换标准、数据传输、编码和压缩,使它真正成为各种网络技术和标准的集成系统。③分布式系统:采用关系数据库管理系统,结构上采用分布式数据访问和数据库连接;支持开放式应用开发与多语种利用;支持规范控制、规范记录;系统集成化程度高。2)数字图书馆的信息资源特点①数字化的选择性信息资源所有资源都是按用户需要经过选择的数字化资源,收集的资源包括两大类:一是已经数字化的资源,如网络资源、各种数据库资源、光盘、磁盘上存储的资源等;二是传统的非数字资源压缩处理后形成的数字化信息,如已有的图书、期刊、录音、录像带等。②多媒体资源数字图书馆的资源是多样化的,不同媒体的信息都要收集,包括文本、音频、视频、图形、图像。这些不同的资源库中,要分别建立字符数值库、文本、声音、图象等专门资源库。各媒体用超媒体方式组织(混合),用户可以在链接好的网络结构中进行浏览。③海量资源和分布式资源存储结构数字图书馆处理的数据是海量的,估计一般的资源量可达到1012~15字节,它的资源包括持续倍增的网络资源,也包括不断增长的数字化的传统资源。海量资源使数据存储必须以大量的分布式数据库群把资源存放在不同的计算机上,每个计算机负责特定资源的收集、加工、存储、利用和维护工作。④按用户需求提供服务(最好是交互式的自动界面)用户通过数字图书馆的交互界面提出服务请求,数字图书馆使用高效的检索系统,为用户提供迅速、准确、个性化的服务。3)数字图书馆信息组织的特点①以用户为中心组织信息资源数字图书馆为每位用户提供个性化的信息服务,针对每个用户的每个需求从海量资源中查找符合用户需求的资源,而且它提供的资源不是一般的单一资源,而是关于某种问题的知识点,包括各种不同媒体的信息,如关于某个旅游点的文字、图象、旅馆、旅游路线图、气象、车次等。所以资源组织在检索时形成一种临时的知识点。②信息资源加工处理自动化数字图书馆的信息资源描述、自动分类、自动聚类、元数据自动抽取等对资源进行加工处理应尽可能自动化。要针对用户需求和资源特点开发各种检索系统和内容丰富多样的资源库。③智能查询服务数字图书馆的海量信息资源要求提供高效的智能检索服务,如设计良好的数字图书馆既能满足对图形、图象、视频的关键词、主题词查询,而且能够通过颜色、纹理、形状、关键帧等来查找;同时,查询还要求能够实现无缝跨库连接,使用户能够方便、快速、准确地查到所有存储在数字图书馆的分布式资源。二、数字图书馆结构1.基本系统结构(基本功能模块)数字图书馆的基本构件由数字对象、统一资源名称和数据存储系统组成。●数字对象数字对象是组织管理数字信息的方式、构成计算机存储与处理数字信息及功能实现所需要的完整数据结构。数据结构包括唯一标识名称、元数据和数字化内容。数字化信息一般包括不同的部分,如文本信息、程序、数据内容、Web页面等,可以把几个数字对象组成数字对象组,用来描述复杂多样的数字信息结构。DL中的数字化信息可以分成一些类别进管理,每一类别要定义一组规则,来描述数字对象、数字对象的内部对构、相关的元数据、数字对象的命名规则,以便把多个数字对象组成数字对象组。●统一资源名(URN)URN是网络中数字化信息的唯一永久标识。这个标识由资源名或资源位置标识数字资源。在数字图书馆系统中,URN是唯一标识,用来永久地标识数字对象和存储系统,它和网络中的URL不同,URL不可能永久标识标识数字对象和存储系统,因为网络配置、系统和文件位置均可改变。●数据存储系统数据存储系统是基于网络的存储与管理数字对象及相关信息的计算机系统,通过数据存储协议(RAP)对数据存储系统实施管理与操作,一个设计良好的数据存储系统可以向多个DL提供资源。以上三个基本构件可以构建任何DL体系结构。这个系统结构应具有扩展性、分布性与系统互操作性。DL的基本体系结构图用户界面检索系统名字解析系统存储系统图释●用户系统定义面向用户和系统管理员使用的两类界面,用户端通常是互联网浏览器,在浏览器上实现与DL系统的服务交互,执行请求与服务;●检索系统是DL系统的核心功能,检索系统在网络环境中采用分布式检索或并行检索系统结构。●名字解析系统负责将URN转换为存储数字对象的网络物理地址,并实现URN的注册管理功能,以保证它的唯一性。●数据存储系统存储与管理数字对象及其他信息,通过数据存储系统存取协议实现对数字信息的管理,同时实施访问控制和安全管理功能。2数字图书馆的技术体系结构调度子系统查询子系统对象数据库数据加工子系统用户元数据库图释●查询服务子系统向用户提供查询服务。用户连接到此子系统提出查询请求,请求处理后经元数据库和调度子系统查到初步相关信息,用户确认后再通过元数据中所含数据对象的句柄,通过调度系统到对象数据库中取出用户需要的信息;主要功能是实现数字化信息和知识的发布和利用。●元数据库和对象数据库存储和管理数据对象的数据体、元数据及其它信息,把数字化信息相对集中。这两个库是数字图书馆的资源库,分布在不同的地点;●数据加工子系统对数据信息进行打集、处理、加工、存储和组织,将描述信息的元数据归入元数据库,将数字对象本身(数据体、内容)送入对象数据库。●调度子系统是一个为数字图书馆资源提供分布式目录服务的计算机系统,负责自由地存取分布在不同资源库的信息,实现网络环境下对象数据的识别、统一调节度和无缝跨库检索。3数字图书馆的应用系统开发按照数字图书馆的体系结构,DL系统需要开发相应的应用:(1)资源加工系统数字资源加工系统要对多种形式的资源如文本、图象、音频、视频等的数字化采集、加工、处理,实现一次加工,长期利用,并适应未来扩展的需要,建设DL系统的资源库。(2)异构资源库整合系统在数字图书馆建立前的各种数据库要整合到DL系统中,主要的困难是多种内容的数据结构形式不同,原来的系统平台和应用软件也不完全相同。所以目前没有成熟的方案。国外可行方案之一是采用XML封装技术对现有数据库进行统一封装,将它们与DL系统连接起来。(3)数字资源管理与存储系统数字图书馆的数字资源由元数据和对象数据构成,一般地将元数据相对集中存放,对象数据分布存放。DL需要的大规模资源管理与存储系统在实现对大量数字资源的存储与管理,主要内容是数据对象和元数据的存储格式、存取协议、维护数据对象和元数据的完整性和一致性,以及在网络环境中大规模分布式数字资源的快速有效的存取支持等。(4)资源调度系统调度系统首先要有一个建立在统一命名规则基础上的完善的调度码体系,第二是要建立一个有效的调度机制,第三是要建立有效地为资源加工和用户服务提供调度服务的功能。调度系统的目标是通过一个标识确定DL中所有数字资源的规则,建立一个管理所有DL资源的系统;当需要变化时,只要修改唯一标识所指向的对应值就能服务的正常运行。(5)用户查询和服务系统此系统主要实现用户需要的信息和知识的发布和利用。用户通过应用界面进入系统,检索元数据查获资源标识,再通过调度系统,调动数字资源管理系统获取对象库中的资源。此系统由应用界面系统、元数据搜索系统、数字资源存取系统组成。如图应用界面系统调度系统调度码搜索系统元数据资源存取系统资源库此外,DL还有联合编目和馆际互借系统(建立各单位网络元数据共建共享系统和数字资源链接服务系)、安全认证系统、版权保护与电子商务系统(部分服务收费)。三、数字图书馆信息组织技术与方法1数字图书馆信息组织的数据结构与传统图书馆一样,数字图书馆信息组织的信息组织由三部分组成:指针、元数据和数据内容。指针是数据的唯一标识,如同一个排架号或一个网页地址(但不是URL);元数据是一个描述数据特征的数据集,类似目录,数据是一个个的文件内容,类似图书馆的文献。也就是说,DL中的一个文件(文本信息、图片、视频或音频文件等),在DL中先给一个唯一标识代表它在系统中的位置,然后再把其基本特征抽取出来(元数据)。(1)指针指针是标识数据的一组唯一指示符。一般分为狭义与广义两种:狭义指针(内部指针)是某个DL系统中用来代表文件或数据的唯一标识符,该标识在这个系统中是唯一的;由某个系统赋予,所以可以按某个系统的总体需要自行设计。设计时要作到:规范性,即发求建立内部指针的生成规则;唯一性,每个指针都是唯一的,不能与其它指针重复;定长性,指针要设计成定长字符串(可节省存储空间)。内部指针由本系统生成,只用于本系统。广义意义上的指针是由统一资源名称赋予的广泛意义上的数字信息唯一标识符,代表数字化信息的主要特征。数字信息对象只有赋予唯一标识符,才能组织和检索,并在DL系统中成为可以识别的唯一标识。标识数字信息对象目前主要有两种方法:一个是统一赋予信息对象一个唯一名称,即统一资源名称URNs;另一个赋予数字信息一个固定位置,即永久统一资源定位器法(PURL)。URNs方案由美国CNRI的句柄系统(handlesystem)提供标识网络资源的分布式目录服务。它负责给每一个资源一个永久的、唯一的名称(URN),这个名称独立于它的存储位置,不管它存储在什么地方,名称不会改变,所以总能找到这个资源。每个句柄由两部分组成:前一部分是命名授权,后一部分是唯一局部名称。所以Handle=namingAuthority/LocalName。一般认为,句柄是指向指针的指针,它有全局句柄和局部句柄之分。如10.1045/january99-bearman这个句柄前一部分是它的命名授权“10.1045”定义,后一部分是它的唯一名称。再如cnri.dlib/july95-arms也是一个句柄。句柄系统通过赋予数字对象代表其唯一标识的统一资源名称,可以对它进行操作和管理。句柄管理主要通过全球性的名称规范登记服务,建立全球规范名称数据库,并通过句柄代理服务(Proxyserver)提供两个代理服务器,用户可以在万维网上通过句柄获取数字资源。PURL是OCLC于1996年建立的标识数字信息资源的方法,它的原理是建立一个转换服务器,将数字对象的PURL转换成可以在网络中重新指向资源地址的URL,PURL在解析、转换中不变,重指的URL则随对象的实际地址而变化。PURL由协议、转换服务器地址和文件名称三部分组成。(2)元数据元数据是描述数据本身特征的数据。依靠元数据可以管理数字图书馆系统中的海量信息,帮助DL系统组织、管理和查找数据。它实际上是从文件中抽取出来的各种特征或元素,类似传统的著录。它的作用是:1)数字资源的组织和检索:数字资源的描述和标引就是代表资源内容和外部特征的元数据,根据元数据可以将资源组织起,并实现快速管理和查询。。2)设计和维护数据库的工具:设计DL系统的物理结构、逻辑模块和业务(包括服务)规则需要参考所有使用的元数据特征来设计,同时设计和管理人员需要随时查阅元数据,掌握数据库的全面情况,并随时了解数据的变更,以维护数据的完整性与准确性。总之元数据在本质上是一种数据结构标准,可以规范数据的组织,方便管理、检索和利用。(3)数据数字图书馆管理的主体是数据,管理、设计和检索最终都是DL系统中的数据内容。目前流行的数据格式是SGML系列和PDF格式。SGML是国际标准电子文本标记语言,电子文档编码、交换、管理和发布均采用SGML
本文标题:数字图书馆信息组织
链接地址:https://www.777doc.com/doc-6467857 .html