您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 国外常用元数据标准比较研究
国外常用元数据标准比较研究北京大学数字图书馆研究所中文元数据标准研究项目组冯项云∗肖珑∗廖三三庄纪林摘要:本文通过对目前国际上较流行的七种元数据标准CDWA、DC、EAD、FGDC、GILS、TEI、VRA的介绍、比较和分析,总结出元数据标准在设计和实现过程中的几个关键问题。关键词:元数据、CDWA、DC、EAD、FGDC、GILS、TEI、VRA元数据标准的设计与实现是数字图书馆建设过程中首要的、基础性的工作。目前国外已经产生并得到实际应用或试验的元数据标准有二十余种。本项目对其中七种进行了比较分析研究,并由此总结出元数据标准在设计与实现过程中的几个关键问题。一、元数据概述首先,需要对本文中所讨论的相关术语作出说明:元数据:描述某种类型资源(或对象,object)的属性、并对这种资源进行定位和管理、同时有助于数据检索的数据。元数据标准:如何描述某些特定类型资料的规则集合,一般会包括语义层次上的著录规则,和语法层次上的规定。语法层次上的规定有:描述所使用的元语言,文档类型定义使用什么语法,具有内容的元数据的格式(也可以包括内容数据,即Content)及其描述方法。编码(Encoding)规则:编码规则用于数据交换。为了适合传输和存储,编码规则要可以将数据信息按独立于系统的数据结构进行编码。编码规则说明编码数据的类型、有序排列、结构和编码模式,用于执行编码服务。在以下对国外元数据标准的比较研究中,使用了实体分析方法来探讨各个元数据标准是如何对著录对象进行描述的,从实体、属性、联系的角度分析各个标准中元素/字段的设置和定义,以及产生这些特点的实际背景。其次,还从元数据标准的功能层次上来比较了各个标准的功能。从数据交换和信息共享的需要出发,元数据的作用是传递可以理解的描述信息。对于计算机系统来说,理解一条元数据记录的工作有以下几个步骤:首先是理解元数据的各个元素或字段序列化的方式,也即是按照如何的顺序和结构来组织各个元素及其内容的方法。根据使用描述元语言的不同,可能会包括编码规则,以及记录格式。例如MARC的2709,就是一种被广泛使用的记录组织方式;当编码规则使用置标语言的时候,通常会有两个层次上的格式,首先是置标语言本身的语法规则,其次是对记录中使用到的元素及其属性的说明(通常会以DTD或某种SCHEMA的形式存在)。其次需要理解某个给定元数据标准是如何描述要著录的对象方面的,也即是对元素内容的定义。从上述的过程中可以看到,元数据标准的功能层次可以依次划分为:对象/实体描述方面的规定、编码/交换记录规则或传输元语言、与置标语言文档一起使用的DTD、传输/交换协议、检索属性方面的规定,以及是否可以包括全文等规定。∗本文系北京大学数字图书馆研究所“中文元数据标准研究”项目系列成果之一。主要研究人员:冯项云,肖珑,廖三三,庄纪林,执笔人:冯项云,肖珑。二、国外常用元数据标准设计特点的比较与分析本项目对国际上比较有影响的七种元数据进行了分析和比较,它们分别是CDWA、DC、EAD、FGDC、GILS、TEI、VRA,这些元数据标准适用的著录对象基本涵盖了目前可能处理到的资料类型。表1列出了这七种元数据标准适用的资料类型,以及使用目的。表1:适用的资料类型使用者目的CDWA艺术品从事艺术历史研究、艺术品管理的人员,以及信息技术专家对艺术品的分类编目VRA艺术、建筑、史前古器物、民间文化等艺术类可视化资源艺术品收藏单位方便描述艺术类可视化资源DublinCore网络资源任何人,包括学者、专家、学生和图书馆编目人员资源发现FGDC地理空间信息政府,公立或私立研究机构或公司为NSDI制作、共享地理信息GILS政府的公用信息资源政府部门方便公众查找定位公用的信息资源EAD档案和手稿资源,包括文本和电子文档、可视材料和声音记录针对电子文本全文的编码标准TEI对电子形式全文的编码和描述电子形式交换的文本编码标准元数据标准实现的功能都包括对资源的描述、管理和定位,以及对资源的评估。但是由于它们分别适用于不同类型的信息资源,其使用者和所针对的用户范围也有所不同,因此在元素的设置上,个性化的特点非常突出。比如,CDWA、FGDC、GILS、DC、VRA等可以说均实现了上述功能,但其所包含元素如“orientation/management”、“inscription/marks”(CDWA)、“cloudcover”(FGDC)、“coverage”(DC)等则各具特性,表现了不同类型资料的特色。同时,对于特点相近的资料,相应的元数据标准也有很多相似之处。描述艺术类可视资料的元数据标准:CDWA和VRACoreCDWA(CategoriesfortheDescriptionofWorksofArt)元数据标准是针对描述艺术品的需求而设计的,艺术品具有物理形态的,也可能同时具有数字化了的图象,此外时空、人物、历史文化等方面的上下文关系在描述一件艺术品时也时非常重要的,CDWA中有很多元素都反映了艺术品特有的这些特点。有代表性的有:Orientation/arrangement(方位/布置)、Inscriptions/Marks(题铭/标志)、Style/Periods/Groups/Movements(风格/时期/流派/乐章)、Criticalopinions(评论)。物理形态方面有:Measurement(度量)、MaterialsandTechniques(材质/技术)、Physicaldescription(物理描述)。此外,在对艺术品的保存、管理方面的内容也有一些很有特色的元素来描述,如:Conditions/ExaminationHistory(条件/检查历史)、Conservation/TreatmentHistory(保存/处理历史)、Ownership/CollectionHistory(拥有/收藏历史)、Exhibitions/LoanHistory(展览/借出历史)。VRA(CoreCategoriesforVisualResources)由美国视觉资料协会制定,是为在网络环境下描述艺术、建筑、史前古器物、民间文化等艺术类可视化资源而建立的元数据标准。目前已推出到第三版本,制定了17项元素。VRA著录单元集合比较简单,比较适用于艺术作品、建筑、民间文化等三维实体。由于VRA描述的视觉资料反映的主体是艺术品类,所以在对著录对象的属性分析和元素/子元素定义上与CDWA有很多相似之处。例如在描述艺术品特有属性的STYLE/PERIOD、Culture元素定义如出一辙。但是VRA专于描述视觉资料,因此元素比CDWA就少了描述非视觉资料的部分(例如没有CDWA中的EXHIBITION/LOANHISTORY),同时元素也更为简单。CDWA和VRA都没有在标准中指定记录格式。CDWA的元素编排是根据实体属性方式,例如CREATION(责任项),在这个元素描述与艺术品的制作、设计、执行等过程中,与这些行为有责任关系的人物,时间,地点的信息,包括了三个子元素,Creation-Creator-Identity(core,作者),Creation-Creator-Role(core,作者责任方式项),Creation-Date(core,创作日期)。在元素的分组编排上VRA有些类似于DC,例如DATE元素,是将6个子元素(Date.Creation(创作日期)、Date.Design(设计日期)、Date.Beginning开始日期)、Date.Completion(完成日期)、Date.Alteration(修改日期)、Date.Restoration(修复日期))都归入到一个DATE元素中来。这样做会带来一个令人费解的问题,就是在Creator中可以著录多种责任方式(使用Creator.Role子元素),但是DATE只定义了6个类型的时间,这样需要在记录格式中保留Creator与相应责任时间的联系。表2:CDWA和VRA元素列表分析CDWAVRA具有特色的元素Orientation/arrangementInscriptions/MarksStyle/Periods/Groups/MovementsContextCriticalOpinionsMeasurementMaterialsandTechniquesPhysicaldescriptionConditions/ExaminationHistoryConservation/TreatmentHistoryOwnership/CollectionHistoryExhibitions/LoanHistoryRecordtypeMeasurementsMaterialTechniqueLocationStyle/Period与其它元数据标准相似的元素Object/Work-TypeTitleorNamesCreationCreator–IdentityCreator-RoleCreation-DateSubjectmatterCurrentLocationRepositoryNumberCopyrights/RestrictionsTypeTitleCreatorDateIDNUMBERCultureSubjectRelationDescriptionSourceRights以简取胜的DublinCoreDUBLINCORE元数据格式描述的对象是网络资源。最初由美国OCLC公司发起,国际性合作项目DublinCoreMetadataInitiative设计。目前最新版本为version1.1,1999年7月2日发布执行。最初DC应用目的是为了网络资源的著录与挖掘,由于DC元素简单易用,加之OCLC的大力推广和网络资源著录的巨大需求,DC发展成为可用于任何媒体。简单的元素定义和设置可以很方便的著录,是DC获得广泛应用的重要原因,然而它也带来另外一个问题,对著录对象的描述深度不够,不能进行专指度较高的检索。表3:DC元素列表分析具有特色的元素与其它元数据标准类似的元素RelationSourceCoverageFormatTitleCreatorSubjectandKeywordsDescriptionPublisherContributorDateResourceIdentifierLanguageRightsResourcetypeFGDC地理空间元数据内容标准美国于1990年成立联邦地理数据委员会(FederalGeographicDataCommittee简称FGDC),由来自16个单位的17位专家组成。联邦地理数据委员会负责协调NationalSpatialDataInfrastructure(NSDI,国家空间数据基础设施)的发展,其任务是制订政策、标准来促进在政府、科研机构、私人团体之间的合作,以制作、共享地理数据。该委员会下设的标准化工作组经过两年的努力,起草了地理空间数据元数据内容标准(CSDGM)草案,并于1994年8月通过并发布了第一版CSDGM。FGDC地理空间元数据内容标准的目的是确定一个描述数字地理空间数据的术语及其定义集合,包括需要的数据元素、复合元素(一组数据元素)以及它们的定义和域值,以及描述数字地理空间数据集的元数据信息内容。FGDC是按照段(section)、复合元素(compoundelement)、数据元素(dataelement)来组织记录的,包括7个主要子集和3个辅助子集,共有460个元数据实体(含复合元素)和元素。FGDC规定了三种性质的子集、复合元素和元素。这三种性质是:必需的,即必需提供的信息;一定条件下必需的,即如果正在建立的元数据包含某子集、某个实体,或某个元素说明的特征,则必需提供的信息;可选的,即该信息是可选的,由用户决定是否将其包含在元数据文件中。FGDC标准中既有描述数据属性的信息,如Section3空间数据组织信息(空间数据组织信息SpatialDataOrganization),Section4(空间参照系统信息Spati
本文标题:国外常用元数据标准比较研究
链接地址:https://www.777doc.com/doc-1085793 .html