您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > DB13T 2351.1-2016 标准文献结构化数据规范 第1部分全文元数据
ICS01.140.20A14DB13河北省地方标准DB13/T2351.1—2016标准文献结构化数据规范第1部分:全文元数据StructureddataspecificationsofstandarddocumentsPart1:Full-textMetadata2016-05-23发布2016-07-01实施河北省质量技术监督局发布DB13/T2351.1—2016I目次前言................................................................................II引言...............................................................................III1范围..............................................................................12规范性引用文件....................................................................13术语和定义........................................................................14全文元数据的属性..................................................................25全文元数据模型....................................................................26全文元数据描述....................................................................37全文元数据字典描述...............................................................148全文元数据扩展原则和方法.........................................................14附录A(规范性附录)标准文献全文结构化元数据代码集.................................15附录B(规范性附录)篇章条编号、表号和图号说明.....................................16附录C(资料性附录)标准文献结构化全文元数据-字典描述..............................18参考文献............................................................................22DB13/T2351.1—2016II前言本部分按照GB/T1.1-2009给出的规则起草。DB13/T2351《标准文献结构化数据规范》包括了3部分:——第1部分:全文元数据;——第2部分:指标元数据;——第3部分:元数据著录规则。本部分是第1部分,本部分与第3部分配套使用。本部分由河北省标准化研究院提出并归口。本部分起草单位:河北省标准化研究院。本部分主要起草人:施健、卢艳芳、马星晓、李朴、李建勋、谢燕、闫志强、张园园、陈南、赵倩、郭天强、安姣。DB13/T2351.1—2016III引言标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元存储无法实现小颗粒度的指标数据的检索、比对分析,只有通过数据处理将非结构化文档转换为结构化或半结构化文档方能解决上述问题。为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此基础上,2013年又承担了国家标准化委员会标准化信息中心的《“双打”重点产品标准文献结构化内容数据库》项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言之,标准结构化加工抽取出的数据是哪些数据?2)对抽取出来的数据进行加工应符合什么样的数据规范要求,方能满足与原始标准文本内容的一致性的需求。解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现;解决第二个问题,需要建立数据的著录规则,实现数据的规范性。项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据的规范要求,形成了《标准文献结构化数据规范》。目前,在行业内广泛使用的GB/T22373-2008《标准文献元数据》是针对标准文献题录的元数据标准,侧重的是标准文献形式特征,而此次制定的《标准文献结构化数据规范》是关于标准内容结构化的全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进标准文献信息资源的开发利用。DB13/T2351.1—20161标准文献结构化数据规范第1部分:全文元数据1范围本部分规定了标准文献结构化全文元数据(包括全文、术语、图像、表格和公式)的术语和定义、属性、模型、描述以及扩展原则和方法。本部分适用于标准文献结构化数据的处理。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T74088数据元和交换格式信息交换日期和时间表示法(GB/T7408-2005,ISO8601:2000,IDT)GB/T18391.3-2009信息技术元数据注册系统(MDR)第3部分:注册系统元模型与基本属性(ISO/IEC11179-3:2003,IDT)GB/T19710-2005地理信息元数据(ISO19115-2003,MOD)GB/T26816-2011信息资源核心元数据3术语和定义下列术语和定义适用于本部分。3.1信息资源informationresource在政治、经济和社会等各领域产生和使用、具有各种载体形式的信息内容。[GB/T26816-2011,定义3.1]3.2元数据metadata定义和描述其他数据的数据。[GB/T18391.3-2009,定义3.2.18]3.3元数据元素metadataelement元数据的基本单元。注:元数据元素在元数据实体中是唯一的。[GB/T19710-2005,定义4.61]3.4元数据实体metadataentity一组说明信息资源相关特性的元数据元素。注:可以包含一个或一个以上元数据实体。[GB/T19710-2005,定义4.71]3.5核心元数据coremetadataDB13/T2351.1—20162描述信息资源基本属性的元数据元素和元数据实体。[GB/T26816-2011,定义3.5]4全文元数据的属性4.1中文名称指元数据元素或元数据实体的中文名称,用本部分第6章中各条的标题来表达。4.2英文名称元数据元素的英文名称,一般用小写英文全称,英文单词之间用空格分隔。元数据实体的英文名称,每一个单词首字母为大写,其余字母为小写,英文单词之间用空格分隔。4.3缩写名应符合GB/T26816-2011中4.6的要求。4.4定义应符合GB/T26816-2011中4.2的要求。4.5数据类型应符合GB/T26816-2011中4.4的要求。4.6值域应符合GB/T26816-2011中4.5的要求。4.7约束/条件应符合GB/T26816-2011中4.7的要求,约束/条件代码见附录A表A.1。4.8最大出现次数应符合GB/T26816-2011中4.8的要求。5全文元数据模型标准文献结构化全文元数据模型见图1。DB13/T2351.1—20163图1全文元数据模型6全文元数据描述6.1全文元数据中文名称:全文元数据英文名称:Full-textMetadata缩写名:FulTxtMdata定义:描述结构化标准中全文数据的元数据。数据类型:复合型约束/条件:M最大出现次数:16.2标识符中文名称:标识符英文名称:identifier缩写名:IDDB13/T2351.1—20164定义:名称空间中对象的唯一标识符。数据类型:字符串值域:UUID约束/条件:M最大出现次数:16.3全文中文名称:全文英文名称:FullText缩写名:FulTxt定义:以篇章条形式描述的标准内容。数据类型:复合型约束/条件:M最大出现次数:16.4标准号中文名称:标准号英文名称:documentreference缩写名:docRef定义:由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号由标准代号、顺序号、发布年份及有关标识符组成。数据类型:字符串值域:标准代号+1个空格+顺序号+1个连字符-+4位发布年份约束/条件:M最大出现次数:16.5标准名称中文名称:标准名称英文名称:documentnameinChinese缩写名:docNmCN定义:标准的中文名称数据类型:字符串值域:自由文本约束/条件:M最大出现次数:16.6篇章条编号中文名称:篇章条编号英文名称:chapternumber缩写名:chapNo定义:标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见附录B.1.1)。数据类型:字符串值域:见附录B.1.2约束/条件:O最大出现次数:16.7篇章条名称中文名称:篇章条名称英文名称:chapternameDB13/T2351.1—20165缩写名:chapNm定义:标准中篇章条的标题名称。数据类型:字符串值域:自由文本约束/条件:M最大出现次数:16.8篇章条内容中文名称:篇章条内容英文名称:CharpterContent缩写名:ChapCont定义:标准中篇章条的段落内容。数据类型:复合型值域:自由文本约束/条件:M最大出现次数:16.9篇章条类型中文名称:篇章条类型英文名称:chaptertype缩写名:chapTyp定义:描述篇章条类别。数据类型:字符串值域:字典(篇章条类型代码见附录表A.2)。约束/条件:O最大出现次数:N6.10篇章条所在页码中文名称:篇章条所在页码英文名称:charpterpagenumber缩写名:chapPNo定义:同一标准篇章条首次出现所在的页码。数据类型:数值型值域:正整数约束/条件:M最大出现次数:16.11篇章条父章节中文名称:篇章条父章节英文名称:parentchapternumber缩写名:parChpNo定义:当前篇章条的上一级章节的编号。数据类型:字符串值域:条层级最多4层的篇章条编号约束/条件:C最大出现次数:16.12篇章条顺序号中文名称:篇章条顺序号DB13/T2351.1—20166英文名称:charpterordernumber缩写名:chpOrdNo定义:篇章条的顺序号数据类型:数值型值域:正整数约束/条件:M最大出现次数:16.13文字中文名称:文字英文名称:word缩写名:wrd定义:以文字形式描述的标准内容。数据类型:自由文本约束/条件:O最大出现次数:16.14表格中文名称:表格英文名称:Table缩写名:Tab定义:以表格形式描述的标准内容。数据类型:复合型约束/条件:O最大出现次数:N6.15表号中文名称:表号英文名称:tablenumber缩写名:tabNo定义:标准内容中表格按特定规则的顺序编号。(表号定义说明见附录B.2.1)。数据类型:字符串值域:见附录B.2.2约束/条件:O最大出现次数:
本文标题:DB13T 2351.1-2016 标准文献结构化数据规范 第1部分全文元数据
链接地址:https://www.777doc.com/doc-8093630 .html