您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > DB13T 2351.3-2016 标准文献结构化数据规范 第3部分元数据著录规则
ICS01.140.20A14DB13河北省地方标准DB13/T2351.3—2016标准文献结构化数据规范第3部分:元数据著录规则StructureddataspecificationsofstandarddocumentsPart3:Descriptiverulesofmetadata2016-05-23发布2016-07-01实施河北省质量技术监督局发布DB13/T2351.3—2016I前言本部分按照GB/T1.1-2009给出的规则起草。DB13/TDB13/T2351《标准文献结构化数据规范》包括了3部分:——第1部分:全文元数据;——第2部分:指标元数据;——第3部分:元数据著录规则。本部分是第3部分,本部分与第1、2部分配套使用。本部分由河北省服务业标准化技术委员会提出并归口。本部分起草单位:河北省标准化研究院。本部分主要起草人:卢艳芳、施健、马星晓、谢燕、闫志强、张园园、陈南、李建勋、赵倩、安姣、郭天强、李朴。DB13/T2351.3—2016II引言标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元存储无法实现小颗粒度的指标数据的检索、比对分析。只有通过数据处理将非结构化文档转换为结构化或半结构化文档方能解决上述问题。为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此基础上,2013年又承担了国家标准化委员会标准化信息中心的《“双打”重点产品标准文献结构化内容数据库》项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言之,标准结构化加工抽取出的数据是哪些数据?2)抽取出来的数据进行加工应符合什么样的数据规范要求,方能满足与原始标准文本内容的一致性的需求。解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现;解决第二个问题,需要建立数据的著录规则,实现数据的规范性。项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据的规范要求,形成了《标准文献结构化数据规范》。目前,在行业内广泛使用的GB/T22373-2008《标准文献元数据》是针对标准文献题录的元数据标准,侧重的是标准文献形式特征,而此次制定的《标准文献结构化数据规范》是关于标准内容结构化的全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进标准文献信息资源的开发利用。DB13/T2351.3—20161标准文献结构化数据规范第3部分:元数据著录规则1范围本部分规定了标准文献结构化全文(全文、术语、图像、表格、公式)、指标元数据加工的术语和定义、著录项目、著录总则和著录细则等内容。本部分适用于标准文献结构化数据的处理。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T1.1标准化工作导则第1部分:标准的结构和编写GB/T7408数据元和交换格式信息交换日期和时间表示法(GB/T7408-2005,ISO8601:2000,IDT)GB18030信息技术中文编码字符集GB/T22373-2008标准文献元数据DB13/T2351.1-2016标准文献结构化数据规范第1部分:全文元数据DB13/T2351.2-2016标准文献结构化数据规范第2部分:指标元数据汉语分类主题词表中国科学技术信息研究所与北京图书馆主编(1980年)3术语和定义下列术语和定义适用于本文件。3.1著录description对文献的内容和形式特征进行分析、选择和记录的过程。[GB/T22373-2008,定义第3.10]3.2著录项目elements用以揭示标准文献形式特征和内容特征的记录事项。3.3核心元数据coremetadata描述信息资源基本属性的元数据元素和元数据实体。[GB/T26816-2011,定义3.5]4著录项目和核心元数据DB13/T2351.3—201624.1全文元数据著录项目和核心元数据全文元数据著录项目和核心元数据见表1。表1全文元数据著录项目、定义和核心元数据序号著录项目定义核心元数据0标识符名称空间中对象的唯一标识符。*1标准号由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号由标准代号、顺序号、发布年份及有关标识符组成。*2标准名称标准的中文名称*3篇章条编号标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见DB13/T2351.1-2015中的附录B.1.1)。*4篇章条名称标准中篇章条的标题名称。*5篇章条内容标准中篇章条的段落内容。*6篇章条类型描述篇章条类别。7篇章条所在页码同一标准篇章条首次出现所在的页码。8篇章条父章节当前篇章条的上一级章节的编号。9篇章条顺序号篇章条顺序号。10文字以文字形式描述的标准内容。*11表号标准内容中表格按特定规则的顺序编号。(表号定义说明见DB13/T2351.1-2015中的附录B.2.1)。*12表名描述表格主题的名称。*13表格图像路径表格图像文件存储的路径。*14表注标准内容中表格的注释。*15表格所在页码标准内容中同一表格首次出现所在页码。16同一表格顺序号跨页表格图像文件的顺序号。17表格HTML格式用HTML描述的表格信息。18图号标准内容中图像按特定规则的顺序编号。(图号定义说明见附录B.3.1)。*19图名描述图的主题的名称。*20图像路径图像文件存储的路径。*21图注标准内容中图像的注释。*22图像所在页码标准内容中同一图像首次出现的页码。23同一图像顺序号同一图号的图像在不同页赋予的顺序编号。24术语中文名称术语的中文标题名。*25术语英文名称术语的英文标题名。*26术语内容术语的定义内容。*DB13/T2351.3—20163表1全文元数据著录项目、定义和核心元数据(续)序号著录项目定义核心元数据27术语缩略语为了使用方便,使术语称谓中的成分进行有规律的节缩或者省略形成的词。28术语同义词表达意义相同或相近,但是表达形式不同的词汇。29术语禁用词禁止使用的术语。30术语注术语条款的注释。31术语所在页码标准内容中该术语首次出现所在页码。32公式名称描述公式的主题的名称。*33公式图像路径公式图像文件存储的路径。*34公式注公式的注释。*35公式所在页码标准内容中同一公式首次出现所在页码。36更新时间描述全文数据修改更新的时间。*37记录状态关于标准文献全文元数据库中记录所处的状态(修改、删除、新增)的说明。*38版本描述全文数据更新的版本编号。*39加工单位描述全文数据加工单位的信息。注:标星号“*”的数据项为核心元数据。4.2技术指标元数据著录项目和核心元数据技术指标元数据著录项目和核心元数据见表2。表2技术指标元数据著录项目和核心元数据序号著录项目定义核心元数据0标识符名称空间中对象的唯一标识符。*1标准号由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号由标准代号、顺序号、发布年份及有关标识符组成。*2标准名称标准的中文名称。*3标准对象描述一个实体的标准化活动的作用对象。*4指标对象描述一个实体的质量特征的作用对象。*5指标对象属性名称描述指标对象的特性、特征的名称。如:形状、颜色、气味、优劣、用途等都是指标对象的性质。*6指标对象属性值描述指标对象属性的内容。*7指标对象属性类型描述指标对象的类别。8指标影响因素名称对指标数据产生有一定约束关系的因素名称。如:环境因素、测试方法、工具、工艺、作用对象等。*9指标影响因素值指标影响因素的具体内容描述。*DB13/T2351.3—20164表2技术指标元数据著录项目和核心元数据(续)序号著录项目定义核心元数据10指标影响因素类型描述指标影响因素的类别。11指标名称描述实体质量特征属性的技术要求名称。*12指标内容某项技术要求的具体内容描述。*13计量单位技术要求的量值单位。14指标注指标的注释。*15表注标准内容中表格的注释。16试验方法验证指标的试验方法的一组信息。*17指标组ID一组指标数据的唯一识别符。18篇章条编号标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见DB13/T2351.1-2015中附录B.1.1)。19表号标准内容中表格按一定规则的顺序编号。(表号定义说明见DB13/T2351.1-2015中附录B.2.1)。20表名描述表格主题的名称。21更新时间描述指标数据修改更新的时间。*22记录状态关于标准文献指标元数据库中记录所处的状态(修改、删除、新增)的说明。*23版本描述指标数据更新的版本编号。*24加工单位描述指标数据加工单位的信息。25指标状态描述指标有效性的特征。一般分为3种状态:现行、作废、未实施。*26是否强制描述指标所在篇章条是否为强制性条款。*27指标类型指标的分类编码(体系)。28指标性质描述指标内容的类型是定性亦或定量。注:标星号“*”的数据项为核心元数据。5著录总则5.1著录依据可靠性标准结构化著录的依据应为标准文献本身,包括出版社标准文本数字版PDF文件或纸质印刷品扫描件。5.2著录数据完整性标准结构化著录的数据项不可短缺,著录的数据项内容信息应完整。5.3著录数据准确性标准结构化著录的数据项应真实反映所对应的标准内容。标引数据项应符合标引规则。DB13/T2351.3—201655.4著录数据有效性结构化标准著录数据应与标准更新内容保持一致,随时依据标准修订单信息,修改结构化数据;依据公告信息、文本信息修改篇章条的状态信息和强制性信息。5.5著录数据规范性5.5.1著录用字符集应符合GB18030的要求。注:在所有著录项目中有公式、图、表和超出GB18030字符集范围的特殊字符或者其组合的,均以图像文件的形式加工著录。5.5.2著录格式5.5.2.1文字格式5.5.2.1.1日期和时间日期和时间格式应符合GB/T7408的要求。5.5.2.1.2上下角标在数据项中有上下角标的,应按下列要求转化:上角标为supXX/sup,下角标为subXX/sub,当上下角标同时存在同一个文字、符号或数据时,应遵循“先上后下”的著录原则,优先著录上角标后,再著录下角标。示例1:SO2著录为:SOsub2/sub示例2:SO42-著录为:SOsup2-/supsub4/sub示例3:著录为:25.5sup+1.5/supsub-1.5/sub5.5.2.1.3多值分隔符标准结构化数据项为多值时,多值之间用半角分号“;”隔开。5.5.2.1.4空格处理著录时应删除不必要的空格,下列情况除外:a)篇章条编号和篇章条名称之间保留的半角空格;b)标准号中标准代号与标准顺序号之间的半角空格;c)标准名称中引导要素、主体要素和补充要素之间的空格;d)英文单词间的半角空格;e)去掉容易引起歧义和混淆的空格(见示例)。示例:1ml0.5mol/LHCL中的“LHCL”之间的空格去掉后成为了“LHCL”,容易产生混淆,所以不可去除。5.5.2.2图像格式图像格式应符合以下要求:a)图像应以图号或图名为单位进行截取,有分图的(见图1含有分图的图像示例)应以总图的图号为截取单位,不应单独截取分图(跨页图片除外);b)截取的图像不应包括图号、图名、图注、图脚注和图说明等文字内容;DB13/T2351.3—20166c)图像分辨率应为600dpi;d)图像的边框应完整,图像的倾斜度应为±1º;e)图像截取应在PDF
本文标题:DB13T 2351.3-2016 标准文献结构化数据规范 第3部分元数据著录规则
链接地址:https://www.777doc.com/doc-8093635 .html