您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > WST 305-2023 卫生健康信息数据集元数据标准
—2023代替WS/T305-2009卫生健康信息数据集元数据标准Metadataspecificationofhealthinformationdataset2023-08-07发布2024-02-01实施中华人民共和国国家卫生健康委员会 发布前言本标准为推荐性标准。本标准代替WS/T305-2009《卫生信息数据集元数据规范》。与WS/T305-2009相比,主要为编辑性修改。本标准由国家卫生健康标准委员会卫生健康信息标准专业委员会负责技术审查和技术咨询,由国家卫生健康委统计信息中心负责协调性和格式审查,由国家卫生健康委规划发展与信息化司负责业务管理、法规司负责统筹管理。本标准起草单位:中国人民解放军总医院、国家卫生健康委统计信息中心、中国人民解放军空军军医大学。本标准主要起草人:刘丽华、王珊、张黎黎、李林、王霞、刘建超、胡建平。卫生健康信息数据集元数据标准1范围本标准规定了数据集元数据内容框架、卫生健康信息数据集核心元数据、卫生健康信息数据集参考元数据、引用信息与代码表。本标准适用于作为卫生健康信息数据集属性的统一规范化描述,也可用于卫生健康领域针对数据集制定专用元数据标准的依据。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本标准必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本标准;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本标准。GB/T2260中华人民共和国行政区划代码GB/T7408数据元和交换格式信息交换日期和时间表示方法WS/T306卫生健康信息数据集分类与编码规则RFC2396统一资源定义符:通用语法3术语和缩略语下列术语和缩略语适用于本标准。3.1术语3.1.1元数据metadata定义和描述其他数据的数据。3.1.2数据集dataset具有一定主题,可以标识并可以被计算机化处理的数据集合。3.1.3元数据元素metadataelement元数据的基本单元。3.1.4元数据实体metadataentity一组说明数据相同特性的元数据元素。可以包含一个或若干个元数据实体。3.1.5元数据子集metadatasection元数据的子集合,由相关的元数据子集和元数据元素组成。3.1.6数据元dataelement用一组属性规定其定义、标识、表示和允许值的数据单元。3.2缩略语XML:可扩展标记语言(ExtensibleMarkupLanguage)4数据集概述4.1数据集基本概念对数据集概念的详细解释可见WS/T306。4.2卫生健康信息数据集对卫生健康信息数据集的阐述可见WS/T306。5卫生健康信息数据集元数据概述5.1元数据内容组成卫生健康信息数据集元数据规定了两个层次的元数据内容的集合:核心元数据与参考元数据,其中参考元数据包含了核心元数据,它们之间的内容包含关系见图1。图1核心元数据与参考元数据的内容包含关系5.2元数据结层次构元数据结构:元数据元素、元数据实体和元数据子集。元数据元素是元数据的最基本的信息单元。例如,数据集名称、数据集标识符、元数据创建日期等,是最基本的属性信息单元,用元数据元素来表示。元数据实体是同类元数据元素的集合,用于一些需要组合若干个更加基本的信息来表达的属性。例如“数据集提交和发布方”需要“单位名称”、“联系人”、“联系电话”、“通讯地址”等若干个基本信息来说明,而数据集“关键词说明”需要“关键词”和“词典名称”来说明,对于“数据集提交和发布方”和“关键词说明”这类属性用元数据实体来表示。元数据子集由共同说明数据集某一类属性的元数据元素与元数据实体组成,例如标识信息、内容信息、分发信息等。5.3元数据的摘要描述5.3.1元数据的摘要描述符主要采用摘要描述方法定义和描述卫生健康信息数据集的元数据内容。摘要描述的方法通过表1所列的描述符针对元数据的元素、实体与子集进行定义。“约束”表示一个描述符是“必选”(M),还是“条件选”(C),或者是“可选”(O),摘要描述符见表1。表1摘要描述符描述符约束备注中文名称M定义M英文名称M数据类型M取值规则C描述元数据元素时必选,描述元数据子集、实体时不选短名M子元素C描述元数据子集、实体时必选,描述元数据元素时不选注解M5.3.2中文名称元数据子集、实体或元素的中文名称,即为核心元数据的元数据实体或元数据元素的中文名称。5.3.3定义描述元数据子集、实体或元素的基本内容,是卫生健康信息数据集某个属性和特征的概念与说明。5.3.4英文名称元数据子集、实体或元数据元素的英文名称,一般使用英文全称。英文名称中,词汇均采用无缝连写。元数据子集与实体英文名称的每个词汇的首字母均为大写,元数据元素英文名称的首词汇全部小写,其余词汇的首字母采用大写。5.3.5数据类型对元数据的有效值域和允许对该值域内的值进行有效操作的规定。元数据实体与元数据子集的数据类型为复合型,元数据元素的数据类型包括为数值型、布尔型、字符串、日期型和复合型等。当元数据元素的数据类型为复合型的时候,表明该元数据元素使用了引用信息中的引用数据类型。引用数据类型是由一组元素组成、能被重复引用的元素集合。例如,“数据集提交和发布方”和“元数据维护方”两个属性,要共同用到“单位名称”、“联系人”、“联系电话”、“通讯地址”、“邮政编码”和“电子邮件地址”这一组子元素来表示,为了表达的方便,卫生健康信息元数据定义了一个叫做“负责方”的数据类型见本标准9.1.1条款,供“数据集提交和发布方”和“元数据维护方”进行引用。5.3.6取值规则元数据子集、实体或元素取值方式的说明。5.3.7短名元数据元素、实体或子集的英文缩写名称,具体缩写规则如下:a)短名在本标准范围内必须唯一。b)对存在国际或行业惯用英文缩写词汇的元数据元素或元数据实体,采用惯用英文缩写作短名。c)对于根据英文名称或自定义的短名,在可以保证其(本标准范围中的所有短名范围内)唯一性的情况下取每个词汇的前3位字母作为其短名,当如此取词时发现不能够保证短名标识的唯一性时,应当延展取词的位数,通常增加1位。如果仍然不能满足唯一性要求,则照此顺延。d)元数据子集、元素和元数据实体的短名中,词汇均采用无缝连写。元数据子集与实体短名中每个词汇的首字母均为大写;元数据元素短名的首词汇全部小写,其余词汇的首字母采用大写。5.3.8子元素子元素是通过一定的表示规则以确定一个元数据实体中包含的下一级的元数据实体或元数据元素。表示规则为:“标识符=表达式”。表达式中各符号的含义见表2。表2表达式的符号含义符号含义=由……替换、生成,由……组成+与|或(选择)——在由“|”分开的两项之中选择其一0{a}1表示{}中的元数据元素a为可选/条件必选项,且最大出现次数为1;若为条件必选项,约束/条件参见其注解0{a}n表示{}中的元数据元素a为可选/条件必选项,且最大出现次数为N;若为条件比选项,约束/条件参见其注解a表示元数据元素a为必选项,且最大出现次数为11{a}n表示{}中的元数据元素a为必选项,且最大出现次数为N在子元素表示中,{}中均使用元数据元素或实体的中文名称。例如:子元素:关键词说明=1{关键词}n+0{词典名称}15.3.9注解对元数据子集、实体或元素的含义的进一步解释,包括该元数据的约束/条件(必选、可选或条件必选)和最大出现次数。当该元数据为条件必选时,应注明其约束条件。5.3.9.1约束/条件以“必选项”、“可选项”、“条件可选”等文字说明元数据子集、实体或元素是“必须(M)”、“可选(O)”或者“条件可选(C)”。可选元数据子集或元数据实体可以有必选元数据实体或元素。但这些必选的实体或元素只有当上一级的可选子集或实体被选用时才成为必选的;如果上一级的可选元数据子集或实体未被选用,则其所包含的必选实体或元素也不选用。5.3.9.2最大出现次数说明元数据子集、实体或元素可以重复出现的次数。只允许出现一次的用“1”表示,允许重复出现(但重复的次数不是固定值)的用“N”表示。不为1的固定出现次数用相应的数字表示,如“2”、“3”、“4”等。5.4适用功能5.4.1数据集元数据著录对具体的卫生健康信息数据集选择元数据内容进行描述时,以核心元数据作为著录(根据必选、可选等约束条件)的基础,然后根据需要可以选择参考元数据的内容进行著录,见图2:图2直接作为著录标准的使用方式用户针对卫生健康信息数据集进行元数据著录的示例,可参照本标准附录A(以只著录核心元数据内容为例)。5.4.2制定专用标准的依据在卫生健康领域内,以数据集为对象制定专用的元数据标准时,可依照本标准进行制定。所制定的数据集专用元数据标准,必须包含核心元数据的内容,同时将参考元数据的内容作为扩展内容的参考,使用方式见图3:图3作为制定专用标准依据时的使用方式要在卫生健康信息参考元数据的基础上继续进行元数据内容的扩展时,应当符合附录B的要求。6元数据内容框架卫生健康信息数据集元数据的全集,即参考元数据的内容规定了7个元数据子集,分别如下:a)元数据标识信息(子集):包含元数据本身的基本信息,如名称、维护方、创建日期等。b)数据集标识信息(子集):包含元数据所描述的数据集的基本信息,包括名称、标识符、提交或发布方等。c)内容信息(子集):内容信息提供数据内容特征的描述信息,包括摘要、特征数据元等。d)分发信息(子集):分发信息包含有关资源分发者的信息以及用户获取资源的途径。e)数据质量信息(子集):数据生产者有关数据集数据志信息的一般说明。f)限制信息(子集):包含对数据集和元数据进行访问和使用的限制信息。g)维护信息(子集):包含关于元数据或数据集的更新频率及更新范围的信息。参照UML类图中聚集关系与依赖关系的表示方法,概要描述了卫生健康信息数据集参考元数据的内容框架(见图4)。图4卫生健康信息参考元数据内容构成7个子集是参考元数据这一整体的组成部分,在图4中标记出了各自的可出现次数。元数据标识信息(子集)、数据集标识信息(子集)、限制信息(子集)和维护信息(子集)中有元数据元素使用到了引用信息中由本标准定义的数据类型,所以它们对引用信息存在依赖关系。7卫生健康信息数据集核心元数据7.1概述卫生健康信息核心元数据包括8个必选元数据元素或实体,10个可选元数据元素与实体。卫生健康信息数据集核心元数据内容见表3,其中的第四列“约束”是指该元数据元素或元数据实体是“必选(M)”,或者是“可选(O)”,第五列是说明核心元数据在参考元数据中的相应位置。表3卫生健康信息数据集核心元数据内容序号核心元数据内容元素与实体约束在参考元数据中的位置1数据集名称元素M数据集标识信息子集2数据集标识符元素M数据集标识信息子集3数据集摘要元素M内容信息子集4数据集提交或发布方元素M数据集标识信息子集5关键词说明实体M数据集标识信息子集6数据集语种元素M数据集标识信息子集7数据集特征数据元元素O内容信息子集8数据集发布日期元素O发布信息子集9数据集发布格式实体O发布信息子集10在线访问地址元素O发布信息子集11数据集分类实体O数据集标识信息子集12相关环境说明元素O数据集标识信息子集13元数据创建日期元素M元数据标识信息子集14元数据标识符元素M元数据标识信息子集15元数据负责方元素O元数据标识信息子集16元数据标准名称元素O元数据标识信息子集17元数据标准版本元素O元数据标识信息子集18元数据更新日期元素O元数据标识信息子集摘要描述7.2.1
本文标题:WST 305-2023 卫生健康信息数据集元数据标准
链接地址:https://www.777doc.com/doc-12715561 .html