您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 规章制度 > 数据分类与编码标准介绍.
医药卫生科学数据共享网总中心国家科技基础条件平台医药卫生科学数据共享网资源体系建设与标准规范建设培训张业武资源体系建设课题组标准规范建设课题组2008年11月29日北京数据分类与编码标准介绍张黎黎主要内容不能缺少科学数据共享活动涉及科学数据的汇交、分发、服务和应用环节,也涉及科学数据的采集、加工和处理环节。分类是人们认识事物的基础,对某种类别的数据作层次分类并对分类结果赋予特定代码,以达到对该种数据类别或其分类结果在语义上无歧义理解。科学数据分类编码的目的在于准确地识别主题数据集的内容属性,将主题概念进行分析,并将分析的结果转化为分类编码语言;实施对数据的有效管理,并能按类别开发利用数据,实现数据共享。科学数据共享一、背景意义一、背景意义数据集内容可以从不同的属性进行划分:疾病分类,ICD--促进死亡率统计指标的可比性;图书文献分类、学科分类,中图法--组织藏书排架;业务属性,数据集分类--高层进行数据归并和信息组织。体现--数据集内容的主题属性医药卫生科学数据集的内容,围绕数据产生过程中所容纳的一系列主题描述展开。主题成为数据集分类与编码的内容属性之一,同时,数据集若体现机构、学科、病种等属性,也要做为内容的分类标识属性。一、背景意义内容二标准研究意义本标准就是对医药卫生科学数据主题数据集进行分类和编码时应遵循的原则和方法,是分类和编码标准制定的指导性标准。确立数据分类与编码的原则与方法,指导和规范各数据资源建设单位研究和制定各类共享科学数据分类与编码标准,推动和促进科学数据的集成与共享。标准内容封面目次前言引言名称1.范围2.规范性引用文件(略)3.术语和定义(略)4.分类原则5.分类方法6.类目设置规则7.编码原则8.编码方法9.代码设计10.分类与编码标准文档结构1.范围2.规范性引用文件(略)3.术语和定义(略)4.分类原则1)系统性原则综合考虑数据主题一致性,按其内在联系进行系统化排列,确保类目唯一、结构合理、层次清晰,减少冗余。2)实用性原则满足数据集分类编目的简便性、可操作和通用性需求和数据集查询的一致性理解。3)可扩展性原则保证分类体系框架适应数据集不断丰富的内容和日益增长的种类与数量。4.分类原则4)兼顾科学性原则自顶向下,优先选择最能代表卫生信息数据集主题的语言、词条定义类目名称,编制受控分类体系表。5)稳定性原则使用稳定的因素作为分类依据,同时提高分类体系的可延展性或兼容性,促进稳定性。1)主题优先法5.分类方法分类体系首先依据主题构建主分类框架,分类框架各层级类目可表示为一级、二级、三级类目等。5.分类方法2)多属性复分法数据集以相同主题构建,在若干相同主题数据集中,又根据其个性,如时间、地域、疾病、学科、机构等多属性,构成辅助分类体系,即复分类体系。5.分类方法2)多属性复分法特有属性1类目1类目2类目3......特有属性3类目1类目2类目3......特有属性2类目1类目2类目3......特有属性n类目1类目2类目3......5.分类方法3)组配分类法组配分类法是按照多维度、交叉性方式,将数据集主分类框架与复分类表组合使用,对数据集进行分类的规则。在某个主分类下的卫生信息数据集的组配分类示意。5.分类方法3)组配分类法6.类目设置规则1)主分类目界定规则a)类目名称与主题对应b)类目名称规范c)同位类互斥d)数据集存在性e)类目均衡f)层次逐级隶属6.类目设置规则2)复分类目界定规则a)复分类表的类目根据特有属性分区段设置,每个区段对应数据集的一个特有属性,构成一个复分类的类目。b)复分类的类目间无层级、无关联,无顺序约束,属于分区段的松耦合约束。c)复分类目区段个数可根据实际需要进行扩展。6.类目设置规则3)主分类目层级约束规则a)分类体系的展开层次决定着分类导航系统的导航程度,层次越多越深,知识被组织得越细密,用户查找信息耗费的时间和精力就越多。b)主分类层次应控制在3级-6级之间。6.类目设置规则4)复分属性有限性控制复分类表属性宽度的控制应该充分考虑数据集内容的特有属性进行设置,详细描述、全面覆盖数据集内容信息,多属性组配,增加数据集管理维度、提高数据组织和生产的效率和质量,增强数据集聚类的灵活性、增加检索入口,适应计算机检索的需要。1)唯一性在一个编码体系中,每一个编码对象仅应有一个代码,一个代码只唯一表示一个编码对象。2)匹配性代码结构应与分类体系相匹配。3)可扩充性代码应留有适当的后备容量,以便适应不断扩充的需要。7.编码原则4)简洁性代码结构应尽量简单,长度尽量短。5)区段性在数据集编码体系设置若干区段,每个区段表达不同的类目属性,便于实现不同维度检索。7.编码原则代码有含义代码无含义代码缩写码层次码并置码组合码顺序码无序码递增顺序码系列顺序码约定顺序码8.编码方法按GB/T7027规定的方法1)主分类表码位设计分类框架中每一个类目设定惟一的主分类编码,编码为11位混合码。第1位第2位第3位第4位第5位第6位第7位第8位第9位第10位第11位亚门类大类小类一级二级三级字母码数字码数字码数字码数字码数字码A—Z01—9901—9901—9901—9901—999.代码设计2)复分类表码位设计复分类表需依据数据集的特有属性采用分段编码设计,其基本内容可以由诸如卫生机构、疾病分类和学科分类等多个区段组成,表述格式为×××××××××(GB/T11714)--×××.×××(GB/T14396)--×××.××××(GB/T13745)--……。对扩增属性,代码按照同一规则设计。9.代码设计10.分类与编码标准文档结构内容三1.范围2.规范性引用文件(略)3.术语和定义(略)4.分类原则与方法5.类目设置规则6.编码原则与方法7.编码设计规则8.分类与编码的应用9.分类与代码表10.附录标准内容标引的原则标引步骤组配技术的使用分段标记法的使用分类标引中若干问题的处理8.分类与编码的应用9.分类与代码表
本文标题:数据分类与编码标准介绍.
链接地址:https://www.777doc.com/doc-4602624 .html