您好,欢迎访问三七文档
数据质量管理1/332019年7月29日2/33目录第一章数据质量管理概述...........................................41.1数据质量管理定义...........................................41.2数据质量管理评价标准......................................41.3数据管理成熟度.............................................51.4数据质量问题分类...........................................5第二章数据质量问题的原因与实施方法...............................72.1数据质量问题的原因分析....................................72.2数据质量管理的意义........................................8第三章数据清洗...................................................103.1数据清洗加工原则..........................................103.2数据清洗质量评估要求.....................................103.3数据清洗角色定义..........................................113.4数据清洗的方法............................................123.4.1数据预处理..........................................133.4.2数据清洗.............................................15第四章数据质量管理系统..........................................214.1系统定位..................................................214.2系统价值..................................................214.3系统架构..................................................214.3.1逻辑架构.............................................214.3.2技术架构.............................................224.3.3功能架构.............................................224.4主要功能模块..............................................234.4.1数据质量定义模块....................................234.4.2质量检查任务调度模块................................264.4.3检查结果采集模块....................................284.4.4质量问题分析模块....................................284.4.5系统配置管理模块....................................303/33第五章名词解释...................................................31第六章参考资料...................................................324/33第一章数据质量管理概述1.1数据质量管理定义数据质量管理(DataQualityManagement),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。DAMA(国际数据管理协会)中对数据质量管理的阐述如下:数据质量预期为定义数据质量框架提供必要的输入。此框架包括定义需求、定义检查策略、定义度量和定义反映数据质量和绩效变化的监控措施。这些需求反映了业务数据预期的3个方面:以一种方式将数据预期记录在业务规则中,以一种方式在该维度上度量数据质量,以及一个可接受度的阈值。1.2数据质量管理评价标准数据质量度量的规则有很多,一般常用的如下:一致性:一致性是指统一数据来源、统一存储和统一数据口径,确保一个数据集的数值和另一个数据集的数值一致,一致性主要考察的是业务约束检查;有效性:有效性是指数据实例的存储、交换或针线的格式是否与数据值域一致,是否与其他相似的属性值一致,有效性确保了数据值遵循与数据元素的多个属性:数据类型、精度、格式、预定义枚举值、值域范围及存储格式等,有效性主要考察的非法值检查,数据格式校验;准确性:准确性是指数据准确反映其所建模的“真实世界”实体的程度,通过度量数据值与一个已确定的正确信息参照源的一致性来衡量其准确性。准确性主要考察码值校验;完整性:完整性是指一个数据集的特定属性都被赋予了数值或者一个数据集的全部行记录都存在。包括实体不缺失、属性不缺失、记录不缺失和字段值不缺失四个方面完整性,主要考察空值校验、记录数校验等;合理性:合理性指按用户实际情形进行校验规则扩展;5/33唯一性:唯一性主要体现在一个数据集中,没有实体多余一次出现。满足实体唯一性,说明没有实体出现多余一次,并且每个唯一实体有一个键值,且该键值只指向该实体。唯一性主要用于主键重复检查、主外键校验、总分校验;及时性:指数据刷新、修改和提取等操作的及时性和快速性,数据的采集和入库要满足业务发展和管理的时效性要求;精确性:指计量误差、度量单位等方面的精确程度。1.3数据管理成熟度数据质量成熟度模型分为四个等级,分别是初始级-定义级-管理级-优化级;初始级:通过数据库进行数据管理;定义级:通过模型管理进行数据管理;管理级:通过元数据进行数据管理;优化级:通过企业标准数据架构进行数据管理;其中,初始级和定义级阶段,每个系统都是分离的数据管理,非标准的独立的数据管理,管理级和优化级阶段,采用企业集成数据管理和标准化元数据管理。1.4数据质量问题分类6/33数据质量主要针对单数据源数据和多数据源数据两方面,两种类型数据都由实例层数据和模式层数据组成。数据清洗技术是解决数据质量问题的一种有效方法,可以检测和修正实例层的脏数据。但是数据清洗技术无法全面地解决数据质量问题中模式层的脏数据,必须借助数据整合技术。7/33第二章数据质量问题的原因与实施方法2.1数据质量问题的原因分析数据质量的问题突出表现在:核心问题收入减少、成本增加、风险增高。分别从信息化标准建设、信息管理制度、数据管理流程、技术能力建设方面来看数据数据质量问题的原因:1)信息问题域:缺乏统一的数据描述导致业务理解差异信息标准不统一产生低质量的数据,导致业务人员对数据缺乏信心2)管理问题域对数据质量的价值及其重要性认识不足缺乏专门的数据质量管理组织与相关的管理制度3)流程问题域需求变更、开发测试等方面没有流程规范和制度数据创建、数据使用、数据维护等方面没有流程规范和制度4)技术问题域系统建设重功能轻数据系统接口复杂,数据流向不清,缺乏对数据的整体规划具体数据处理的各技术环节的异常造成的数据质量问题8/332.2数据质量管理的意义可灵活配置检核规则:内置多种数据质量问题的检核规则,支持灵活的检核规则配置。有效监测数据质量问题:建立企业数据平台的数据纵横监控网,有效发现仓库内的数据质量问题,并提供数据告警和质量问题分析报告。建立质量评价体系:建立考核指标,量化数据质量的整体情况,找出数据质量的薄弱环节。提供多种系统接口:预留了与多种系统的接口,系统间无缝集成。规范的问题管理流程及制度,精确管理问题每个阶段,完善的质量问题解决共享机制,实现数据质量的闭环管理2.3数据质量管理的方法论数据质量管理的方法论和过程采用PDCA的问题处理机制,具体的数据质量提升周期包括评估——认知和行动阶段,管理策略包括:数据质量指标——质量检核运行——质量问题报警——质量问题分析——问题管理流程。(1)定义业务需求和方法:定义企业的数据质量管理需求,确定数据质量管理和评估的标准;(2)分析信息环境:分析当前的企业信息化环境和系统数据,以及数据质量管理制度和流程是否满足数据质量管理实施的条件;9/33(3)评估数据质量:根据选用的数据质量标准和评估体系,对当前系统的数据进行数据质量评估;(4)评估业务影响:根据数据质量检测的结果,评估数据质量问题对业务的影响程度;(5)识别根本原因:采用鱼骨图等方式,分析探究产品问题数据的根本原因;(6)制定提升方案:根据数据质量问题的产生原因和数据质量管理标准,制定提升方案;(7)预防未来数据错误:制定和执行数据质量提升方案,强制要求新入库的数据按照新的数据质量规则进行处理,确保未来数据满足质量管理要求;(8)发现及纠正当前数据错误:按照数据质量标准和业务处理建议,将当前错误数据进行数据清洗和转换,使得历史数据也满足质量管理要求;(9)实施监督控制:对整个数据质量管理流程进行全流程、全方位的监督控制,确保数据标准定的好、落得下,数据质量问题抓得准、改的好,数据质量能得到全面提升;(10)沟通行动和结果:在数据质量问题处理过程中,数据质量管理员收集在问题处理过程中涉及到各种资料和方法,反馈到数据管理主管及相关人员。同时将数据质量管理指标和问题处理经验的知识库沉淀。10/33第三章数据清洗针对数据质量问题,目前的主要处理方式是进行数据清洗。3.1数据清洗加工原则1)方法一致性数据资源清洗加工工作应统一决策,同一数据库范围内工作方法、技术指标均应当统一,从而达成数据产品的一致性。2)数据可信性数据可信性包括精确性、完整性、一致性、有效性、唯一性。精确性:描述数据是否与其对应的客观实体的特征相一致。完整性:描述数据是否存在缺失记录或缺失字段。一致性:描述同一实体的同一属性的值在不同的系统是否一致。有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。唯一性:描述数据是否存在重复记录。3)数据可用性数据可用性包括时间性、稳定性等。时间性:描述数据是当前数据还是历史数据。稳定性:描述数据是否是稳定的,是否在其有效期内。3.2数据清洗质量评估要求数据清洗的评估实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的重点在于数据的含义、内容、分类、分级、质量的评价指标等的研究分析。数据清洗质量评价可以归纳包含以下12个维度的基本评估指标:a)数据规范(Dataspecification):对数据标准、数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准;b)数据完整性准则(Dataintegrityfundamentals):对数据进行有关存在性、有效性、结构、内容及其他基本数据特征的测量标准;11/33c)重复(Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准;d)准确性(Accuracy):对数据内容正确性进行测量的标准;e)一致性和同步(Consistencyandsynchronization):对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量,以及使数据等价处理流程的测量标准;f)及时性和可用性(Tim
本文标题:数据质量管理
链接地址:https://www.777doc.com/doc-6817247 .html