您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 元数据管理与数据质量平台
1.1.1数据质量管理架构数据质量问题一直是困扰数据仓库发挥积极作用的重要因素,在数据仓库建设之初就应当从战略角度对数据质量体系进行规划。1.1.1.1数据质量基础定义1.1.1.1.1完整性数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是否覆盖各个方面。例如:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。例如,客户名称有姓无名等,客户档案是否齐全,是否客户所有业务都包含在内等。完整性破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。完整性列表:数据完整性,例如属性数据是否残缺,数值类型数据是否有空数据业务完整性,例如是否有些业务没有包含在内,是否涵盖所有生产系统和必要的外部数据(例如竞争数据,保监会数据),是否覆盖所有客户(例如是否覆盖全部客户)设计完备性,设计是否完善模型的完备性数据字典完备性映射关系完备性业务规则是否完备元数据完备性加工层次完整性,加工过程中重要的中间数据是否保存,例如,有月统计数据,考察日数据是否存在?粒度完整性,重要经营指标各个粒度数据应该完善方案11.1.1.1.2有效性指数据包含了一个有效的数据格式或值1.1.1.1.3一致性数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是争取解决这个问题。一致性定义为各个系统数据的统一,定义为数据仓库系统内数据定义的统一。一致性还表现在定义和口径的一致性。数据库一致性,设计上是否有多种存储并存,各类统计口径是否统一冗余和星型模型以及非第三范式一致性保证措施和源数据一致性1.1.1.1.4唯一性唯一性定义为系统数据定义的唯一性。由于数据仓库技术不一定受第三范式约束,可能具有相当的冗余,但数据冗余不能违反定义的唯一性原则。对于哪些既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意,因为极容易由于生成的时间差造成不一致。唯一性至少应当向系统的用户说明最终的数据评判标准,数据的冗余和评判应当是元数据管理的重要内容。1.1.1.1.5正确性数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但数据的正确性难以通过自身检查。应该对重要数据和重要统计设立正确性检查。主要方法是:数据自身统计检验纵向对比检验数据间按逻辑交叉检验横向对比校验主要检查的内容:方案2ETL过程正确性加工过程正确性数据整合正确性模型正确性展现正确性查询正确性核对过程是否充分1.1.1.1.6准确性数据的正确性基础上才有意义讨论准确性。准确性包括精度和近似规则。精度:系统定义的数据必须满足的精确性要求。例如,客户生日,可以精确到年,或月,或日;全局收入统计或许到万元即可,也许到角分。1.1.1.1.7可用性数据的可用性不是一个简单数据质量问题,而是系统质量问题,所有质量因素都可能影响到可用性。数据的可用性主要体现在使用的效率上1.1.1.1.8时效性1.1.1.1.9清晰性数据的清晰性考验系统元数据的精度。元数据必须清晰定义每一个数据的来龙去脉。必须没有歧义。1.1.1.1.10充足性数据的充足性定义在保证数据正确性和准确性基础上是否能对主要业务专题提供足够的数据进行足够精度的分析需求。例如,进行时间序列分析通常需要至少36个连续时间单位的数据,是否能够提供这个时间序列。方案3数据积累是否足够广泛,例如设计上虽然包含了足够宽广的业务领域,但每项业务的数据是否真的收集到了足够多,数据积累是否足够时间,充足性的特殊情况,是否收集了足够时间长度的数据元数据和字典数据的充足性,描述性是否足够1.1.1.2数据质量保证框架1.1.1.2.1战略战略–从企业战略方向主动的考虑数据质量状况。战略的意义:提供了战略上的、可操作的数据质量保障方向识别企业数据的关键因素指明数据质量的范围战略的范围:策略:包含以下方面的内容,任务定义与业务的关系切入点方案4约束条件可行性关键方法:包含以下方面,方向使规范化保障策略被顺利执行的手段变更管理:为了适应企业变更而采取相应的数据质量管理变更机制1.1.1.2.2组织组织–为了达成企业的数据质量目标,从企业行政管理以及职能设置上进行考虑。组织指的是如何组织相应的人员、设立相应的数据质量机构对数据质量进行管理,包含以下方面:组织机构规划人员及其职责设计制定考核制度1.1.1.2.3管理管理–对于企业中元数据以及业务规则的维护上予以管理管理包含以下范畴:定义完整的元数据集定义无二义性、易于理解的业务规则建立一个健壮的、高可扩展的数据模型1.1.1.2.4架构架构–从整体上(数据、应用程序、技术架构)对改进数据质量予以考虑方案5架构的建立应从以下方面进行考虑:数据架构应用程序架构基础架构1.1.1.2.5过程过程–过程的改进过程关注的是数据质量管理的过程,应从以下方面进行考虑:数据质量管理的实施过程过程控制点以及控制路线(错误或异常的)补救措施1.1.1.2.6验证验证–定义数据质量的评测标准并按所制定的标准对其进行验证,只有确立相应标准,数据质量的控制才具有现实意义。验证包含以下内容:1.1.1.2.6.1数据的重要程度,可以从以下方面进行判断:对日常操作的影响对一般业务的影响对财务上的影响对客户服务的影响对决策的影响1.1.1.2.6.2数据质量维度--数据质量问题域汇总序号数据质量问题细目备注1完备性是否涵盖所有生产系统和方案6必要的外部数据是否涵盖所有业务是否覆盖所有客户是否覆盖所有产品系统设计完备性数据字典完备性映射关系完备性业务规则是否完备元数据完备性2完整性数据完整性业务完整性数据模型完整性加工层次完整性粒度完整性3充足性对问题域的解决方案是否有足够的数据作为分析基础数据积累是否足够广泛数据积累是否足够时间元数据和字典数据的充足性4正确性ETL过程正确性加工过程正确性数据整合正确性模型正确性展现正确性查询正确性核对过程是否充分方案75准确性数据精度是否足够近似模型是什么6一致性数据库一致性主键,外键完整性冗余和星型模型以及非第三范式一致性保证措施和源数据一致性7逻辑性逻辑严密性是否有严密的逻辑约束数据逻辑关系表内表间关系8职业道德和法律结果不可修改特性9数据质量保证体系数据出错处理和防范预案10分析质量报表质量查询质量接口数据质量非生产数据质量例如市场竞争数据1.1.1.2.7沟通沟通–关注使用数据信息的相关责任者之间的沟通,要充分关注数据质质量组织机构中的员工、不同的团体以及单位之间的相互沟通。1.1.1.2.8执行执行–指组织中的每个成员都应改遵守数据质量管理所制定的要求、决定。方案81.1.1.3数据质量持续改进过程发起–按照制定的规范获取相应的项目资源、支撑工具以及制定工作计划。定义–定义详细的过程、数据、组织的划分以及质量元素、标准及测算方法。评估–对现存数据及业务环境进行评估,以便识别项目对数据、过程、系统以及组织架构所造成的影响。清洗/改进/评测–改进现有数据的数据质量,并采取措施修改业务环境,避免类似错误继续发生。强调循环改进1.1.2元数据管理架构国有资产管理支持系统数据仓库数据源广泛,数据消费者群体跨度也很广,各种指标、维度、统计口径等元数据相关的问题必然是项目面临的巨大挑战之一。1.1.2.1元数据基本概念元数据(MetaData)是关于数据的数据。当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据;元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到方案9每本书的索引则是元数据。元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,特别是那些即将要从OLTP系统上升到DW/BI体系建设的企业,元数据可以帮他们形成清晰直观的数据流图。元数据的概念虽然在国内刚刚被人们熟悉起来,但在国外他已经历了较长的发展历史。从上世纪60年代,人们认识到元数据的需要,到数据字典、CASE工具的应用,以及上世纪90年代数据仓库体系中元数据存储库的出现,直到现阶段国外企业以元数据为驱动的IT系统建设的方法论流行。企业对于元数据的价值越来越有深刻的体会。元数据按其描述对象的不同可以分三大类:技术元数据、业务元数据和管理元数据。技术元数据主要用是用来描述数据实体和数据处理过程中的技术细节和处理规则。比如我们所熟知的表结构、ETL映射关系等,这类元数据主要是系统建设的技术人员使用。业务元数据主要是对IT系统的数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等。我们经常提及的KPI定义和报表统计规则等就属于此类元数据。业务元数据主要的使用者是业务人员和公司决策人员。管理类元数据主要是对项目管理、IT运维、IT资源设备等相关信息的描述。这类元数据主要是企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。元数据的管理方式有三种:集中式、分布式和混合式。集中式的管理方式是把原有系统中的元数据抽取出来,用一个独立的系统来集中管理。此类管理方式优点是:可高效存取信息、独立于被集成的系统和具备存储附加元数据的能力;缺点是:由于额外的执行和维护降低了ROI和实时性。分布式管理方式是不具备独立的元数据存储库,系统实时的连接到原有的系统。这种方式的优点是:适时性比较好和能保证元数据的质量;缺点是:过度依赖于集成系统和不能存储附加元数据。混合式元数据管理既有独立的元数据存储库又可实时的连接到原有的系统。混合式管理方式克服了集中式和分布式管理的各自缺点,同时集成了前两种管理方式的优点,既能适时的捕获和反映原有系统元数据的情况,又能让用户扩展和定义附加的元数据。元数据管理目前遵循的规范为CWM(CommonWarehouseModel)。该规范是方案10由OMG组织制定的,此规范目的是能在不同的系统之中可以自由、便捷的交换元数据。CWM核心的技术有三个:UML(UnitedModelingLanguage)、MOF(MetadataObjectFacility)和XMI(XMLMetadataInterchange)。UML主要用来定义元模型;MOF用来提供操作元数据接口;XMI用来定义交换元数据的机制。1.1.2.2元数据管理的五种状态第一级:随机状态(Ad-hoc)行为特征在这一级上,对元数据的管理是随机的。元数据由某个人或某一组人员在局部产生或获取,并在局部使用。在大多数时间里,元数据是隐匿在信息中,比如存储于诸如Word、Excel等形式的办公文档,这些文档使用的术语仅局部的用户能知道其确切含义。人们通过与“责任人”直接通信或通过信息会话来获取这些知识。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。在这一阶段,元数据通过组织机构缓慢的传播或根本不传播,这取决于局部小组与其他小组间的通信量的大小,这些元数据可能永远“待”在该局部小组或某个人那儿。如果这样的小组或个人调离,则这种元数据信息可能永远丢失。人元数据知识保留在人的大脑中。在这种环境中,知道(或不知道)与谁交谈对于理解元数据成为一件十分重要的事。处理元数据要通过与“责任人”的交谈才能共享。新来者需要通过他们的日常工作来学习元数据。外部人员难以理解元数据,他们必须与“责任人”交谈才能得到他们想要的东西。因为元数据在局部产生或抓取并在局部使用,所以通常也只能在局部修改,这种修改通常也不会通知公司里其他的组织。技术可以用各种不同的工具来生成元数据。绝大部分是面向个人电脑的应用软件。例如,ERWin可用于数据库建模,Rational用于为对象建模、Excel用于生成商品列表等。这些工具都没有设计成可以交换信息,因此,只能在当地的文件系统中保存所生成的元数据。第二级:可发现行为特征在元数据管理的这一级上,可以发现在不同企业之间的元数据。像第一级的情况一样,元数据仍然在局部产生和抓取,然而,它处于可发现状态,这样的元数据在企业一级显露,使得每一个对它有兴趣的人都能随时了
本文标题:元数据管理与数据质量平台
链接地址:https://www.777doc.com/doc-4927719 .html