您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据质量管理_数据仓库
数据仓库专题讲座之数据质量管理缪翀莺2005年9月目录数据质量问题分析数据质量方法论质量保证成功因素案例分析数据质量归类Copyright©2004,Oracle.Allrightsreserved.数据质量金字塔•不同数据源相同实体数据不同•已汇总数据与详细数据的再汇总不一致•处理数据超出了用户忍耐•结果过时•业务规则•统计口径•违反唯一性约束•违反主外键关系•丢失数据•丢失数据包含的属性信息•数据超出值域范围•数据类型不匹配•数据日期格式错准确性及时性一致性唯一性和参考完备性完整性数据类型和值域错误的值错误的数据依赖重复属性缺乏引用完整性违反商务规则多种数据源中缺乏数据对应源数据和目标缺乏同步没有理由的关联缺少数据错误的计算主键重复无标准的格式稀少的实体解释数据质量的示例错误的范围原因分析各专业之间的指标体系及编码规则不一致多个生产系统的数据源存在不一致现象数据源本身存在脏数据噪声数据数据存在人工操作不同数据源由不同部门管理由于生产系统的数据是随生产而变化的,在不同的时间点进行数据抽取的数据是不一致的生产系统的不同版本各分公司市场政策的差异同一产品、业务、套餐在生产系统业务处理规则编码差异很大统计口径数据抽取时间点问题业务规则问题数据源问题客户关系管理操作型数据整合环境ODS业务运作系统企业数据仓库EDW数据集市客户洞察BSSCRM计费结算OSS资源管理服务开通综合网管专业网管MSS/ERP人力资源财务管理工程管理数据复制EAIODS数据视图访问ODSETL数据复制EAIODS数据反馈ETLODS/EDW数据视图访问EDWETL客户价值客户流失数据集市决策支持整合的前端报表查询和分析环境多维数据访问ODS书籍营销活动渠道管理客户关怀客户洞察经营分析绩效管理KPI其他数据反馈分析数据元数据管理安全和权限管理系统管理收入分析业务发展分析客户分析客户细分营销分析营销评估监控信用度计算渠道监控综合查询综合报表数据挖掘数据稽核数据质量监控当企业的所有系统,包括业务系统、管理系统、EDA系统都结为一体的时候,系统监控、工作流、数据流、系统管理变成一个重要挑战目录数据质量问题分析数据质量方法论质量保证成功因素案例分析数据质量管理方法论管理机制的保障是数据质量控制的关键验证检查是数据保障的督促和推动严谨的过程定义是数据质量保障的基础有效的落实是数据质量保障的根本有效的组织机构是管理机制的有力支持完善文档的建立和维护是数据质量保障各个环节以及组织之间沟通的依据建立合理的数据管理机构、制定数据质量管理机制、落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的督促是保证企业数据质量的关键数据质量保障流程启动项目范围定义定义里程碑制定工作计划评估项目并获取相应资源风险评估、快速启动项目定义定义数据质量焦点区域描述当前数据使用状况确定关键数据质量因素定义数据质量标准评估评估基础框架结构评估关键数据分析导致错误的根本原因预设处理环境实现处理环境清洗并纠正错误数据对结果进行评估清洗改进预设新的处理环境实现新的处理环境迁移至新的环境中对结果进行评估工具支持识别已知的数据质量问题按照制定的规范获取相应的项目资源、支撑工具以及制定工作计划定义详细的过程、数据、组织的划分以及质量元素、标准及测算方法。对现存数据及业务环境进行评估,以便识别项目对数据、过程、系统以及组织架构所造成的影响。建立业务环境,改进现有数据的数据质量。目录数据质量问题分析数据质量方法论质量保证成功因素案例分析综述按照现代质量观念,质量是一个过程而不是结果。数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实现。鉴于系统建设情况(业务系统、经营分析系统),应该重点关注管理、过程评估•评估•管理123质量保证关键成功因素KSF质量保证KSF组织保证设计岗位明确岗位的要求和职责制定标准制定数据上传计划制定统一编码库•过程•评估•管理123质量保证关键成功因素KSF在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施制定数据质量的评测标准并按所制定的标准对其进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估管理-岗位经营分析系统项目组主管副总项目负责人项目经理数据质量管理员经营分析系统建设单位成员经营分析系统开发组业务系统接口员市场、网络、客服、计费、财务等数据质量管理小组经营分析系统需求使用单位图4-1:组织结构图为经营分析系统的数据质量管理工作提供宏观方向指导,并予以授权支持数据质量管理小组的部门或系统间协调工作全面负责经营分析系统的建设和维护领导数据质量管理员进行数据质量管理工作编写和维护数据质量工作相关文档,如数据质量检测标准、控制流程;定期组织相关力量对经营分析系统的业务和设计(包括数据模型设计)的完备性进行评估,总结问题,及时发现影响数据质量的隐患;定期、不定期地进行质量评估;监控数据质量问题解决的整个流程;数据质量相关知识的培训;建立、维护数据质量问题解决的经验集负责经营分析系统与业务系统间的协调和工作落实参与质量方案的评估和方案制定负责监督和管理相应业务系统建设、维护单位进行的与经营分析系统数据质量问题有关的活动管理-数据上传计划上传的文件上传的内容上传的时间计划JF_SERV_DISCT优惠用户清单每月28日20点JF_SERV_PRODUCT新业务资料每天22点JF_SERV_PRODUCT新业务资料的月基量每月28日20点JF_TRUNK_TICKET长途清单每天22点JF_ZERO_LIST零次户清单每月28日20点JF_CARD_SERV_ITEM本地智能网卡清单汇总每月28日20点JF_PHS_SERV_ITEM小灵通预付费清单汇总每月28日20点ZN_PROV_TICKET省智能网清单每月28日20点制定各个业务系统的数据上传内容计划,此计划需要业务系统相应岗位人员认真执行:管理-统一编码库标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是此代码组合的维度基础上,因此维护好代码也是保证数据质量的关键之一建立的原则维护的原则分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应到省公司的标准代码上建立的原则维护的原则质量保证KSF在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传计划制定统一编码库•评估•管理•过程123质量保证关键成功因素KSF规范规范的流程检查点过程校验点和稽核点异常处理措施制定数据质量的评测标准并按所制定的标准对其进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估过程-规范的流程DISBP实施方法启动会议咨询/服务需求分析整理培训相关人员需求评审模型设计/ETL策略/客户化应用/元数据管理终端用户培训产品配置集成测试系统推广★需求确认★模型开发系统建设★集成测试★试点局上线★初验★终验定义了用于构造一个完善的、满足业务功能的数据仓库系统所不可缺少的步骤和任务。这是一组预定义好的、在整个数据仓库项目中起指导作用的、可用多种方法管理的实施步骤过程-校验点对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面对于数据质量保证更为重要,也更为复杂数据稽核技术指标稽核业务指标稽核操作指标稽核•文件命名是否正确•文件个数是否正常•索引标识是否对应•文件中记录行数是否正常•文件大小是否正常•文件中各类指标汇总值是否异常波动•根据历史经验和季节规律进行时间序列分析--数据校验利器•在系统中予以固化,提供自动异常预警,使操作人员可以方便地进行审核确认过程-稽核点由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过多次稽核检验把关,才能各环节数据的质量本地网生成并稽核1省公司进行稽核2省公司生成并稽核3集团进行稽核4集团进行处理并展现5省公司本地网生成数据检查通过?检查通过?处理/生成检查通过?检查通过?处理/稽核/展现省公司管控范围集团公司管控范围过程-稽核方法1在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校验环节之间的数据平衡关系•对两个相邻环节中,对数据的总量进行验证,总量指标包括:总记录数,所有度量指标的总值等。•总量正确说明数据没有被丢弃,没有不符合装载逻辑规则的脏数据存在。•总量不正确,则需要检查本环节装载日志中是否有被抛弃的记录,如果没有数据丢失,则需要检查数据运算逻辑规则。•总量稽核要对每个度量进行,才算完整的稽核•分量稽核是指对相邻的两个环节中,在总量正确的前提下,对数据分布情况的稽核,在这个过程中,需要对每个维度上的分布的每个度量进行查询,如果数据在每个维上的分布都正确,则在组合维查询时数据也正确,可以保证多维分析的正确性。•在总量正确的基础之上,做分量稽核时只需要选择任一度量进行稽核,可认为在其他度量上的分量正确分量稽核总量稽核1过程-稽核方法2本地网:武汉本地网计划上传总数:25其中:已采集:20处理中:0未上传:5计划外:0文件入库入库成功文件数入库处理耗时(分钟)上传文件大小上传文件行数实际文件大小稽核1941051867537537834105186753-入库失败文件数总记录数正确记录数错误记录数1753783475378304平衡ODS转换已转换文件数转换处理耗时(分钟)总记录数正确记录数错误记录数195475378307537683147平衡分析加载可加载文件数需加载文件数已加载文件数未加载文件数1916151平衡列出整体的数据处理情况,包括入库和采集及分析与渠道系统的使用2过程-稽核方法3•此稽核方法可以作为总量和分量稽核的辅助,即针对某个度量而言在总量上或分量上的波动在设定的阙值内认为数据时正常的,否则认为为异常,需要检查确认对比稽核月份08月09月增加%产品大类费用(万元)费用(万元)费用(万元)[1]语音业务44,527.8045,691.602.61%[2]基础数据961.50990.102.97%[3]互联网4,361.304,522.603.70%[4]网元出租1,513.401,489.20-1.60%[5]其他产品8.611.330.99%[9]未知-481.30-432.1010.22%合计50,891.3052,272.702.71%总量稽核分量稽核3过程-稽核方法3•逻辑稽核主要对于某个度量在某个分量(维度)上的分布是否符合业务逻辑,逻辑稽核也是以自定义的方式实现逻辑稽核逻辑规则1月2月3月4月5月月租的次数是否为零√√√√√月租的时长是否为零√√√√√本地市话话计费时长应被60整除√√√√√长途通话计费时长应被6整除√√√√√本地市话费计费时长应大于通话时长√√√√×长途通话费计费时长应大于通话时长×√√√√3过程-稽核方法44在上传集团公司之前,通过稽核模板,对关键业务指标等KPIs进行环比和趋势分析审核,确认数据在正确的范围之内过程-异常处理措施对于存在的错误和异常情况,本地网维护人员进行原因分析和相应处理,通过界面回收错误数据质量保证KSF在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传计划制定统一编码库•评估•管理•过程123质量保证关键成功因素KSF在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施评估标准及时性、准确性一致性等考核奖励、惩罚阶段评估评估-标准数据质量分级目标报表数据报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严格限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出误差产生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。OLAP数据分析OLAP分析一般是总体数据的宏
本文标题:数据质量管理_数据仓库
链接地址:https://www.777doc.com/doc-6398286 .html