您好,欢迎访问三七文档
数据管控交流Agenda数据管控元数据管理数据质量管理数据标准我们通常提到数据管控—数据综合治理能够想到的数据质量问题源系统业务人员录入正确性问题。工行案例:企业财务报表录入日期源系统多系统之间数据不一致的问题。工行案例:对公企业行业分类问题光大案例:客户证件类别操作性业务系统规范对后台分析系统的影响。工行案例:增量完整性浦发案例:前台系统的数据质量建议方案业务统计口径不一致的问题。信用卡案例:睡眠卡的定义解决这些数据问题的手段我们需要有一个尺度作为判断的依据来衡量数据标准我们需要有一个侦测、报告、协助分析治理数据问题的平台:数据质量管理我们需要对数据问题影响进行分析,我们需要对数据进行统一的版本管理和规范管理控制。元数据管理我们需要数据治理是一个工程。我们需要有侦测、分析、解决方案评估、执行的完整流程。我们需要有以下人员的参与:科技部门业务系统的开发人员数据治理的专职人员分析系统的开发人员业务部门解决这些数据问题的手段Governance=People,Processes,Technology针对数据管控我们还能想到什么?时效性问题?数据的安全?隐私问题?数据的生命周期管理问题?。。。。。数据管控机制的建立数据管控的定义管控结构组成部分1.管控任务和指导原则2.管控的组织结构3.业务改善和结果追踪4.数据管理的落地功能5.用户的支持和参与6.SLA有效的管控6个组件每个阶段的执行情况覆盖了所有的开发周期PlanAnalyzeDesignBuildImplementManageGovernanceProgramStructureUserSupport&InvolvementDataCertification&ManagementServiceLevelAgreementsMission,Policies,GuidingPrinciplesIncrementalProjectPlanning&ImplementationOpportunityScoping&ResultsTracking建立数据管控的考核指标和落地功能数据质量管理元数据/数据标准数据模型数据分布/生命周期管理数据层次/数据流数据安全/数据隐私管理数据安全性数据冗余度数据质量数据规范性数据时效性数据整合度数据DG-KPIDG-KPI载体或工具三大功能和相互关系管控体系数据数据质量管理元数据管理数据标准数据形态数据规范数据质量管控体系中的数据标准、数据质量和元数据之间有着紧密的关系,三者的关系如下:数据标准向元数据提供业务元数据的标准定义,并可以通过元数据平台进行维护;数据标准定义了符合进仓数据的标准和依据,指导数据质量进行有效的质量监测和检查;另一方面,通过数据质量具体的操作来促进数据标准的执行情况;元数据作为数据质量的数据提供者,向数据质量提供包括表、字段、代码等元数据对象及其属性定义,能够帮助仓库的使用者更好的发现数据的质量问题;数据管控应用框架0数据治理组织架构与岗位职责数据治理模板(流程、定义、发布)数据治理认责与考核办法数据标准管理元数据管理数据质量管理数据安全管理数据标准需求管理流程数据标准制订流程数据标准执行流程数据标准维护流程数据质量问题处理流程数据质量需求管理流程元数据变更管控流程元数据需求管理流程数据访问安全数据质量检核规则制订流程元数据调研分析流程元数据维护管理流程数据质量问题排查流程数据维护安全数据备份安全元数据分类模式及属性举例属性名称必填项注释说明标识号M业务属性的唯一标识名称M缩写M缩写或业务属性名称的简要写法同义词代表同一含义的不同术语名词别名其他部门的术语或通俗的讲法定义M该术语属性的详细定义标准标志元数据规范的范围,如全企业通用、部门级别、独立使用等。必填标志M必填、可选、有条件的填写缺省值限制规则取值范围的限制条件是否个人信息是否个人隐私信息,如客户名称、住址、国籍、生日、信用卡信息等保密等级高中低等重要程度是否是对运营、决策等影响重大的关键信息,是否是数据质量检查点元数据创建人M元数据创建日期M最近修改人最近修改日期质量评分根据数据质量评估模型给出的评分最近评定日期元数据分类业务元数据结构化技术元数据关联类技术元数据操作型元数据业务模型主题域业务实体业务属性数据质量业务规则数据库/文件服务器表/视图/文件列/字段数据集成应用数据集成逻辑模型数据集成物理模型数据质量控制规则数据处理应用数据处理作业……分类属性元数据管理的架构元数据的基础功能元数据查询浏览:侧重于对元数据的内容展现和查询方式支持元数据数据分析:侧重于基于元数据的分析功能,从数据中提取对技术、业务用户有用的信息元数据管理:元数据平台的管理功能BI元数据和企业级元数据的互动:企业级元数据经ETL平台加工整理进入仓库,形成BI元数据,可通过血缘分析和影响分析功能查看两者的互动关系;历史对象元数据浏览的灵活性元数据对象关系呈立体网状看本体——查看对象本身定义,例如表的名称、注释等信息。向上看——查看对象所属对象的定义,例如表所归属的数据库。向下看——查看对象包含的对象的定义,例如表所包含的字段、索引等。向前看——查看对象的上游信息对象,例如该表的数据的来源表。向后看——查看对象的下游信息对象,例如该表的数据的目标表。看历史——查看对象的历史变更信息。例如该表在上一个版本中的内容。看友邻——查看与对象有关系的其他对象,例如涉及该表的脚本等信息。所属对象包含对象目标对象来源对象本体对象友邻对象友邻对象友邻对象友邻对象元数据主要分析功能影响分析•向下分析一个元数据对象对下游对象的影响。血缘分析•与影响分析的方向相反,向上追溯一个对象的数据来源。全链分析•从某对象出发,向上下游双方向进行分析。活力分析•分析一个数据库对象被访问的频度。孤立对象分析•分析数据准备区(SData)、物理模型区(PData)中的孤立元数据对象。一致性分析•定期分析元模型中的元数据是否与实际情况一致。版本比对•选择任意两个时点的版本进行比对。质量分析•分析数据仓库中的元数据的质量。如何元数据技术的价值•元数据技术发展方向任何事物的发展都是从粗放型到精细型,元数据的发展也不例外。元数据是关于数据属性的管理系统,针对数据属性的管理需要从“定量化”技术指标到“抽象化”的业务指标的管理。元数据的应用需要从简单的技术应用模式到复杂的分析应用模式的转型。•元数据发展目标:元数据的完整性元数据的精细化实现元数据的双向驱动为目标—工商银行业务元数据价值的探讨—工商银行•元数据应用的价值举例:基于元数据的数据质量评估模型基于元数据的数据温度评估模型基于元数据的数据生命周期管理机制基于元数据的ETL作业调度优化基于元数据的物理模型优化数据质量维度维度说明完整性必须的数据项已经被记录时效性数据被及时更新以体现当前事实唯一性该数据在特定数据集中不存在重复值参照完整性数据项在被引用的主表中有定义依赖一致性数据项取值满足与其他数据项之间的依赖关系基数一致性数据项在子表中出现的次数符合标准正确性数据正确体系了真实情况维度说明精确性数据精度满足业务要求的程度技术有效性数据符合已定义的格式规范业务有效性数据符合已定义的业务规则可信度数据的可信依赖程度可用性数据在需要时是可用的可访问性数据易于访问适用性数据格式和展现满足用户需要•必须有一个跨部门以上领导的重视和牵头•必须有一个专门负责解决数据质量问题的组织•必须有一个专门负责解决数据质量问题的平台•必须有一个专门负责解决数据质量问题的流程•必须有一个专门负责侦测数据质量问题的工具数据质量的5个“一“工程完整的数据质量解决方案数据质量改进标准流程启动S1.1识别已知数据问题和当前发起方S1.2确定数据质量评估范围S1.3制定数据治理评估计划S1.4获取相关资源S1.5风险评估S1.6搭建数据质量评估环境定义S2.1了解目标数据概况S2.2识别关键数据项S2.3定义数据标准和业务规则S2.4验证数据标准和业务规则S2.5定义数据质量规则评估S3.1获取评估数据S3.2使用数据质量校验规则校验数据S3.3分析数据质量问题产生的根源S3.4数据质量问题影响分析S3.5开发数据质量问题解决方案清洗S4.1搭建数据清洗环境S4.2清洗和修正问题数据S4.3评估清洗结果改进S5.1搭建新的处理环境S5.2迁移至新的处理环境S5.3评估改进结果需要工具支持21数据质量平台功能管理配置平台:质量规则的管理维护,支持用户界面手工编辑方式进行维护或者文件方式批量导入检查执行平台:数据质量知识库中抽取相关质量规则,以检查脚本为载体,通过ETL服务器任务调度,完成数据检查,并将检查结果保存进数据质量知识库质检报告展示平台:以WEB页面或者文件方式查看质量检查结果数据标准框架数据标准定义数据标准执行数据标准映射数据标准管理流程•数据项的主题、分类•数据项的业务属性•数据项的技术属性•数据标准执行的架构•数据仓库差异和改进建议•源系统差异和改进建议•数据标准与源系统的字段级映射•数据标准与数据仓库的字段级映射•日常维护•更新•执行和效果追踪标准定义标准映射标准执行管理流程管理工具业务数据标准的问题困难实施难易度容易高实施迫切性低公共数据规则示例电话号码•建议采用正则表达式进行系统固化,例如:/^(([0\+]\d{2,3}-)(0\d{2,3})-)?(\d{7,8})(-\d{3,}))?$/•合法范例:010-23412256,021-27765466-201,0731-3445654•非法范例:未以‘-’分隔,以及所有含非数字字段电话号码,例如0a0*11233323手机号码•建议采用正则表达式进行系统固化,例如:/^0*(13|15)\d{9}$/•合法范例:13933452321,15933442231•非法范例:非13或15开头,长度不为11位以及所有含非数字字符的号码,例如:1300006454a行政区划(省、市)•数字代码采用三层六位层次码结构•省、自治区、直辖市、特别行政区的字母用两位大写字母表示•市、地区、县级市、市辖区的字母用三位大写字母表示地址•地址信息之不允许包含省份、城市和区县的信息•应该按照下列顺序依次填写街道、门牌号、单元室号等信息邮编•采用四级六位编码制,前两位表示省、市、自治区,第三位代表邮区,第四位代表县、市,最后两位代表投递邮局•建议采用正则表达式进行固化,例如:/^[0-9]{6}$/邮件地址•建议采用正则表达式进行固化,例如:/^[_a-z0-9]+@([_a-z0-9]+\.)+[a-z0-9]{2,3}$\工作目标和重点产品客户渠道交易客户资产机构财务协议营销地址公共代码业务主题统一的定义可执行的标准配套的管理流程和职责总体规划•数据映射•执行建议•业务和技术•分类及属性•申请•维护•废止•数据管理员公用三期(2010/01-2010/06)…•启动数据标准后评价作业,评价项目执行状况以及复审管理流程的适用性•建立专职小组•兼职:每部门2人•客户资产•当事人完整视图定义•员工和机构•各主题标准的维护和更新•提供相关系统建设指导•建立起全行的数据标准管理架构一期(2008/02-08)•建立兼职数据标准小组•建立数据管理流程•建设管理工具•兼职:每部门1人•基础框架•客户、产品主题•公共代码•ECIF的客户模型•相关系统的产品•统一的客户视图•数据标准实施蓝图和路线图二期(2008/09-2009/12)•逐步建立专职机构•建立管控绩效指标,纳入机构考核•专职1-3人•兼职:每部门2人•营销活动•协议-分类及层级•渠道-类型及识别•交易-交易代码和核心信息•前台产品管理系统建设•EDW中间层的公用指标建立•提供相关系统建设指导•全行一致的统计口径•闭环式的营销活动提供指引•公用统计口径及标准KPI•初级利润贡献度规划的实施路线图各阶段数据管控体系数据标准定义数据标准落地业务价值组织流程人员基础标准公
本文标题:数据管控总结
链接地址:https://www.777doc.com/doc-1438653 .html