您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 元数据及数据质量介绍
元数据及数据质量介绍20160303议程内容•数据管控•元数据•数据质量•问题与讨论25/24/2020Confidential随着数据仓库的不断成长,你能回答下面的问题吗?35/24/2020•源系统发生变化后数据仓库到底需要修改多少程序?•发生了多少次变化?从年初到现在哪些系统变化最频繁?•某个ETL加工程序到底经过多少开发人员的修改?每次改动的内容是什么?•哪个源系统的数据质量最好?哪个小组开发质量最高?•哪些字段采用了公共代码?代码映射规则是什么?•哪些字段是需要做变形的敏感字段?在不同环境下同步的变形策略是什么?企业级信息管控体系企业级信息管控•战略性和策略性管理,项目所有权和优先次序设定数据管理•界定日常持续创建、使用和废止数据的职责元数据管理•用来描述如何、何时和由谁来负责数据的接收、创建、访问、修改和格式的数据数据标准•数据的业务、技术规范性文档数据质量•数据满足特定使用的适用度,包括完整性和业务规则遵从性数据整合•对各主题进行数据清理、转换、整合和丰富的流程数据安全与隐私•各业务主题对安全性和保密性的要求,包括审计能力主数据管理•数据资产以及定义企业运营的关系人员、流程和技术企业级信息管控数据管理主数据管理数据质量元数据管理数据模型&业务视图数据安全与隐私数据整合数据标准45/24/2020数据管控实施的三个方向55/24/2020Confidential•平台:数据管控团队的工作必须建立在自动化的高效的信息平台。•接口:企业的信息系统之间应按照数据管控接口规范进行交互。•模板:信息系统向数据管控平台提交数据可以通过标准模板。技术•流程:根据管控要求建立可执行工作流程,并严格执行工作流程。•规范:企业的各工作岗位有数据管控团队制订的工作规范。•制度:企业须建立数据管控的制度。流程•组织:建立企业级的数据管控团队是数据管控的基础。•角色:团队中按照管控的内容进行岗位的设置,即角色。•职责:不同的角色拥有详细的工作职责。组织数据管控特点•企业的分析型应用发展到一定的成熟度,就能发现数据管控的价值。•数据管控是跨系统、跨部门的管理。•数据管控必须有先进的管理方法论支持。•数据管控是需要长期的、渐进式的工作。•数据仓库是执行数据管控理想的平台。65/24/2020Confidential企业数据管控成熟度75/24/2020Confidential系统A系统B系统n人员流程数据A数据B系统A系统B系统n人员数据管控部门系统A系统B系统n人员流程统一的数据管控系统标准企业级数据管控环境数据管控部门系统A系统B非系统人员流程标准服务符合业界规范的双向数据管控系统系统n成熟度1:未知级成熟度2:被动级成熟度3:主动级成熟度4:预测级数据管控成熟度模型我们建立了企业数据管控成熟度模型,该模型能够使企业识别和量化数据管控的成熟度,为企业的下一步数据管控提供指导。你的企业处在哪一级?•Unaware:未知的•Reactive:被动的•Proactive:能动的•Predictive:预测的85/24/2020Confidential回报人员、流程、技术的整合程度风险数据管控平台架构Database数据管控知识库MetadataDQDSETL数据管控平台B/S应用DDLExcelXMLSourceDataSQL登录浏览搜索管理下载分析管理安全MartPDMStage用户层DBAAdminApplicationPlatform(TAP)业务单元MVC独立单元系统管理数据标准元数据数据质量需求管理数据安全灵活查询访问层应用层模型层数据层数据管控平台C/S应用ETLDBCPerl开发应用需求开发SDM信息调研版本控制测试ETL开发工作模板控制批量加工数据管控平台应用105/24/2020Confidential业务应用数据管控门户•数据管控的统一的登录网站,下列的数据管控系统均部署在数据管控门户上元数据•元数据是数据管控的IT基础,包含业务元数据和技术元数据。建立企业级的元数据管理平台,支持双向的、动态的元数据。数据质量•企业级的数据质量管理平台,拥有统一的检查规则管理、检查规则的审批流程定义,并在各业务系统上部署检查Agent程序,汇总检查结果与错误明细。数据标准•数据标准管理平台,数据标准的维护与发布,标准与元数据建立对应关系。在各业务系统部署标准执行监控Agent程序,统计标准执行情况。数据安全•统一的数据安全管理平台,根据与元数据的关系,定义数据在整个业务线、数据线的安全管理规则。需求管理•管理需求生命周期,需求确认、需求跟踪、需求变更等内容,以及需求与开发模块之间的关系,需求与最终的接口、映射加工内容等元数据的关系。仓库资源计费•通过给出资源(磁盘、CPU)的价格,计算出应用在中消耗的资源成本,以计算应用的ROI灵活查询•基于B/S的灵活查询平台,能进行企业BI知识管理,数据挖掘与分析。管控知识库•数据管控的培训与交流平台、支持远程网络培训、仓库WiKi、学习材料下载、BI信息发布、提供企业的BI用户交流、用户投诉与反馈等技术应用数据生命周期•数据生命周期管理平台,能够在企业范围统一定义的数据生命周期,数据的业务请求级别,备份策略,数据分布。企业级ECTL•统一的ECTL平台,定义与规划高效率的ECTL流程与策略,并能有效的嵌入其他管控工具。EDW开发•集成的EDW、BI应用开发管理平台。议程内容•数据管控•元数据•数据质量•问题与讨论115/24/2020Confidential什么是元数据•定义–官方定义(CWM):描述数据的信息。Metadataisstructuredinformationthatdescribesthecharacteristics/attributesofadataelement.–数据分析界定义:分散在企业中的关键数据描述。Metadatadescribescriticalelementsofdatascatteredacrosstheorganization.–通俗的说:如果数据仓库是一座城市的话,元数据就是城市的地图。125/24/2020Confidential数据仓库元数据元数据的国际标准-CWM•公共仓库元模型(CWM:CommonWarehouseMetamodel)是为数据仓库及商业智能环境间方便地交换元数据而制定的一个标准,其主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。•CWM模型为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:–CWM元模型(Metamodel):描述数据仓库系统的模型;–CWMXML:CWM元模型的XML表示;–CWMDTD:DW/BI共享元数据的交换格式;–CWMIDL:DW/BI共享元数据的应用程序访问接口(API)。135/24/2020Confidential对象模型业务信息数据类型表达式键和索引类型映射软件部署对象关系型资源记录型多维XML转换OLAP分析数据挖掘信息可视化业务术语仓库过程仓库操作对象模型层基础层资源层分析层管理层CWM标准涉及到的元数据模型结构数据仓库为什么需要元数据管理•普通应用系统为什么不需要元数据管理?–表的数量少–数据加工简单–数据来源单一–访问方式单一–交钥匙的应用•数据仓库为什么必须元数据管理?–上下游系统多,变更频繁–数据加工复杂–用户访问方式复杂–维护周期长–某银行的DW数据举例:上游系统60个,下游系统20多个,仓库内部的表12000多个,运行的ETL任务6000多个,每个月都有新版本上线145/24/2020Confidential元数据架构功能清单-元数据165/24/2020Confidential元数据浏览元数据地图浏览元数据统计信息浏览全局版本比对DW来源系统元数据DW集市元数据DW/PDM元数据LDM元数据ETL、映射信息元数据数据文件元数据用户查询样例元数据对象版本查看与比对影响分析血缘分析元数据质量分析孤立对象分析全局检索用户注释元数据下载批量元数据加载元数据缓冲区管理元数据版本回滚业务元数据管理源系统元数据管理DW集市元数据管理DW/PDM元数据管理LDM元数据管理ETL元数据管理数据文件元数据管理查询样例管理元数据上传元数据模板管理元数据桥接器管理版本管理管理执行元数据自动更新模块ETL相关数据同步SQL解析处理模块元数据浏览的灵活性•元数据对象关系呈立体网状•看本体——查看对象本身定义,例如表的名称、注释等信息。•向上看——查看对象所属对象的定义,例如表所归属的数据库。•向下看——查看对象包含的对象的定义,例如表所包含的字段、索引等。•向前看——查看对象的上游信息对象,例如该表的数据的来源表。•向后看——查看对象的下游信息对象,例如该表的数据的目标表。•看历史——查看对象的历史变更信息。例如该表在上一个版本中的内容。•看友邻——查看与对象有关系的其他对象,例如涉及该表的脚本等信息。175/24/2020Confidential历史对象所属对象包含对象目标对象来源对象本体对象友邻对象友邻对象友邻对象友邻对象核心价值:元数据分析功能185/24/2020Confidential影响分析•向下分析一个元数据对象对下游对象的影响。血缘分析•与影响分析的方向相反,向上追溯一个对象的数据来源。全链分析•从某对象出发,向上下游双方向进行分析。活力分析•分析一个数据库对象被访问的频度。孤立对象分析•分析数据准备区(SData)、物理模型区(PData)中的孤立元数据对象。一致性分析•定期分析元模型中的元数据是否与实际情况一致。版本比对•选择任意两个时点的版本进行比对。质量分析•分析数据仓库中的元数据的质量。彻底解决影响/血缘分析放大的问题•由于DW的LDM大多采用三范式建模,因此LDM的核心表会有大量的来源与目标,一旦做影响分析,结果就会扩散放大。最终导致分析结果无法使用。•采用智能SQL解析器模块,能分析数据的真实来源与目标。此项技术是业界领先的。195/24/2020Confidential非精细化解析结果精细化解析结果系统简要介绍-元数据205/24/2020Confidential选择的元数据管理的10个理由1.完美结合数据库的产品,充分利用数据库性能。2.完美结合的数据仓库实施方法论,贴合项目实际。3.是CWM规范制定者之一,符合业界标准的元数据产品。4.能快速动态生成全域元数据地图,DW信息一目了然。5.彻底解决影响/血缘分析放大的问题。6.能够直接导入LDM,并以图形化显示。7.是企业级数据管控架构的基础。8.元数据驱动数据仓库开发过程,支持模型设计、ETL开发。9.可扩展性好,能够无缝实现企业级元数据管理。10.功能强大,性能卓越,性价比高。215/24/2020Confidential议程内容•数据管控•元数据•数据质量•问题与讨论225/24/2020Confidential中国金融行业数据质量管理的发展历程235/24/2020Confidential2003200620082010……1.简单的检查脚本。2.少量的技术和业务检查规则。3.没有专门的数据质量检查团队,包含在ETL工作中。4.被动式检查,救火队式工作。1.第一次开发出数据质量检查管理系统,并且在建行DW部署。2.大量的技术检查,少量的业务检查。3.有了专门的质量小组。1.数据管理平台开发完成,数据质量与元数据、数据标准等集成在一起,并在建行、工行部署。2.大量的技术和业务检查规则。3.主动的技术检查;被动的业务检查。1.完善数据管理平台。2.抽象出规范化的金融行业的业务检查规则。3:推动质量检查的闭环工作。4:实现主动式的业务检查。数据质量管理的指标•我们需要什么样的数据•完整的–所需求的数据是否都已经获得•一致的–从不同应用获得数据能否保持一致•有效的–数据是否容易理解而不被曲解•准确的–数据是否在任何时间点都反应了数据的真实情况•相关的–有关联的数
本文标题:元数据及数据质量介绍
链接地址:https://www.777doc.com/doc-5532252 .html