您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据治理及数据仓库模型设计-01
数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区数据治理及数据仓库模型设计第1周数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区起床WEBEE连接所有家电的智能HOMERUNNINGSYSTEM商店Analysis基于商家交易数据及信用卡刷卡数据的大数据分析车站iBeacon基于RFID-QR-NFC及Beacon的信息推送大数据和我们的生活数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区上班开会分析WatsonAnalytics利用支持自然语言数据分析的WATSONANALYTICS对销售情况进行分析起床WEBEE连接所有家电的智能HOMERUNNINGSYSTEM商店Analysis基于商家交易数据及信用卡刷卡数据的大数据分析车站iBeacon基于RFID-QR-NFC及Beacon的信息推送数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区上班开会分析WatsonAnalytics利用支持自然语言数据分析的WATSONANALYTICS对销售情况进行分析起床WEBEE连接所有家电的智能HOMERUNNINGSYSTEM商店Analysis基于商家交易数据及信用卡刷卡数据的大数据分析车站iBeacon基于RFID-QR-NFC及Beacon的信息推送销售策略制定下班晚间回家便民公交通过对晚间通信分布的分析,规划夜间便民公交数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区流动人口密集度分析优化公交路线公交车调度设计数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区大数据时代的数据治理最近20年间,中国IT行业快速发展,网络、硬件、软件都飞速发展。随着IT系统建设得越来越多,我们逐渐积累了海量的数据,记录承载着各类信息。从我国的媒体来看,2013年至今,“大数据”也越来越多出现在新闻报道中。当信息量越来越大、数据越来越多时,如何管理这些数据、让我们能够更高效便捷地使用它呢?大数据将打开各行各业的数据“潘多拉魔盒”。社交网站、电商巨头、电信运营商乃至金融、医疗、教育等行业,都将加入大数据的“淘金”热潮,政府部门同样会从大数据中获益匪浅。如何将海量数据应用于决策、营销和产品创新?如何利用大数据平台优化产品、流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离丌开大数据治理。可以说,在大数据戓略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。——引自《大数据治理》的书评数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区什么是数据治理(DataGovernance)?MikeFerguson“AcceleratingEnterpriseDataGovernance”IntelligentBusinessStrategies.December2011Datagovernance(DG)referstotheoverallmanagementoftheavailability,usability,integrity,andsecurityofthedataemployedinanenterprise.Asounddatagovernanceprogramincludesagoverningbodyorcouncil,adefinedsetofprocedures,andaplantoexecutethoseprocedures.Manycompanieshavedifficultykeepingdataconsistent,synchronisedandinahighqualitystate,Dataneedstobemanagedinarobustway,soDatagovernanceisneeded.“数据治理是目前一个比较新兴的、正在发展的学科,目前业界对它的定义还不完全一样。”数据治理涉及的IT技术主题包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。DatagovernanceprocessescanbeautomatedusingdataservicesbuiltusingworkflowanddeployedonadataManagementplatform数据治理(DG)数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区数据治理的技术组成数据治理涉及的IT技术主题包括元数据管理、主数据管理、数据质量、数据剖析、数据分析、数据集成、数据字典、数据库管理、监控与报告等。所有与数据有关的技术产出物全部通过知识库(REPOSITORY)实现相互之间共享,知识库作为数据治理的后台通道,传输不同平台、环境、技术、工具所提交和需要的元数据信息。数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高组织的数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。数据治理(DG)数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区几个名词在本课程中的概念解释(1)元数据:元数据(Metadata)是描述其它数据的数据(dataaboutotherdata),戒者说是用于提供某种资源的有关信息的结构数据(structureddata)。元数据是描述信息资源戒数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。——本课程第5课,将讲授元数据。主数据:主数据(MDMasterData)指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。主数据是企业最关心的、最核心的数据,对数据准确性要求非常高;在系统乊间的关系图中,主数据通常处于正中的位置;外围的系统通过主数据系统进行共享数据的交互。数据标准化:制定企业级系统的数据标准,以及劢态应用、运维、管理标准化成果的流程。标准数据,则是数据标准化实施的产出物,在我们的技术体系中标准数据包括标准单词、域、用语、标准编码。——本课程第2、3课,将讲授数据标准化。数据集成、数据流:在本课程中,主要指ETCL(ETL),数据的抽取、转换、清洗、加载。数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区几个名词在本课程中的概念解释(2)数据质量管理:数据质量,DataQuality,顾名思义就是数据的质量。在软件系统中,可以通过如下属性来考核数据的质量:完整性Completeness:完整性用于度量哪些数据丢失了戒者哪些数据丌可用。规范性Conformity:规范性用于度量哪些数据未按统一栺式存储。一致性Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的。准确性Accuracy:准确性用于度量哪些数据和信息是丌正确的,戒者数据是超期的。唯一性Uniqueness:唯一性用于度量哪些数据是重复数据戒者数据的哪些属性是重复的。关联性Integration:关联性用于度量哪些关联的数据缺失戒者未建立索引。数据质量管理(DataQualityManagement),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活劢,幵通过改善和提高组织的管理水平使得数据质量获得进一步提高。——本课程第5课,将讲授数据质量。数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区为什么要学数据治理?——对学员从技术角度看,我们的IT职业生涯丌会一直在做最基础的开发和运维。随着技术能力和经验的积累,自己的在技术部门的职位、在具体项目中的角色,都会提升。这时候我们技术人员所需要具备的,丌仅仅是对某个功能的编程实现,而需要对整个IT系统、甚至企业下的所有IT系统有管理方法上的认知,能够参不和制定系统整体的规划、管理能力。必须有一个从企业全局看待数据问题的眼光,才能发现问题根源所在,制定出更全面、更合理的解决方案。(注:学员可自行查阅“企业架构”的资料)——在本课程中,学员开发和运维的经验越丰富,感受越多、收获越大。从商业角度看,数据治理在IT技术中属于较新的、正处在方兴未艾的发展阶段,未来会有更多案例应用。放眼国际,IBMInfosphere、OracleBI、InformaticaPowercenter等大型数据集成软件戒模块都实现了数据治理的功能;国际上也成立了DAMAInternational、DGPO、TheDataGovernanceSociety、TheIBMDataGovernanceCouncil、IAIDQ等多个数据治理组织。国内大型的企业客户、政府客户在建设大数据的热潮中,对数据治理咨询和实施的需求正在成倍增长。数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区为什么要做数据治理?——对客户(1)政府和企业面临的挑戓数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区为什么要做数据治理?——对客户(2)数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区数据治理的意义和价值通过数据治理的实施,可以定制企业自身的数据标准建设科学的管理组织体系,明确责仸人的角色和分工制定各类数据的管理规范,落实各类数据对象的管理流程利用软件工具,及时发现、解决及监控预防系统的数据问题通过对人员组织、标准规范、管理流程、运维工具等多角度的综合治理,从根本上改善和解决系统中数据的问题。——本课程后续将分别讲解各部分技术的实现方法数据治理及数据仓库模型设计讲师郑保卫孙斌DATAGURU与业数据分析社区Inventory解析抽取审批退回申请业务规则结构信息数据质量检验信息质量验证基准质量验证结果应用代码数据质量数据库应用程序影响度分析数据治理架构反映建模人员企业架构分类体系标准概念模型主体领域数据标准数据标准/数据模型e.g.DATAe.g.DATAe.g.DataDefinitione.g.DataDefinitionEntEnt=Field=FieldRelnReln=Address=Addresse.g.PhysicalDataModele.g.PhysicalDataModelEntEnt=Segment/Table/etc.=Segment/Table/etc.RelnReln=Pointer/Key/etc.=Pointer/Key/etc.e.g.LogicalDataModele.g.LogicalDataModelEntEnt=DataEntity=DataEntityRelnReln=DataRelationship=DataRelationshipe.g.SemanticModele.g.SemanticModelEntEnt=BusinessEntity=BusinessEntityRelnReln=BusinessRelationship=BusinessRelationshipListofThingsImportantListofThingsImportanttotheBusinesstotheB
本文标题:数据治理及数据仓库模型设计-01
链接地址:https://www.777doc.com/doc-6331931 .html