您好,欢迎访问三七文档
数据治理体系建设一个数据人的自留地-从思考走向实践Constructionofdatagovernancesystem-Fromthinkingtopractice数据产品-芥末一个数据人的自留地目录CATALOGUEONE数据治理认识DATAGOVERNANCEPERCEIVETWO数据治理实践DATAGOVERNANCEPRACTICETHREE数据治理要素DATAGOVERNANCEELEMENTS01治理背景GOVERNANCEBACKGROUND行业发展:数据量正在高速爆发问题现状:企业发展增速放缓创造价值:服务的多场景化IDC曾发布报告称,到2025年,全球数据预计将增长至175ZB(1ZB=1024*4TB)正如我们所见,电商、短视频、工业等行业的快速发展,导致数据量激增,国家层面又对海量的数据提出数字化转型,因此数据化建设势在必行。在高速增长时数据的存储资源、计算资源等都出现猛烈的增长,现如今因为各种因素(政策规范、市场竞争、国际局势等)导致发展的增速放缓,趋于成熟时,资源的使用也会降低,达到一个平衡状态,来维持企业的自然运转。面对当前不断细分的市场和场景的多样化,一切都需要数据进行有效的支撑,而数据准确又是科学决策的基础,所以确保数据质量有效变的尤为关键。0203为什么要做数据治理?数据治理为什么最近这么火?治理定义GOVERNANCEDEFINTION组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。自动发现使用过程中数据存储、任务计算、代码开发、数据质量及数据安全等维度存在的待治理问题,并通过健康分模型进行量化评估,以治理报告及治理排行榜的形式呈现治理成果,有效推动解决治理问题达成治理目标。没有统一的数据标准,各业务系统间数据无法共享,关键核心数据无法识别以及跨系统无法拉通等。为有效管理数据资产,实现数据价值最大化,急需建立一个完善的数据治理框架体系,为企业数字化转型打下坚实的数据基础。统一数据资产及标准,结合建模规范、数据质量、基线监控、SLA治理等能力,提供全周期数据治理能力。(组织)由数据部门发起,(问题)针对数据存储、开发、应用过程中没有统一标准和规范引发的数据质量问题,(方案)提供完善的数据治理平台和体系,(结果)形成数据全生命周期的治理能力目标&收益GOAL&REVENUE01、构建符合企业现状的数据治理标准和规范,使各业务线杂乱的数据沉淀成可用、公共的数据资产02、基于可用的数据资产支持业务分析、经营决策等诉求,为企业带来实际收益。目标数据资产/指标规范数据质量监控并治理数据资源使用评估数仓建模标准数据分级加密/监控指标口径不一致/探查效率低大量脏数据、处理成本无用数据存储/计算成本高数据开发时间长数据存在泄露风险降低成本提高效率收益维度问题一个数据人的自留地目录CATALOGUEONE数据治理认识DATAGOVERNANCEPERCEIVETWO数据治理实践DATAGOVERNANCEPRACTICETHREE数据治理要素DATAGOVERNANCEELEMENTS阶段建设CONSTRUCTIONSTAGE```第一阶段各业务诉求驱动,业务数据化21年以前主要聚焦在数据平台的搭建,包含:埋点采集,数据入库、UDA、即席查询、蓝鲸可视化等第二阶段第三阶段完善数据治理体系并闭环22年下至今深层次推进数据治理,聚焦在数据资产、资源评估、数据安全、ONEID的建设,持续运营数据治理并拿到关键性结果赋能多场景,逐步构建数据治理21年至22年上加强数据能力(数据地图、指标平台、数据质量)建设,并创立数据治理委员会,支持业务决策和经营分析,逐步构建数据治理体系缺乏业务整体数据评估体系业务决策缺乏数据支持指标口径不统一,数据探查成本高数据质量差,数据不稳定问题问题数据成本意识差,资源成本高敏感数据存在风险问题数据治理体系DATAGOVERNANCESYSTEM标准/规范数据指标质量规则模板数据检索数据加密数据治理委员会埋点数据离线数据实时数据第三方数据数据入库平台SLA监控数据血缘数据脱敏数据标准数仓规划数据建模指标字典指标管理平台质量监控质量报警质量报告数据质量平台元数据管理表/数据有效期数据资产数据地图数据等级数据权限风险监控数据安全指标规范建模规范数据白皮书安全规范指引数据治理评估质量价值安全成本指标&建模:指标管理平台INDICATOR&MODELING01、统一指标出口,保证指标口径的一致性:02、提供标准模型,减少重复构建,提高使用效率:目标原子指标派生指标复合派生指标+业务过程度量时间周期修饰词函数计算+++√直播回放(过程)用户数(度量)×用户数√七天观看直播回放用户数√七天观看直播回放完播率先设计再建模数据域数据分层业务过程ADSDWSDWDDIM明细事实层:主要针对ODS数据进行脏数据清洗,还原业务系统真实生产数据,例如直播观看数据/直播互动数据等公共维度数据表:主要存放一些公共维度数据,例如用户维度/城市维度等汇总数据层:主要聚合多维度数据和通用指标,例累计激活用户/注册账户多维度等应用数据层:主要面向业务视角主题分析的数据,例如订单全链路分析等字段标准数据指标拆分规划关联关联面向业务分析,是抽象的业务过程合集,特点是“不经常变动”、“新场快速兼容”,比如用户域/拉新域/直播域/交易域等根据实际业务过程进行归纳和抽象得出,具体场景可以参照用户旅程。交易域:下单/支付/发货/收货、用户域:注册/活跃关联已经创建好的字段标准和枚举值关联创建好的派生指标、复合派生指标治理评估ODS查询率模型使用/复用率跨层引用率质量监控:数据质量平台QUALITYMONITORING01、及时发现数据异常,保证数据有效、可用、及时:02、避免脏数据影响,减少处理的时间成本和费用成本目标质量规则质量报告质量监控配置质量报警完整性异常检测数据量检测唯一性检测固定值检测值域检测长度检测准确性有效性一致性唯一性及时性重复值检测函数规则非空检测自定义sql承诺就绪时间提供规则模板+自定义生成质检实例+测试运行配置调度周期设定数据维度告警阈值设定设置报警等级配置告警方式告警机制一般邮件重要邮件+钉钉群严重邮件+钉钉群+电话质量分析告警原因根据问题原因进行归类和明细,构建知识库,为复盘和分析提供支持监控覆盖率告警数/告警率保障数/达标率质检异常分布质检异常明细元数据&资产:数据地图METADATA&ASSETS01、提供全局数据检索,提高数据探查/理解效率:目标02、提供数据资产的分析/管理能力,降低数据的存储成本:01.数据查询03.数据热度02.数据预览04.数据血缘05.数据存储策略支持表级别中英文支持字段级别中英文支持业务线/数据域支持不同数据类型支持个性化/排行规则:读取/写入/浏览/收藏分类:高频、中频、低频、僵尸表用途:治理数据存储的依据范围:针对所有数据表方式:保留一定周期内的分区的数据策略:针对超期数据进行冷备,冷备周期到删除或超期数据直接删除数据安全DATASECURITY01、针对敏感数据进行脱敏,防止数据泄露:目标02、应对高风险等场景,满足审计、合规等要求,:01.安全级别C4C3C2C1公开数据:适合公开的数据,不会对数据主体(用户、员工和公司)的财产、形象、名誉、人身安全等合法权益造成影响,如公司已通过正规渠道正式对外发布的数据或者一些维表相关数据。内部限制数据:不适合对外公开,访问需进行一定程度限制的数据,泄露或者公开,对数据主体(用户、员工和公司)的财产、形象、名誉、人身安全等合法权益可能造成一定的损害,但该损害较为轻微。比如:用户设备品牌/类型、直播的出勤/互动数据等运营数据。关键数据:仅数据使用协同部门及相关人员可见,泄露或者公开,会对数据主体(用户、员工和公司)的财产、形象、名誉、人身安全等合法权益造成显著损害,且在一定时期和阶段弥补损害需要耗费较大资源。比如:用户订单数据、拉新交易数据、商务数据。核心数据:仅极少部分人可见或不可见的数据,信息不安全可能导致公司面临法律、合规或经营风险。比如:能定位至个人用户数据、财务经营等数据。02.敏感数据识别敏感数据任务敏感数据识别数据安全标识03.敏感数据加密一级数据加密二级数据加密04.敏感数据脱敏数据查询脱敏数据下载脱敏特殊数据脱敏05.数据审计安全级别权限审批识别风险行为数据全链路使用日志治理评估数据风险项风险行为数数据成本DATACOST预算负责人N*业务线数据表计算任务团队数据负责人治理规则无查询/访问数据量过大无写入临时/测试01僵尸表02普通表03核心表针对性优化,减少无用字段和指标核对使用场景,根据热度进行了冷备冷备存储,准备进行清理治理思路治理方式设置数据存储有效周期数据存储策略存储定价=xx元/TB存储/年*节约TB数据量计算定价=xx元/CU/年*节约计算资源整体链路价值方法论平均使用成本=数据成本/使用价值数据成本使用价值存储成本计算成本即席查询数据报表数据开发其他价值换算表/字段粒度成本公式SQL解析数据价值数据治理评估体系DATAGOVERNANCEEVLUATIONSYSTEM01.成本02.质量03.价值04.安全计算成本存储成本监控覆盖度质量达标率SLA达标率数据稳定性模型价值数据价值表信息完整度数据热度等级覆盖数据加密风险行为治理维度治理评估排行榜数据治理委员会公晒&邮件抄送高管层一个数据人的自留地目录CATALOGUEONE数据治理认识DATAGOVERNANCEPERCEIVETWO数据治理实践DATAGOVERNANCEPRACTICETHREE数据治理要素DATAGOVERNANCEELEMENTS要素一:组织架构ORGANIZATIONCHART数据治理委员会(必填项)会长=CDOCTOCIO业务数据团队大数据中台产研预算负责人:主要对数据治理的结果负责数据接口人:主要是对该业务和团队方向数据治理内容进行推进,跨团队协同的角色,相当于该方向数据治理的项目经理。数据owner:主要通过数据平台针对需要治理的模型进行策略执行,推进数据治理有效的落地和执行。技术组:主要制定标准、规范、专题等产品组:制定数据治理方案;推动数据治理的实施和进度;宣传推广数据治理的;设计数据治理应用平台。研发组:对数据治理方案的技术支持。保证数据平台的研发落地。机制:例会汇报,结果公示协同推动要素二:目标&切入点TARGET&PRECIPITATION明确“当前”目标一定要明确当前业务在数据治理的目标到底是什么,比如目前这个大环境,应该大部分都围绕着降本的事情进行驱动。明确团队历史上有哪些数据沉淀,比如现阶段围绕着降本呢进行治理,需要明确数据表、计算任务等现在状况是什么样,具体有哪些成员负责,以及现状有啥问题。寻找切入点确定了目标,梳理了历史的沉淀,接下来就是找到有效的策略,并且一定要能量化治理收益,否则推动起来困难重重。0102历史问题/现状03要素三:持续运营CONTINUOUSOPERATION0102持续抓手:排行榜产品支撑:平台工具每个季度的治理排行榜,第一个要“至上而下”定期针对高管、部门进行公示;第二绑定各业务的资产配置、成本、预算进行挂钩比如设定数据生命周期、任务监控、资产使用分析、数据存储分析、数据资产归属等场景,需要协同和提供的数据非常多,平台能力可以大幅度提效
本文标题:数据治理治理体系
链接地址:https://www.777doc.com/doc-11292044 .html