您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 论银行数据治理体系建设
1欢迎访问数据中国大讲坛。【讲座录音29】20130109《数据中国年终座谈会》Jimmy简介:=viewthread&tid=423&fromuid=19录音:=188569&uk=2164314794论银行数据治理体系建设中国银行总行信息科技部副总工程师孙中东现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。银行日常经营决策过程的背后,实质是数据的生产、传递和利用过程。此外,日益全面的和严格的监管措施和信息披露要求,也对银行数据提出了前所未有的挑战。如果不能对这些数据进行有效管理,其价值就得不到很好体现,甚至会给运营管理带来负面作用,具体表现为:一是缺乏统一数据标准,难以建立全面、准确、完整地反映企业运营状况的单一数据视图,难以做到数据的逻辑整合而不仅仅是物理集中;二是缺乏规范的数据质量治理流程和考核机制,不能及时发现数据质量问题,或缺乏有效解决途径;三是对数据采集、分布、流转及应用的规划存在不合理现象,数据需求、数据质量、数据应用等问题的管理和解决分散在不同业务和技术部门,没有一个清晰的协调机制和统一的报告渠道,业务不能及时、按需获得数据支持;四是缺乏有效的数据安全管理机制,对敏感信息的访问缺乏有效控制,对银行形成潜在的声誉和法律风险等。为使这些数据“包袱”变成“金矿”,数据治理(DataGovernance)体系的构建就变得尤为重要和迫切。一.数据治理体系简介数据治理是为满足企业内部信息需求,提升企业信息服务水准而制定的相关流程、政策、标准以及相关技术手段,用于保证信息的可用性、可获取性、高质量、一致性以及安全性。数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全企业视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务。通常认为,数据治理至少应当涵盖如下功能域:数据质量管理、元数据管理、数据标准2管理数据安全管理和主数据管理,现对上述功能域说明如下。1.数据质量管理:对支持业务需求的数据进行全面质量管理,通过数据质量相关管理办法、组织、流程、评价考核规则的制定,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值。2.元数据管理:元数据(Metadata)是关于数据的数据,即对数据的描述信息。根据其属性的不同,元数据可分为技术元数据和业务元数据。元数据管理是元数据的定义、收集、管理和发布的方法、工具及流程的集合,通过完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,借助变更报告、影响分析以及业务术语管理等应用,以此保证数据的完整性、控制数据质量、减少业务术语歧义和建立业务人员之间、技术人员之间,以及双方的沟通平台。3.数据标准管理:通过建立一整套数据规范、管控流程和技术工具来确保银行各种重要信息,包括产品、客户、机构、账户等信息在全行内外使用和交换的一致和准确。数据标准可分为技术标准和业务标准。4.数据安全管理:通过建立对数据及相关信息系统进行保护的一系列措施,确保数据免遭未经授权的访问、使用、修改或删除,保证数据完整性、保密性和可用性,具体可分为管理和技术两大类措施。5.主数据管理:主数据(MasterData)指描述核心业务实体的数据,如客户、机构、员工、产品等。这些数据变化相对缓慢并通常在企业内跨业务重复使用。主数据管理适用于管理、协调、监控与企业主要业务实体相关联的主数据的一系列规则、技术、应用、策略和程序。二.数据质量管理简介业界普遍认可的数据质量定义为数据对其期望目的的适合度,即数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。(一)数据质量管理基础和问题分类下列要素是进行数据质量管理的基础:1.数据质量的好坏是由用户以及数据使用价值所决定的。32.数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用或者有价值的程度。3.只有当数据被下游过程(系统或用户)所接收并使用时,数据质量问题的研讨才有意义。4.数据是持续变更的,数据质量管理是一个持续过程而不是一次性活动。银行关注的常见数据质量问题可以归成如下7类:1.定义缺失,指缺少关键业务元素定义,导致对同一字段的理解偏差。例如,什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号。2.数据异常,指系统的个别字段出现了异常信息,包括取值错误,格式错误、多余字符、乱码等。3.信息缺失或不准确,指在系统表中已经设计了某些字段,但在使用过程中,很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。信息缺失或不准确通常在客户信息方面最为严重。4.系统之间数据不一致,主要体现在两个方面:(1)系统间数据维护不一致。为了满足各个系统内部逻辑、提高访问效率和减少数据传输,相同信息可能在不同系统进行冗余存放。但冗余存放的数据如果不进行同步或及时的数据维护,则必会导致这些数据的不一致。例如,银行通常存在核心系统与信贷系统数据不一致的问题。(2)系统之间数据同步时效性造成的不一致。典型案例如下:由于某些银行的贷记卡系统是外包系统,因此总账系统在T+1日才能取到贷记卡T日的数据,但是其他系统的科目余额缺失T+1日的数据,于是此种同步时效性的差异就导致了系统之间数据不一致。5.数据完整性问题。数据完整性问题主要体现在两个方面:(1)参照完整性,是指一个表A的外键不包含无效的键值,例如,借据表中记录了合同号,但是在合同表中无法找到相关记录;(2)数据含义冲突,如某些账户,从账户属性、存期等字段看,应是通知存款产品,但从科目看,又是普通定期产品。6.数据生命周期问题。银行中的关键数据,例如,账户、客户、产品信息等,都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/4销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录。7.代码问题。包括三个与代码相关的问题:(1)代码不统一问题,即不同应用之间相同用途代码的编码不一致;(2)未代码化问题,即常见情况使用文字存储,而非将信息代码化,很多时候会发现信息存储的不少,但却不便于分析使用。(3)意外代码,即实际数据中出现了未定义的代码值。(二)数据质量管理方法论图1描述了权威人士普遍认可的数据质量管理方法论,共分六步。图1数据质量提升步骤图第一步:定义及验证首先,从技术和业务两个层面对数据应当满足的质量目标进行定义。表1列出了一系列数据质量度量标准,但最终的定义应当以更规范的形式进行描述。例如,属性X的缺失率不超过2%。其次,对于派生数据,其源数据和转换的规则必须详细说明。最后,上面描述的定义和规则将作为数据质量评估计划的输入源。数据质量评估计划主要用来验证定义和规则的正确性,并且这个计划将详细5描述数据必须满足的、适合它预期用途的属性,即它定义了数据质量。这个计划还将指导初始的数据度量,通常也成为数据剖析。表1数据质量度量标准Accuracy正确性Completeness完整性Consistency一致性Continuity连续性Precedence先后顺序Precision精确度Granularity数据粒度Currency当前性Duration数据时间跨度Retention数据保存周期Identity唯一性Reference参照完整性Cardinality数据对应关系Inheritance继承关系ValueSet数值集合Relationship依赖关系第二步:影响分析与共性分析完成数据质量目标定义后,需要评估一个特定的数据质量问题在预期的数据使用适合性方面带来的影响,并根据影响分析结果可以确定数据质量问题的重要性与优先级别。所谓共性分析就是分析错误具有的共性,我们期望一次可以将许多错误归结到某类共同原因。这个分析将为下一步追踪根本原因做好准备。第三步:追踪根本原因图2所示鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具,它反映了需要达到的和实际的数据质量之间的差距原因,通常是信息、流程、技术、人员等因素所导致。第四步:预防/修复数据质量问题图3描述了在追踪数据质量问题的根本原因时可用到的选择。每一个选择都有相关的优点和弱点。1.导致数据质量问题的根本原因,最常见的有人员、流程、业务系统前端、业务系统数据库、数据抽取和加载过程等方面处理不当,这些因素都有可能产生数据质量问题。对于图3前三项(人员、流程、业务系统前端),重点在于预防,对于后三项(业务系统数据库,抽取、加载),则通常通过修复的手段来解决。2.每类数据质量问题的预防/修复都有有利和不利的一面,比如,由于人员6产生的质量问题,有利方面是可以再源头预防,不利方面在于人员往往会疏于管理、容易遗忘以及不同人员的差异性、专注点不同,这些都会不可避免地产生一定的数据质量问题。图2数据质量根本原因图3.涉及的数据量。通常数据质量问题需要修复的数据量有大致规律,如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据库处理、数据抽取和加载等后台环节导致的数据质量问题通常设计的数据量较大。对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远来看,重视预防措施,在源头控制错误的产生更为重要。7图3预防/修复数据质量问题图第五步:趋势监控一个已知的数据质量问题被修复后并不意味着这个特定问题就被永远解决了。如果没有有效地预防措施,错误仍有可能再现。因此,对重要数据质量问题应当持续监控。图4所示控制图经常被用来做质量问题监控,当错误的个数在一定范围之内浮动时,质量问题被认为处于可控状态。图4数据质量趋势监控图第六步:识别和研究偏差监控流程来识别问题。例如,当一个已知数据的质量超过了允许的控制范围,流程将需要从该分支返回到第三步再一次识别根本原因。8图5识别和研究偏差图(三)数据质量问题特征分析根据数据质量定义,数据的不同使用目的会导致不同的数据质量要求,例如,业务系统对数据的使用目的主要是为了保证业务流程的正常运转和满足一些简单的统计功能,因此只要业务流程和统计正常,就可以认为数据质量满足要求;而分析型系统对数据的使用目的则多种多样,而且涵盖企业运营的方方面面,那么满足业务流程正常运转的需要并不一定就能保证满足分析的需求,因此分析型应用的需求是决定数据质量管理目标的主要因素。在这一前提下,对企业内部数据流转过程各环节中呈现出来的数据质量问题特性作如下分析:如图6所示,数据流转过程被分成三个阶段(环节)。1.数据生产环节:企业内部的原始数据,绝大部分都产生自业务源系统,很少量的增值数据(Value-addeddata)产生于分析型系统。2.数据集成环节:在基础数据平台类系统(ODS/数据仓库和数据集市)中,集成来自不同源系统的数据,并按照数据模型整合。3.数据使用环节:由各类分析型应用组成,也包括随机业务查询、数据分析、数据挖掘等信息访问手段。从图6中可以看到,数据质量问题的产生主要在于数据产生环节,其次在于数据集成环节的数据加工过程,而在数据使用环节,由于原则上不再对数据作修改,因此基本上不产生数据质量问题。9图6数据质量问题分析图数据质量问题的发现则不同,基本呈现出相反特征:一是业务源系统虽然是数据的主要产生环节,但是通常只能发现业务流程相关的数据质量问题,而且仅限于本系统内部;二是数据集成环节由于是企业内部数据的一
本文标题:论银行数据治理体系建设
链接地址:https://www.777doc.com/doc-1866040 .html