您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 基于高质量数据架构的数据分析_EN-CORE_郑保卫
ContentsDataDrivenWorld郑保卫博士SACC2013ContentsContents数据分析的必要性及发展趋势1SACC201321.信息系统的角色在发生变化SACC201331.1数据分析的必要性SACC201341.1数据分析的必要性—提供服务终身制PHR(个人健康记录)SACC201351.2数据分析未来发展的方向5SACC2013ContentsContents数据分析型系统构建战略及核心要素2SACC201372.1数据分析系统的构建方向SACC201382.2数据分析系统的构建战略集成单一长期SACC201392.2数据分析系统的构建核心—数据9SACC2013102.2数据分析系统的构建核心—成功要素SACC2013ContentsContents分析型系统数据架构3SACC201312将在线交易系统和各渠道产生的数据、外部流入的数据等整合到EDW中,通过中央集中式的有效分析,得出准确性高、需求匹配性强的高质量统计信息。EDWConceptualArchitecture3.1企业数据仓库架构渠道客服中心市场TMi-PORTALE-Mail市场合同在线交易系统普通贷款理赔销售管理长期年金普通险客户场所产品合同客户事故产品合同고객장소사고보상客户场所事故理赔客户贷出产品合同理赔事故채널조직경영관리渠道组织营业管理고객대출客户贷出고객상품계약접촉客户产品合同受理客户受理普通管理税务/会计对外金融机关不良客户受理客户合同자보계약장기연금자보보상일반보험영업관리일반대출일반관리외부데이터접촉自保险合同长期年金自保理赔普通险营业管理一般贷出一般管理外部数据受理고객상품계약거래사고자산운용보상客户产品合同交易事故资产运营理赔고객채널엽업실적손익보상손해율리스크대출요율客户渠道绩效损益理赔受损率风险贷款利率财务会计管理会计SEMEIS风险管理分析CRM管理利率管理综合管理SourceMetadataETLMetadataEDWMetadataOLAPMetadataStaging领域EDW领域DataMart领域信息门户OLAPQuery&Report元数据ERPETLETL信息分析ETLETLSACC201313在设计ODS,DW,DM数据模型时,需要使用各种建模技术和方法,其中包括模型的整合技术,多维模型的设计技术等。多维模型(MultidimensionalModeling)3.3多维模型设计多维建模主题域设计选定需要构建多维模型的业务通过分析用户需求、各自材料、界面、报表等材料选定主题域维(Dimension)定义基于用途为不同主题域定义纬度定义属性间的分层结构Fact定义详细定义用户需要详细查询的最底层级别定义需要查询的数值(Fact,Measure)性能优化考虑数据库结构和性能问题分析数据量,查询性能等雪花模型多维模型设计方法•优点:数据重复性小,变更方便•缺点:随着表连接的增多,性能性能降低。星型模型•优点:查询速度快•缺点:数据重复存储,需要大量存储空间,变更难度大。고객(D)고객KEY고객유형이용실적(F)고객_KEY상품_KEY조직_KEY채널유형_KEY기간_KEY료기간(D)기간_KEY일조직(D)조직_KEY부서명사업본부채널유형(D)채널유형_KEY채널유형명상품소분류(D)상품_KEY상품명소분류명고객(D)고객_KEY이용실적(F)고객_KEY상품_KEY조직_KEY채널유형_KEY기간_KEY이용금액이용건수수수료기간(D)기간_KEY일월분기조직(D)조직_KEY부서명사업본부채널유형(D)채널유형_KEY채널유형명상품(D)상품_KEY상품명상품소분류(D)상품소분류코드상품소분류명상품대분류(D)상품중분류코드상품중분류명选定事实表对象提前决定需要被经常使用的维度,并生成概要表,以减少查询时间注意表数据的完整性在多维模型中设计从多个表中抽取的数据时,数据的完整性问题比较难以维持,须要注意。BitmapIndex使用为数据变更不是很频繁的表设计位图索引,能够在很大程度上改善性能。杜绝使用视图禁止滥用视图,因为表结构变更时,易引发管理和性能问题。多维模型设计时考虑事项SACC2013143.4数据架构—数据主题域设计方法主题域是指为了实现企业预定目标根据数据的固有属性进行分类的数据集合,此数据集合是企业最上层的数据集合,而且并非是根据业务流程进行分类的数据集合。一般对表示业务的主体、对象、行为的数据进行分组。全局性的企业数据分类RD_MR_ICOWTD_SEND:DATENOTNULLC_ACO:CHAR(6)NOTNULLO_SENDSEQ:SMALLINTNOTNULLC_OCO:CHAR(6)NOTNULLO_TF:CHAR(3)NOTNULLC_RITYPE:CHAR(3)NOTNULLR_IN:DECIMAL(7,4)NOTNULLA_IAMT:DECIMAL(17,2)NOTNULLA_IPRE:DECIMAL(15,2)NOTNULLR_ICOM:DECIMAL(7,4)NOTNULLA_ICOM:DECIMAL(15,2)NOTNULLRD_MR_OCOWTD_SEND:DATENOTNULLC_ACO:CHAR(6)NOTNULLO_SENDSEQ:SMALLINTNOTNULLC_OCO:CHAR(6)NOTNULLR_OCO:DECIMAL(7,4)NOTNULLA_OAMT:DECIMAL(17,2)NOTNULLA_OPRE:DECIMAL(15,2)NOTNULLRD_MR_WTD_SEND:DATENOTNULLC_ACO:CHAR(6)NOTNULLO_SENDSEQ:SMALLINTNOTNULLD_APP:DATENOTNULLC_RIGOD:CHAR(3)NOTNULLC_LCO:CHAR(6)NOTNULLO_POLY:CHAR(18)NOTNULLO_POLYSEQ:SMALLINTNOTNULLD_TYYM:CHAR(6)NOTNULLC_VESRISK:CHAR(2)NOTNULLC_PROC:CHAR(3)NOTNULLD_FROM:DATENOTNULLD_TO:DATENOTNULLM_ENDORSE:VARCHAR(360)NOTNULLC_CTORTYPE:CHAR(1)NOTNULLC_CTOR:CHAR(13)NOTNULLN_CTORKR:CHAR(40)NOTNULLC_CUR:CHAR(3)NOTNULLA_INSVAL:DECIMAL(17,2)NOTNULLA_OAMT:DECIMAL(17,2)NOTNULLA_OPRE:DECIMAL(15,2)NOTNULLR_HMIV:DECIMAL(7,4)NOTNULLDB1OTCDB2DB3DB4当事人产品合同概念、逻辑模型物理模型主题域分类业务、系统领域•从便于管理的角度出发分类整合企业数据•下层包含子主题域或实体•数据不从属于任何特定系统及个别功能•用独立的数据标准为企业提供一致性的分类标准•最大化减少因业务环境变化而带来的影响,构建一致性的企业数据模型及数据管理体系•适用于企业数据管理的一致性分类标准•从企业全局角度出发的数据分类标准•以概念、逻辑模型的开发及管理为单位,通过提供的参考标准提高投入产出率•根据企业统一分类标准进行开发及管理,提升系统间信息的共享度•提供逻辑及物理数据的整合标准•为分散在各系统的数据提供用统一属性进行比较、分析的标准,大幅提升数据质量•能够成为业务主体、对象及行为的数据•企业进行全局管控所需的数据•企业关注度高的信息•企业实现新功能的数据重点关注定义目的应用最上层数据模型SACC201315[主题域][逻辑模型]•主题域要定义到最小单位的小主题域。•概念模型及逻辑模型的实体要以最下层主题域为对象(中主题域及小主题域)。•逻辑模型的实体由概念模型的实体或子实体映射而成。•由概念模型映射的逻辑模型实体要同概念模型的主题域相一致。•逻辑模型的所有实体都要由主题域映射而成。[概念模型]实体大主题域中主题域小主题域实体子实体主题域设计方法3.4数据架构—数据主题域设计方法SACC2013161.1当事人信息1.2当事人关系1.3当事人详细1.4当事人管理1.5当事人分类2.1产品基本信息2.2产品关系2.3产品详细2.4产品管理5.1条件信息3.1合同3.2合同关系3.3合同详细3.4合同管理4.1交易4.2交易关系4.3交易详细4.4交易管理6.1渠道信息6.2渠道关系6.3渠道详细6.4渠道管理6.6渠道分析6.5渠道分类7.1资产信息7.3资产详细7.4资产管理7.2资产关系10.1编码10.2金融指标8.1风险8.2风险要素8.3风险分析2.5产品分类3.5合同分类4.5交易分类5.5条件分类1.6当事人分析2.6产品分析3.6合同分析4.6交易分析7.5资产分类9.1经验管理9.2经营信息9.3经营分析10.3系统管理7.6资产分析主题域示意图3.4数据架构—数据主题域设计方法SACC2013173.5数据标准化必要性数据标准化是指为各系统中使用的数据信息制定如何确立名称、定义、形式、规则的原则。通过数据标准化可以让用户准确理解数据的含义,避免对同一数据而产生不同的理解,通过解决数据编码值不统一,命名规则不统一,数据类型不统一等问题能够提高数据质量。数据标准化的必要性•缺乏对数据要素的明确定义,用户任意解释其内容或错误使用信息的可能性越来越高•用多种形式管理数据结构以及描述用语的不同,会发生数据结构间重复,不统一等问题•根据业务单位或模块单位进行系统开发,可能会出现沟通(Communication)障碍问题或各子系统间定义的数据不能相互使用的问题•缺乏对企业数据标准和监控步骤的管理,从而导致不能有效地管理数据•各系统使用不同的数据长度或数据类型,因此数据迁移时易出现错误编码值不统一表A(报单状态编码):A表B(报单状态编码):1表C(报单状态编码):进行命名规则不统一表A:状态编码表B:进行状态编码表C:报单状态编码数据类型不统一表A:char(1)表B:number(1)表C:varchar2(10)SACC2013183.5数据标准化实施流程数据标准化的步骤如下图所示,以当前模型中存在的信息为基础,对其进行收集、分类、抽象化,制定单词、用语、编码、域等标准,并将这些标准应用至实际数据模型中。数据标准化步骤①:指定当前属性的域②:指定当前属性的域,有可能存在不遵守域的情况③:对当前属性指定标准域④:对当前属性自动赋予指定域的字段名⑤:对上面②中执行的内容自动指定到物理模型中BIZ要求事项设计概念模型数据标准应用生成标准用语生成集合域(groupdomain)生成用语关系生成编号域生成数值域当前物理模型映射导出当前逻辑模型设计数据模型生成Alignment抽象化抽象化Alignment(目标)Alignment(当前)DSR①②③现行分析(词素分析)逻辑化ReverseEngineering⑤④设计模型完善当前数据模型构筑数据分类体系标准命名规则注)DSR:DataStandardRepositorySACC201319•合并所有的行为主体•包含客户但不局限于客户概念的实体•物理对象+逻辑对象•账户同商品间的约定管理•用关系定义所有约定•正确的线段履历管理•定义业务行为的主体•客户账户、服务账户、交易账户•行为主体的详细信息•联系方式、财务信息、个人爱好•信用信息、资产信息等•所有类型的商品及服务•引入产品化概念•引入ProductFactory概念•价格政策管理体系化•各单品价格的组合•包含优惠及调整政策•现有业务的管理单位•购买、订单及配送规则等•重新制定基本概念•滞纳账户的创建•根据滞纳规定实施阶段管理•为确定优先管理顺序实施模拟作业•为服务账户提供所有种类的服务行为•金融交易、话费缴纳等•交易信息的集成管理•当期交易集成管理•订单发送管理•异地作业•计划制定、模拟•
本文标题:基于高质量数据架构的数据分析_EN-CORE_郑保卫
链接地址:https://www.777doc.com/doc-4417752 .html