您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 如何进行数据仓库的建设实施
数据中心(数据仓库)的建设实施深圳海联讯科技股份公司张千福一体化平台总体拓扑图身份管理认证代理人员目录认证目录人力资源安全生产物资管理协同办公营销管理财务管理项目管理综合管理操作型数据存储(ODS)数据仓库商务智能全局数据字典公共信息模型业务流程集成业务数据集成身份认证登录数据中心业务系统数据交换网省公司网省公司安全管理企业资源管理平台ETL1运维管理企业门户单点登录基础支撑功能个性化定制多渠道接入Portlet框架虚拟门户门户管理与维护基本应用扩展应用展现层的应用集成Web内容管理搜索协同工作待办事宜BI展现对8大系统中协同办公的规范要求对应用集成项目的规范要求对BI接入的规范要求ETL2基本概念广义数据中心:数据中心是提供所有应用系统的运营场所。数据中心也是容纳用以支持应用系统运行的基础设施(包括服务器、网络、存储设备)的物理地点。数据中心本身的ODS、数据仓库及建立在其上的决策分析应用。数据中心需要有一套成熟的运行、维护体系支持其日常运行,保证应用系统高效地不间断运行,数据被正确的访问狭义数据中心:狭义的数据中心是指数据仓库和建立在数据仓库之上的决策分析应用,具体包括:数据源,数据的ETL,ODS数据库,数据仓库,数据集市,商务智能应用和元数据管理等。在此作业指导书中,除非特别说明数据中心都是指侠义的数据中心,即数据仓库及建立在数据仓库之上的商务智能和决策分析应用。作业指导书概述数据仓库概念:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库可以帮助用户更好地理解信息,从新的角度看待这些信息,以便获得更好的洞察力,看到模式和趋势,并更好地进行商业决策。数据仓库为整个企业的需要服务。数据仓库需要访问不同的数据源,需要存储海量的数据,需要对企业数据进行分析,并用适当的方式展现给出来。数据仓库的建设不仅涉及到许多先进的技术,更涉及到企业所有的业务知识,所以说数据仓库不是一个产品,而是一个具体的解决方案。数据中心概念数据仓库概念背景与目的建设步骤建议迭代关系实例说明整体架构图EAI影像/文档型数据元数据数据集市数据仓库缓冲区数据交换平台数据交换平台或ETL或数据复制对上接口区部署在省的八大业务系统数据省电力数据中心安全生产数据集市财务与绩效集市人力资源集市营销集市数据挖掘集市其它集市对下接口区网省下传数据总部下传数据网省上传数据数据集市数据仓库对下接口区EAI总部数据中心地市综合数据库特色业务应用数据数据缓冲区部署在地市,通过数据复制到网省数据中心的业务系统数据部署在地市的业务系统数据部属在总部的业务系统数据O_1O_2O_4O_5V_1V_2V_3O_7O_6O_9O_10统一视图区O_3缓冲区统一视图区ODSO_8ODSO_x:数据横向移动V_x:数据纵向移动数据中心建设过程需求分析逻辑分析ODS建模数据仓库建模源数据分析数据的获取与整合应用设计性能调优数据展现元数据管理系统建设过程迭代式开发需求分析逻辑分析ODS建模数据仓库建模数据源分析应用设计数据获取与整合国网典设建议的甲方项目组织网省项目组PM各业务部门代表各业务系统开发商代表软/硬件平台提供商PIM集成商PIM业务负责人业务系统负责人数据中心实施负责人项目经理助理海联讯的项目组织项目经理设计需求定义开发测试部署实施需求采集需求分析数据建模数据质量分析架构设计应用功能设计数据获取设计物理数据设计数据获取开发应用功能开发QAL/CML实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现需求分析调研内容调研对象调研时间调研地点内容1内容2内容3内容4…调研计划实际调研需求规格说明书需求分析调研计划实际调研需求规格说明书•调研方式:–当面访谈;–问卷调查;–访谈及问卷提纲模板请参见附录2需求分析调研计划实际调研需求规格说明书实例•调研内容:针对不同层面的人员,调研内容不同•对企业领导层–领导层目前的工作重点有哪些和此主题相关,和哪几个指标相关?–领导层最关心哪几个指标?–针对这些指标,领导层目前采用何种获取方式?–针对这些指标,领导层目前都进行哪些分析,采用何种分析手段,采用何种分析方法?–目前状况下,针对这些指标都有哪些展现方式?–领导层对数据仓库的期望是什么?–领导层希望决策分析系统能提供哪些分析功能?–领导层希望以何种方式来看这些指标?–领导层希望对这些指标进行哪些方面的比较?需求分析调研计划实际调研需求规格说明书•调研内容:针对不同层面的人员,调研内容不同•对中间管理层–中间管理层通常需要上报哪些指标?和此分析主题相关的有哪些指标?–平时领导层通常询问哪些指标?在这些指标中哪几个和此分析主题有关?–中间管理层目前的工作重点有哪些和此主题相关,和哪几个指标相关?–中间管理层本身最关心哪几个指标?–中间管理层对下属的工作人员都考核哪些指标?哪几个指标与此分析主题有关?–针对这些指标,中间管理层目前采用何种获取方式?–针对这些指标,中间管理层目前都进行哪些分析,采用何种分析手段,采用何种分析方法?–目前状况下,针对这些指标都有哪些展现方式?–中间管理层对数据仓库的期望是什么?–中间管理层希望决策分析系统能提供哪些分析功能?–中间管理层希望以何种方式来看这些指标?–中间管理层希望对这些指标进行哪些方面的比较?需求分析调研计划实际调研需求规格说明书•调研内容:针对不同层面的人员,调研内容不同•对业务人员–平时工作中最关心的是哪些指标?有哪几个指标与此分析主题有关?–平时直属领导通常询问哪些指标?在这些指标中哪几个和此分析主题有关?–业务人员目前的工作重点有哪些和此主题相关,和哪几个指标相关?–业务人员对数据仓库的期望是什么?–业务人员希望系统能提供哪些分析功能?–业务人员希望以何种方式来看这些指标?–业务人员希望对这些指标进行哪些方面的比较?需求分析调研计划实际调研需求规格说明书•调研内容:针对不同层面的人员,调研内容不同•对IT人员–此主题所需要的数据源都取自哪些业务系统?–与本主题有关的现有的业务系统的数据结构怎样?–与本主题有关的现有的业务系统的数据更新频率如何?–IT人员对数据仓库的期望是什么?–IT人员在平时的工作中最关心的哪些指标?需求分析调研计划实际调研需求规格说明书•需求规格说明书–需求规格说明书模板详见附录4实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现逻辑分析单一主题处理逻辑分析从业务逻辑入手,分析各指标的组成关系;多主题处理逻辑分析综合考虑各分析主题间的逻辑关系;处理逻辑分析支撑数据分析业务元数据建立逻辑分析单一主题支撑数据分析单个主题分析所需要的原始支撑数据分析多主题支撑数据分析所有主题统一考虑做需要的支撑数据分析处理逻辑分析支撑数据分析业务元数据建立逻辑分析业务元数据包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。处理逻辑分析支撑数据分析业务元数据建立实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现ODS建模ODS逻辑模型逻辑结构:完成实体的定义,各实体间的关系等存储周期(立即删除、过一段时间删除或者是备份到其它介质上)存储粒度(与源系统基本保持一致)ODS物理模型数据的存储结构索引策略数据存放位置(硬盘或磁带等)存储分配分区设计逻辑模型物理模型验证实例ODS建模逻辑模型物理模型验证实例实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现需求分析逻辑分析ODS建模数据仓库建模源数据分析数据的获取与整合应用设计性能调优数据展现元数据管理系统建设过程数据仓库建模数据仓库逻辑模型划分粒度层次确定数据分割策略确定存储周期定义关系模式数据仓库物理模型数据的存储结构索引策略数据存放位置(硬盘或磁带等)存储分配分区设计逻辑模型物理模型验证实例数据仓库建模逻辑模型物理模型验证实例实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现数据源分析数据源范围包括数据源逻辑范围和物理范围数据源格式理解各数据源的格式,确定统一的格式,制定相应的转换规则数据源范围数据源格式数据量数据质量数据更新频率数据源分析ORACLE数据源名称代码用电分类AC_ELEC_CLASS电价表AC_TARIFF行业AC_TRADE_TYPE欠费信息表CHG_RECEIVABLES客户信息EP_CUST_INFO电量与电费表EP_RESULT地区(单位)SU_AREA部门SU_DEPT电压AC_VOLT_GRADE数据源范围数据源格式数据量数据质量数据更新频率数据源分析SYBASE数据源名称代码用户基本信息User_inf按户电费数据User_cost电费数据bill_data用电性质代码表Code_e_kind用电类别Code_usage_date电价表Price计费日期对应电价日期cal_price_date单位代码Dept行业代码表Code_trade_new电压代码表Codvolt时段Code_period用户类别Code_user_type用户使用电表User_ammeter用电分类代码表rep_salse_kind用电分类与用电性质关系表rep_salse_relation其它电费数据Bill_data_oth数据源范围数据源格式数据量数据质量数据更新频率数据源分析名称代码更新用电类AC_ELEC_CLASS维表(缓慢变化)电价表AC_TARIFF维表(缓慢变化)行业AC_TRADE_TYPE维表(缓慢变化)欠费信息表CHG_RECEIVABLES月客户信息EP_CUST_INFO维表电量与电费表EP_RESULT月地区(单位)SU_AREA维表(缓慢变化)部门SU_DEPT维表(缓慢变化)电压AC_VOLT_GRADE维表(缓慢变化)数据源范围数据源格式数据量数据质量数据更新频率数据源分析名称代码数据量用电分类AC_ELEC_CLASS92电价表AC_TARIFF355行业AC_TRADE_TYPE595欠费信息表CHG_RECEIVABLES1309341客户信息EP_CUST_INFO147692电量与电费表EP_RESULT2775326地区(单位)SU_AREA15部门SU_DEPT102电压AC_VOLT_GRADE6数据源范围数据源格式数据量数据质量数据更新频率数据源分析数据源范围数据源格式数据量数据质量数据更新频率General一般信息Pattern模式DataType数据类型Unique唯一性约束Domain数据值域AttributeAnalysis数据属性分析FunctionalDependency内容和功能依赖Orphans没有相应的外键Childless没有相应的应用列Joins关联RedundantAttributes重复属性ReferentialAnalysis应用和参考分析DataProfiling数据特性CustomProfiling客户化数据特性实施过程数据仓库建模41需求分析2逻辑分析数据源分析53ODS建模元数据管理106数据获取与整合7应用分析8性能调优9数据展现数据的获取与整合直接抽取ETL服务器直接连接到应用系统后台数据库中,直接抽取所需数据。采用这种抽取方式时,必须注意安全控制和抽取时间窗口两个问题。WEB服务通过WEB服务获取系统需要的数据的抽取方式。文件交换文件交换是指应用系统将需要抽取的业务数据保存为有格式的文本文件,然后ETL服务器通过读此文件内容来获取业务数据的数据抽取方式。数据获取方式数据转换方式数据装载方式数
本文标题:如何进行数据仓库的建设实施
链接地址:https://www.777doc.com/doc-26682 .html