您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第4章数据仓库的规划与开发
第4章数据仓库的规划与开发4.1数据仓库的投资分析4.1.1建设数据仓库的必要性1.企业应用数据仓库的目标大致可以划分为三类:(1)将数据仓库作为企业的核心业务进行发展。(2)利用数据仓库来优化企业内部管理控制,如人力资源的管理、成本的管理、产品质量和服务质量的管理等等。(3)利用数据仓库为企业增加商业机会,这主要包括帮助市场、销售部门对客户情况和市场情况进行分析,帮助企业决策者提供辅助决策信息。2.企业建设数据仓库的必要性分析企业市场规模、客户规模企业内部结构复杂度大小高有必要建立优化企业内部管理控制和为企业增加商业机会为目的的数据仓库有必要建立以优化企业内部管理控制为目的的数据仓库低有必要建立以为企业增加商业机会为目的的数据仓库4.1.2数据仓库的投资回报及风险分析1.定量分析定量分析通常使用的是ROI(ReturnofInvestment,投资回报率)和投资回报周期来衡量。投资回报率是投资获得的收益部分除以投资所耗的部分,即:ROI=收益成本/成本现值2.定性分析(1)能否提高产品质量和服务质量?(2)能否优化内部资源配置,提高效率,降低成本?(3)能否改善企业与客户之间的关系,为客户提供更多、更好的服务?(4)能否改善管理层的管理能力、管理水平和管理效果?(5)能否为企业决策层的决策提供有效的支持?(6)能否提高企业的市场反应能力、反应速度?(7)能否为企业的技术创新和产品创新提供有效支持?3.风险分析建立数据仓库系统的过程中会面临以下几方面的风险:(1)企业将建立数据仓库系统的目标定得过于远大,不切合实际,最终难以实现。(2)系统的实现周期过长在一定程度上将导致项目风险的加大。(3)由于项目控制不当而产生的风险。(4)由于忽视了数据仓库系统的后期维护而产生的风险。4.2数据仓库的开发方法4.2.l瀑布式开发方法需求分析系统分析系统设计系统实施单元测试系统调试成功后投入运行需求变化时,要返回分析4.2.2螺旋式开发彼此阶段相互连贯,前一阶段会成为后阶段的结果参考点,后一阶段又可以借用前一阶段的经验定义分析评估设计维护开发实现4.3数据仓库的建立过程技术数据应用数据仓库的运行与维护需求分析模型设计数据载入接口设计数据仓库基础构造应用设计、开发数据仓库部署4.3.1数据进入数据仓库的过程与建立数据仓库的步骤1.数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。2.建立数据仓库的步骤(1)收集和分析业务需求。(2)建立数据模型和数据仓库的物理设计。(3)定义数据源。(4)选择数据仓库技术和平台(5)从操作型数据库中提取、转换和净化数据并加载到数据仓库。(6)选择访问和报表工具。(7)选择数据库连接软件。(8)选择数据分析和数据展示软件。(9)更新数据仓库。4.3.2需求分析数据仓库开发过程中每一个阶段的每一项任务都是由需求决定的。(1)数据仓库的需求。用户必须能够从数据仓库中找到他们所需要的所有战略信息,必须能够方便地访问数据仓库,运行查询,得到结果,并且毫无阻碍地进行结果分析。(2)综合分析之后形成一份需求定义文档。4.3.3数据路线1.概念模型设计概念模型设计的操作主要是对原有数据库系统中的数据进行集成和重组而形成的数据集合。2.逻辑模型设计通过逻辑模型设计,可以对每个当前要装载的主题的逻辑实现进行定义,并将相关的内容(如适当的粒度划分,合理的数据分割策略,合适的数据来源等)记录在数据仓库的元数据中。3.物理模型设计通过物理模型设计,可以确定数据的存储结构,存放位置,索引策略及存储分配。4.数据装载接口设计编制数据装载程序,该程序包括了数据装载功能和数据综合功能。数据装载功能负责数据抽取、转换、清洗、集成,数据综合功能负责将集成的细节数据转化为不同综合层次的数据。4.3.4技术路线技术路线将会确定数据仓库的基础构造。并且这种基础构造包括两类:操作型基础构造和物理基础构造。1、操作型基础构造操作型基础构造包括人员、流程、培训和管理软件。2.物理基础构造物理基础构造主要包括计算机平台和一系列的工具。4.3.5应用路线数据仓库的应用设计主要包括OLAP模型设计、数据挖掘模型设计和信息传递设计等。1.OLAP模型设计总体维度分析主题维度设计度量变量选择数据粒度确定定义OLAP模型2.数据挖掘模型设计变量选择、格式转换优化模型参数评价模型预处理数据验证集训练集3.信息传递。通常用户和数据仓库包括六个阶段的交互过程:(1)依据数据仓库中的数据来定义需求;(2)从数据仓库中来选择合适的数据子集;(3)用计算机来操作丰富的子集;(4)将行业含义和选择的数据结合起来;(5)将结果构建成适合用户的格式;(6)用各种方式来表示结构化的结果。4.3.6数据仓库部署数据部署的工作主要包括用户认可、初始装载、桌面准备和初始培训等内容。1.用户认可。主要工作是测试所有用户的界面和系统的性能。2.初始装载。运行接口的驱动程序,将数据装入到数据仓库中。3.桌面准备。桌面准备的主要工作是安装好所有需要的桌面用户工具,测试每个客户的计算机。4.初始培训。这部分工作是让用户能够了解如何使用数据仓库。4.4数据仓库的维护4.4.l数据周期从操作型环境数据发生改变起,到这个变化反映到数据仓库中所用的时间就是数据周期。4.4.2参照完整性数据的参照完整性是指数据仓库中的数据表之间动态连接。4.4.3数据环境信息数据仓库数据1环境信息数据1数据2环境信息数据24.4.4数据备份与恢复1.数据备份(1)只有当前数据才应当不断的备份。(2)可以考虑使用日志备份和差异备份的方法。(3)建立良好的备份规划,周期性地将数据存档。(4)一般备份的时间是在夜间进行,但也可以使用备份与每日装载同步进行。(5)备份介质的选择2.数据恢复恢复过程中需要注意一些问题:(l)要有一个清楚的恢复计划。将不同的灾难情况列表,指出每种情况下如何进行恢复。(2)考虑公司的条件,建立恢复步骤,估计恢复的期望停机时间,正确、迅速地通知用户。(3)如果必须去源系统完成恢复过程,要保证源系统可用。4.5提高数据仓库性能可以通过以下四点来提高数据仓库的性能。提高I/O性能缩小查询范围采取并行优化技术选择适当的初始化参数4.6数据仓库的安全性4.6.1安全类型从类型上可以分以下四种:Individual个体Group组Hierarchical层次Conglomeration集成4.6.2安全方法1.建立外部安全通常我们可以通过建立防火墙、数据库试图、密码等手段,在数据仓库周围建立屏障。2.建立内部安全通常我们可以通过建立防火墙、数据库试图、密码等手段,在数据仓库周围建立屏障。4.7分布式数据仓库4.7.1采用分布式数据仓库的优点第一,整个代价低。对于一个数据仓库,当最初采用分布式技术时,软、硬代价要比最初采用大的、中央集成的技术代价低;第二,存放在数据仓库中的数据量理论上无限制。如果数据仓库中的数据量将要超过分布式处理器的限制时,只要在网中加入另一个处理器即可。这也符合企业的发展趋势;第三,研制、见效周期短。在短期内局部数据仓库就能建好、运行并使局部组织受益。4.7.2分布式数据仓库的模型建立与数据划分数据源数据源数据源全局数据仓库局部数据仓库局部数据仓库局部数据仓库企业总部外部数据源局部运作系统3局部运作系统2局部运作系统14.7.3分布式数据仓库的建设策略(一)建设的策略一般有四种开发机制。1.独立建造数据仓库2.分布式(不同地域同时)开发方式这种策略主要针对一些业务分散在多个地域的大型企业,业务间的交互比较密切。3.在多个层次上建造数据仓库4.多个开发者建立当前细节层(二)建设的原则建设的一般原则可归结为:第一,在单元节点建立数据仓库搭好框架,然后抽取数据建立数据集市。第二,首先完成急需和最关键的目标,而后逐渐完善。第三,先进行试点,后推广成功节点。第四,先建立分公司节点,后建设总公司节点。
本文标题:第4章数据仓库的规划与开发
链接地址:https://www.777doc.com/doc-27717 .html