您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库解决方案及实施关键过程
数据仓库解决方案及实施关键过程商业智能(BusinessIntelligence)已经进化为包括越来越多的数据分析技术。无论采用哪种数据分析方法,数据仓库都仍然是利用信息资产的重要基础。本文将关注数据仓库计划,其中包括客户互动过程、业务发现、项目建议以及项目计划。目标读者本文是为需要知道如何交付数据仓库解决方案的IT专业人士撰写的。本文假定您已经熟悉系统和数据库的概念。有许多主题未在本文中进行介绍,但它们同样是交付良好数据仓库解决方案的基础,包括系统和数据库设计、管理、性能调优等。本文仅仅关注与数据仓库密切相关的问题。商业智能是什么?商业智能(BusinessIntelligence,BI)是对于大量数据的收集和分析,以便洞悉如何驱动战略性和策略性商业决策。BI是用于将数据转换成信息的过程和技术的集合。它包含了种类繁多的技术,包括数据仓库、多维分析或在线分析处理(OLAP)、数据挖掘和数据可视化,以及简单的查询和很多种用于制作报表的分析工具。这些技术允许业务用户收集、存储、访问和分析数据以提高做出业务决策的能力。图1.商业智能是什么?数据仓库是什么?数据仓库(datawarehouse)是一个集中式的存储库(repository),包含了综合详细的数据和概要数据,用于从不易变的历史角度提供客户、供应商、业务过程和事务的完整视图。另一方面,数据集市(datamart)包含数据仓库中所存储数据的一个子集,这些数据是特定商业社区、部门或用户群所感兴趣的(例如:市场促销、财政或帐户集合)。数据集市是由其用户的功能范围而非数据集市数据库的大小定义的,意识到这一点十分重要。在结构良好的BI系统中,数据仓库充当多个数据集市的一个源。数据仓库是什么?数据仓库(Datawarehousing)是用于管理和交付用于进行决策的完整、及时、正确和可理解信息的过程和工具的设计和实现。它包括使企业可以创建、管理和维护数据仓库或数据集市的所有活动。数据仓库(Datawarehousing)处理对于数据仓库(datawarehouse)或数据集市的开发、实现和操作的管理。它包括元数据管理、数据采集、数据清理(datacleansing)、数据集成、存储器管理、数据分布、数据归档、操作报表制作、分析报表制作、安全性管理、备份和恢复计划等等。下面的小节提供了对于数据仓库(除了报表制作和分析)的简介。将特别关注为分析准备数据——该任务通常占大多数数据仓库项目计划的80%。为何选择IBMDB2DataWarehouseEdition?IBMDB2DWE是一个功能强大且完整的商业智能(BusinessIntelligence)基础设施产品,其中包括了DB2、集成的OLAP、高级数据挖掘、数据提取、转换和装入(Extraction、TransformationandLoading,ETL)、报表制作工具等。DB2DWE操纵并提高诸如DB2OLAPServer和来自IBM合作伙伴的高级桌面OLAP工具的性能。DB2DWE是最具成本效益的数据仓库工具之一。据MarketMagicLtd在2004年的研究报告所称(参阅参考资料),DB2DWE在5年多对于数据仓库实现的ProbableCostofOwnership?(PCO)要低于Oracle和NCRTeradata的。可预见的伸缩能力以及没有限制是商业智能(BusinessIntelligence)平台的关键标准。DB2通过其独特的无共享(shared-nothing)架构的实现来满足该需求。可伸缩性同时适用于大型和小型数据库。可伸缩性和价格都很重要,但是它们无法单独解决构建BI平台的挑战。DB2DWE通过同样交付关键的分析和挖掘技术完成了该蓝图。DB2与用于OLAP应用程序的DB2CubeViews、在数据库中用于实时数据挖掘的IntelligentMinerScoring以及在深嵌于DB2的诸如空间扩展器(spatialextender)和XML查询等新工具完全集成,从而确保无缝的集成和优化的性能。客户互动过程数据仓库解决方案的客户互动过程与以某种方式进行的其他IT解决方案的相似。然而,数据仓库解决方案具有一些重要的不同,包括强大的面向业务的数据、进程的多层迭代以及更多终端用户的涉及。下图展示了作为数据仓库解决方案提供者的您在一个成功的项目期间与客户要进行的主要交互。图2.数据仓库解决方案客户互动过程解决方案启动(Solutionstartup):在这个客户互动的初始步骤中,您与您的客户将决定启动数据仓库项目,并开始建立协议。因为这是所有类型项目的通用步骤,所以本文中不会详细讨论。业务发现(Businessdiscovery):这是理解当前和期望业务数据分析需求之间差异的过程。它包括收集和记录业务需求,理解客户环境,以及完成差异分析。(关于细节,请参阅下一节。)解决方案建议(Solutionproposal):基于客户需求,您需要为数据仓库项目或解决方案提出建议。解决方案计划(Solutionplanning):本步中,您计划解决方案,并指定所需的数据仓库基础设施、人员和资源。仓库概念建模(Warehouseconceptualmodeling):仓库高级设计包括仓库架构和实现选择以及用于捕获业务需求中所定义的所有业务主题领域的概念数据建模。仓库阶段设计(Warehousephasedesign):仓库阶段设计包括逻辑和物理数据建模,用于在更加详细的层次上捕获业务需求,但是仅仅设计当前项目迭代中的主题领域。该步骤还包括ETL过程设计。解决方案实现周期(Solutionimplementationcycle):数据仓库实现包括目标存储库和数据集市数据库,以及ETL过程实现。解决方案部署(Solutiondeployment):将新的数据仓库解决方案移至生产环境中。该数据仓库客户互动过程是基于自底向上(或阶段性)数据仓库实现方法的。在部署数据仓库解决方案之后,可以在新的逻辑和物理数据建模上为与当前业务需求相关的其他业务主题启动该项目,或者如果有新的业务需求,就重新启动业务发现阶段。业务发现业务发现过程包括三个任务:收集和记录业务需求,理解客户的业务环境,以及执行差异分析。这三个任务可以重叠进行,您将总是同时执行这些任务中的几个。例如,理解业务需求的一部分就是调查客户的业务数据源,这些数据源涉及了三个业务发现任务。在开始进行业务发现过程之前,解决方案提供者理解每个任务的目标是很重要的。进行差异分析的目的是理解客户的业务难题和需求,并评估需要用于弥补当前业务状态及其业务需求之间差异的资源。图3.业务发现过程收集并记录业务需求在执行该任务期间,您应该可以发现并理解客户的业务难题,识别并优先考虑业务需求,以及关注感兴趣的业务主题领域。在完美的世界中,在客户互动的开始,您可能拥有完整的数据仓库项目的书写业务需求集。而在现实商业世界中,特别是在中间市场的公司中,初始的业务需求通常是不完整的;最初的联系常常包含电话、e-mail或非正式的谈话。在向项目投入过多时间和资源之前,遵循所有初始会议以完整地识别所有的业务需求是十分重要的。收集完整的业务需求并非是一项普通的任务。它需要积极地与您的客户进行交流。最适合于该工作的是一位有经验的分析员,应具有较强的业务和人员技能以及关于数据仓库和数据建模的合理知识。确定终端用户的需求在收集需求的过程中,您收集并记录终端用户的需求。您通常要研究终端用户是如何卷入业务过程和信息分析活动的。因为这些终端用户并非一定理解数据仓库的概念,所以您应该询问允许您得以理解特定业务问题的问题。在本阶段中,通常发现终端用户的需求是非正式记录的,且没有用详细的数据结构表示。在收集终端用户的需求时,您可以采访终端用户,研究现有的文档和报表,以及监控进行中的信息分析活动。具有业务过程工程和信息分析方面的经验可能十分有帮助。终端用户需求可以分为4个类别:业务对象是商业术语中信息分析目标的高级表示。一个给定的数据仓库项目可能具有一个或更多业务对象。例如,业务对象可以是:“数据仓库必须支持操作成本的分析,以及产品销售利润的分析。”数据仓库项目中的联合业务对象集可以帮助确定项目范围。它们还可以帮助识别项目中所涉及的信息主题领域,以及识别终端用户所分析的业务过程(通常是高层次)的度量。业务查询表示终端用户在其日常信息分析活动中询问并尽力解决的查询、假设和分析问题。就像业务对象一样,业务查询也是用商业术语表示的。您通常将期望精确规划它们。它们不是用SQL术语表示的。业务查询类别中频繁碰到的一些实例有:存在检查查询,例如“给定产品是否已经卖给某位特定客户?”品项(item)比较查询,例如“比较两位客户在过去的6个月中的购买价格”或“比较每个商店每周对于一个特定产品的销售品项数目”。趋势分析查询,例如“给定产品集在过去12个月中的销售增长如何?”用于分析比率、等级和集群的查询,例如“按照去年中的美元销售列出最佳客户。”统计分析查询,例如“计算每个产品类别在每个销售区域中的平均品项销售。”数据分析场景是增加您所捕获和分析的需求集实质的较好方式。例如,某些业务需求是通过分析现有报表查询工作流和解释当前业务数据分析结构而生成的。现有的数据模型可能是可用的,并且可以用于进一步指定或支持终端用户需求。您可以通过重新构建和集成源数据模型来收集数据模型。终端用户需求集涉及了许多领域,且许多因素都可以影响其结果。这些因素可能包括终端用户的业务知识,他们可以如何较好地表达自己,或他们接受采访多长时间。用户需求也是随时间变化的,某一天正确的内容到了第二天可能不再有效。您如何知道何时成功地识别了用户的需求呢?没有一个绝对的测试,但是如果您的需求解决了下列问题,那么您就可能获得了足够的信息开始进行数据建模:谁是用户所感兴趣的?考虑个人、小组和组织。哪些业务过程和功能是终端用户尽力分析的?用户为何需要数据?何时(哪个时间点)需要记录数据?相关过程在何处(地理上,组织上)发生?您如何可以度量业务过程和功能的性能或状态?确定功能需求终端用户需求帮助您理解当前业务过程和业务难题,而功能需求则帮助您理解客户从数据仓库解决方案中所期望的服务比例。所查询的问题基于您的数据仓库知识、评估以及对于终端用户需求的理解。功能需求信息通常来源于关键业务合同、业务经理、IT专业人士以及潜在的终端用户。功能需求帮助您设置总体项目比例和目标。查询下列问题:您需要哪些新的信息分析功能来提高业务?给定您期望基于数据仓库所构建的报表的详细定义。如果有一个现有的数据分析过程,您碰到了哪些问题?新的数据仓库有多少潜在的用户,他们位于何处?业务报表每隔多久就需要重新进行构建?客户端中哪些人将参与项目,他们的责任是什么?项目预算是什么(如果那些信息可用)?项目完成的目标数据是什么?如果有义务特定的聚合度量,那么那些度量的定义是什么?数据仓库需要哪种类型的安全性配置?理解客户的环境您一开始收集和记录业务需求时就要理解客户的环境。在整个项目过程中,这些任务都将持续进行。在项目的早期阶段理解客户环境是十分重要的,以便避免误解和不受欢迎的惊喜。许多业务和技术假设都将基于早期的客户环境调查结果。理解客户的业务环境难以预测您需要哪些知识来用以完全理解客户业务环境,因为每个业务都是惟一的。然而,为了取得成功的客户互动,您必定需要知道几件事情。它们包括但不限于:谁是项目决策人?谁是项目的关键的联络人员?需要解决哪些类型的业务问题?谁是终端用户?终端用户可能不是决策人,但他们提供关于数据仓库可用性的宝贵信息。您需要哪些特别的业务知识?您的客户具有IT人员吗?如果是,您可以从他们中获得多少支持?理解信息基础设施环境客户的网络环境可能简单,也可能复杂。您可能不需要理解关于其网络的一切事情,但是需要记录与数据仓库生产环境相关的事情,用于设计和配置数据仓库。下面是您应该知道的一些事情:生产环境中使用哪种类型的网络连通性和协议?网络流通的平均和最大吞吐量是多少?何时是冲突和峰值时间?数据仓库需要支持多少终端用户?您的客户
本文标题:数据仓库解决方案及实施关键过程
链接地址:https://www.777doc.com/doc-5834040 .html