您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 招商银行数据仓库方案
1招商银行数据仓库方案建议书I目录2第一章前言第二章建议方案简介第三章硬件产品介绍第四章软件产品介绍第五章项目计划附录一成功案例附录二IBM可以提供的服务附录三项目进度计划安排参考附录四产品报价第一章前言作为一个发展中的银行,总部位于我国南方著名经济特区深圳市3的招商银行的成长令人瞩目。为了在五年内成为全国著名的银行,进入世界大银行的排行榜,招商银行的决策者们制订了一整套行之有效的计划,而作为现代化管理的一部分,与国际上先进的模式接轨,计算机管理自然成为相当重要的一部分。招商银行与世界信息产业的领导者,美国国际商业机器公司,简称IBM合作,将其业务系统成功运行在AS/400平台之上,成功地迈出了计算机管理的第一步。但是他们并不满足于目前的状况,发扬一向紧跟新科技的传统,决定对目前的业务数据作进一步的处理,将静态的数据转化为决策支持的依据。所以,准备采用目前信息产业界极为先进的数据仓库技术,完成招商银行的决策支持系统,以进一步提高公司的实力和竞争力。而世界上最大的软件及咨询服务公司IBM,将以其在该行业雄厚的实力和数十年丰富的经验,为招商银行提供一套完整的解决方案,使招商银行的管理能力再上一个台阶。本方案以先进性和可扩展性为原则,使招商银行的数据仓库系统既可以保证在几年内技术和设备不落后,使之站在世界计算机发展潮流之上,又可以根据业务的高速发展,很方便地升级,以达到业务发展需求的性能。先进性方面,IBM提供的硬件平台是具有最强劲处理能力的RS6000SP系列并行机,它综合业界的最高端技术,具备无与伦比的处理能力和可扩展性、可靠性。例如战胜世界冠军、国际象棋特级大师卡斯帕罗夫的“深蓝”就是这种机型,其每秒数亿步的处理速度至今仍被人们称道;软件平台是IBM提供最新推出的、业界好评如潮的通用数据库产品(UniversalDatabase),这是IBM的又一大师级力作;还有荣获本年度世界数据仓库产品大奖的数据采掘工具:IntelligentMiner;在应用上,IBM有成熟的整套数据仓库解决方案,和其他仅仅能提供某些方面产品的厂商有着本质的区别。可扩展性方面,因为数据量越来越大,用户越来越多,为保证合理的响应速度,对机器的性能提高就会有一个几乎线性增长的要求。硬件和软件的可扩展性就成为一个重要的考虑因素。IBM的RS6000SP主机正是具备这种特性,从而成为硬件平台的首选;通用数据库在小到手提机,大到并行主机的任何平台上,都能充分发挥硬件的性能。这样就确保了整个数据仓库系统的正常运作。也可以保证用户在今后升级时,既可以保护现有投资,也使应用系统受到的影响降到最小,4做到无缝升级。背景中国的银行业务正面临深刻的改革,各种新生事物不断涌现,如新的业务,由于分工模糊而出现的很多非银行业的竞争者,业务全球化的趋势,由新旧竞争者造成的越来越大的压力,快速发展的信息技术,客户的需求和总体人口组成也在不断变化。全球范围内的金融服务企业间的关系变得更加紧密,促使决策者重新研究金融市场,资源分配,组织结构和业务流程,从而采取更有创意的企业行为和策略,如企业兼并,市场定位,产品和服务推陈出新,保持营销渠道畅通。在银行业内,越来越多的企业正在采用数仓库工具来创造新的商业机会:深入分析客户群的组成、发现特殊需求、设计新的产品、在新业务推出前开展详细的建模和分析。分析客户减少的可能原因,采取预防措施,提高服务质量和整体竞争力。分析重要客户的来源,保证整体效益。预防和制止信用卡诈骗活动。正如IBM一向在计算机业的发展中扮演重要角色一样,IBM早在1988年,就发表了第一篇关于数据仓库的文章,成为这一领域的先驱,从那时起,数据仓库的技术,服务和解决方案就在来断地完善,时至今日,IBM公司的数据仓库系统已经安装了数百个,在各个行业,各种平台上运行。1995年,IBM重新评定了所有数据仓库资源,成立一支核心队伍,专门开发运用于各行业的数据仓库解决方案,范围涉及银行及金融业,电讯业,零售业,保险及卫生业等。这个小组的任务是分析各行业的业务需求,选择最好的软件和硬件产品,为客户提供咨询服务。在数据仓库市场上,IBM始终致力于提供全面解决方案,不但提供技术和咨询服务,还为客户介绍专门的行业经验。我们的数据仓库系统运行在多种平台上,保证一个开放系统供应商的地位,是目前最完整的全方位的集成式数据仓库解决方案。IDC最近在加拿大市场上作了一次数据仓库的调查,发现集成度是大家最关心的问题,除了严格遵循开放标准,IBM还发展了一些有实力的策略联盟伙伴,如Vality、进展技术公司ETI、Cognos以及InformationAdvantage等。通过联合开发和集成调试,达到联盟的主要目标:更高级的集成度。IBM始终致力于确立在以网络为中心的计算技术方面的领导地5位,我们也坚信目前我们站在潮流的尖端,公司内部建立起遍布全球100多个国家,700多个城市的全球性的大型数据网络,在专门的互联网部门,在这一领域的技术成果不断推出,都无可置疑地表明IBM是当之无愧的领导者。今天IBM更是提出了一套完整的解决方案。以下就数据仓库的概念和作用做一些简要的介绍。数据仓库的概念及作用所谓数据仓库,数据仓库之父W.H.Inmon曾对数据仓库作了这样的描述:“数据仓库是九十年代信息技术构架的新焦点,它提供集成化的和历史化的数据;它集成种类不同的应用系统;数据仓库从发展和历史的角度来组织和存储数据,以供信息化和分析化处理之用”。这里要强调的是必须将业务系统和数据仓库分开。两者功能不同,要求迥异。虽然业务系统为数据仓库提供数据。但决不能将数据仓库建立在业务系统之上。一来两者所存的数据不同。业务系统是存储实时数据的地方;数据仓库可能更关心的是整个历史数据。两者的数据传递不是简单的复制,而是一个可能是比较复杂的转换和传递过程。二来,这样做对业务系统的影响太大。不仅会对数据的安全性造成一些不可预测的影响,还会影响业务系统的性能。查询请求会使系统不堪重负,响应速度降低,严重时甚至导致系统的崩溃,使业务系统瘫痪。所以必须将两者分开。数据仓库的作用主要在于通过对大量数据的分析,得出需要的统计结果。还可以找出其潜在的关系,从而作出正确的判断。例如,如果银行要了解它的一个客户的情况,以目前的情况来看,需要查询储蓄库,信用卡库,借贷信息等。这些信息存储在不同的业务系统中,不同的主机上,显然要获得完整的客户资料需要作大量的工作,消耗大量的时间。但是,如果这个银行拥有数据仓库系统,要完成这个工作只需要一个最简单的查询命令,可能只需要几秒钟。因为数据仓库中已经有了所有的数据,而且都已经重新组织。特别是如果你要查的是一些历史数据,那么目前的系统就根本无能为力了。所以,建立一个数据仓库对公司的许多正确决策的作出有着举足轻重的影响。它可以以合理的代价取得有效的决策支持;促进企业中业务处理过程的重组;改善并强化对客户的服务;强化企业的资产和负债管理;促进市场分析;帮助实现企业的规模优化。6数据仓库的特点由于差不多各个业务系统的各种数据都要放进数据仓库,所以,随着时间的增长数据仓库的数据量是特别大的。例如,某单位一天有10G数据,例如移动通讯局的计费系统(如果有几本流水帐,可能还会超过这个数字),那么,仅仅过了两年,数据仓库中的数据量就有:10*365*2=7300G,相当于七个多TB的数据。那么五年后,十年后呢?简直不能想象。由此可见,数据仓库的特点:数据量大且有几乎线性的增长性。数据仓库对计算机系统的要求根据上述特点,我们认为支持数据仓库的计算机系统首先必须得有一台不仅性能卓著,而且可扩展性也很好的主机。谈到可扩展性,许多人会想到对称多处理器系统(SymmetricalMulti-Processing)系统,其实SMP系统的CPU数增加到一定数目后,对系统性能的提高已十分有限,甚至会起反作用。所以,主机的选用,一定要有非常好的线性增长性。这里,我们建议选用目前已经比较成熟的海量并行处理系统(MassiveParallelProcessing),简称为MPP。另外,数据库的选用也是十分关键的。一是要支持超大的数据量。可能在初始阶段,数据量已经到了TB级。二是要有很强的稳定性。数据仓库是为决策支持系统提供准确的数据分析,如果数据库不十分稳定,那么,后果不堪设想。另外,数据库必须有可扩展性,支持多平台,高性能等等。整个网络环境的稳定和高速也应被列入计算机系统设计的考虑范畴。数据仓库系统的体系结构一个完整的数据仓库系统,应当由定义部分、数据获取部分、管理部分、数据分发部分、信息目录、数据库管理系统、数据存取与分析等部分组成。1.定义部分数据仓库系统的定义部分完成数据仓库环境的定义和设置。这里包括相应的定义工具供数据仓库的设计者和管理人员使用。他们使用7这类工具进行:a.设计和定义数据仓库数据库;b.定义数据仓库的数据源;c.指定一组规则用来约束当数据从外部源点进入数据仓库时的系统行为。定义部分的工作结果是一批元数据,这批数据将存放在信息目录中。2.数据获取部分数据获取部分负责从外部数据源析取数据,并在数据仓库内对所析取的数据实施后处理。为了实现数据仓库系统的主要目标----以最终用户最容易理解和使用的方式组织和存储数据,进行后处理是必须的一步。后处理包括对所析取数据的提炼和变换。在定义部分所建立的规则用来约束实施后处理时的系统行为。数据提炼包括以下内容:记录或记录内栏目的重构,删去不需要的运行信息,字段值的解码和翻译,补充缺漏的值以及检查数据的完整性和相容性。变换的内容如上所述。需补充的两点是变换还可以包括对原数据加上时间标记及对导出数据的计算,在完成后处理后,即可将处理的结果加载到相应的数据仓库数据库中,这种加载可通过源数据库的加载工具实现,如果源库是关系数据库,一般可用SQL类的工具实现对日常数据清理和归整,来自外部数据源的数据不会原封不动地进入数据仓库,而是必须进行必要的变换以增强其可用性。最常见的数据变换有获取瞬像数据、实施集运算(求和、求平均量等)、分组、填写缺漏值、预报趋势(填入预测量)、数据结构与格式的转换、提取样本值、编码值与可读值间的转化等等。3.管理部分管理部分由一组系统服务工具构成,这类工具及其所提供的服务可为数据仓库系统中其他部分所利用,还可以用于管理数据仓库中的数据集,数据集是对特定的一个或一级用户有用的一组数据,这组数据是从数据获取部分得到的基本数据导出的。管理部分提供的服务包括数据的维护、数据的分发、数据仓库的例行维护,其中,维护服务完成从基本仓库数据导出特定数据集的任务;分发服务负责将集中的仓库数据分发到多个分设的数据仓库数据库服务器和其他供最终用户使用的决策支持系统上面;例行维护服务包括了对数据仓库的常规安全性服务、归档服务、备份、恢复以及对8基本仓库数据和数据集的监督服务。在当前,例行维护服务多由基本操作系统和数据库系统软件来完成。4.信息目录数据仓库所管理的数据,不仅有供最终用户(企业管理人员、各级决策者)使用的,还包括供数据仓库系统的开发者和维护者使用的数据。后一类信息是用来描述仓库数据库结构的,称之为元数据。元数据的管理是数据仓库成功应用的关键。数据仓库系统中的信息目录,用来反映本系统中元数据的组织情况。通过信息目录,可帮助用户了解在数据仓库中都存放着什么信息以及如何访问和使用这些信息。一般来说,一个完整的信息目录应当由几部分组成,即技术目录、业务目录和信息导航器。数据仓库的设计者和管理者所使用的数据,其描述信息由技术目录保持和管理。这类信息有关于数据源和目标、数据的提炼规则、数据源与仓库数据库之间的变换规则和映射等的描述信息。技术目录中的信息,是在数据仓库设计者在定义数据源和数据目标时,以及向数据仓库拷贝数据而应用某些规则时产生的。如果外部系统拥有库管理工具、DBMS系统目录或者CASE工具,也可以借用相应的工具从外部系统输入这类信息。为了使数据仓库的设计者和管理者能有重构、调整和优化数据仓库的依据,技术目录还将保存和维护与上述目标相对应的信息,这类信息包括:数据仓库中数据的总量、数据仓
本文标题:招商银行数据仓库方案
链接地址:https://www.777doc.com/doc-26731 .html