您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库技术及其发展方向
数据仓库技术及其发展方向议程安排数据仓库基本概念数据仓库演变过程数据仓库体系结构数据仓库实施与管理数据仓库发展方向自由讨论议程安排数据仓库基本概念数据仓库演变过程数据仓库体系结构数据仓库实施与管理数据仓库发展方向自由讨论数据信息&知识数据仓库的产生决策数据仓库数据仓库与数据库的区别数据库系统(生产系统):●面向应用、事务驱动的●实时性高●数据检索量少●只存当前数据●数据模型:以业务流程为参考数据仓库系统(决策系统):●面向主题、分析和决策●实时性要求不是特别高●数据检索量大●存储大量的历史数据和当前数据●数据模型:以业务主题为参考以保险为例核心业务客户渠道产品分保业务收付系统财务系统数据仓库的定义“数据仓库是易于存取的、详细数据的资料存储库。这些资料可来源于不同的数据源,经过转换成为有意义的信息和主题,其目的在于帮助企业建立新的视点、新的查询、新的分析、新的创意、管理决策、以及更有效的企业资源和资产调配。”“数据仓库是在适当的时间将正确的信息传递给适当的人,以作出正确的决策。”数据仓库定义•数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。•对数据仓库的理解数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。数据仓库的特点:面向主题寿险财产险机动车险客户操作型数据库是面向特殊处理任务,各个系统之间各自分离数据仓库是按照一定的主题域进行组织。一个主题通常与多个操作型信息系统相关。操作型数据库数据仓库数据仓库的特点:集成的面向特定应用集成的每一个数据库面向特定的应用,各类应用(包括其相关的数据库)之间相互独立。数据仓库中的数据面向整个企业的分析处理,数据仓库中的数据是已经集成了的,消除了数据的不一致性。操作型数据库数据仓库数据仓库的特点:反映历史变化主要关心当前数据通常包含历史数据操作型数据库数据仓库数据仓库的特点:相对稳定的modifydeleteinsertupdateLoad/Update在某个时间段内保持相对稳定实时更新,数据根据需要及时发生变化定期加载,加载后的数据极少更新。实时更新操作型数据库数据仓库数据仓库数据挖掘工具(DM)联机分析工具(OLAP)数据仓库与决策支持系统(DSS)KPI报表与查询数据仓库与生产系统的应用环境不同DataWarehousingOLTP交易简单当前已知静态业务需求查询时间限制业务问题业务环境分析复杂历史未知动态数据仓库与生产系统的特点不同DataWarehousingisadifferentgameOLTP:•Small#Records•RetrieveviaKey•Predictable•Codedprograms•RecordUpdates•Sub-secondResponseDataWarehousing:•Large#Records•ComplexJoins•Unpredictable•AdhocTools•BatchUpdates•VariousResponsetimesItiscriticaltousetheRightTool!传统企业管理信息系统的使用方式报表传送服务器代理业务服务器中间业务平台银证转帐服务器信贷综合管理系统计财服务器国际收支申报台帐外汇外围服务器OS/390业务主机业务部门四业务部门一业务部门二领导办公室业务部门三其他业务部数据仓库报表传送服务器代理业务服务器中间业务平台电子银行信贷综合管理系统计财服务器其他外围服务器外汇业务服务器OS/390业务主机业务部门业务部门一业务部门二领导办公室业务部门三业务部门其他……理想的管理信息系统使用方式产品数据客户数据销售数据市场数据G/L数据收入数据外部数据行长询问部门老总“我们三月份的存款总额有多少?”“你们可以看到,我们在三月份的存款总额是312亿!”对公市场财务客户服务MIS345亿!311亿!299亿?312亿!312亿!个人BadInformation=NoInformation对公市场客户服务MIS个人财务降低营运成本提高响应能力数据仓库系统(决策分析)企业需要建立两套信息系统联机交易处理系统(流程管理)降低管理成本提高生产力优化产业价值链经营范围再定义持续的竞争优势优化企业价值链业务流程改造优势竞争对外分析型应用对内对称多处理系统(SMP系统)数据仓库系统两套信息系统平台的选择联机交易处理系统海量平行处理系统(MPP系统)线性可扩展硬件平台数据库平台请参考:1、GartnerGroup企业应用服务器评估模型手册2、//www.wintercorp.com数据库扩展性调查平行处理线性可扩展集群容错系统(Clustering系统)利用数据仓库创造价值数据仓库使企业的决策科学化企业如何使用数据仓库商品管理项目管理财产管理质量控制目标市场开拓渠道管理定期客户升级分析风险管理质量保证收入分析销售分析财务管理决策集成的企业级数据仓库环境MarketingUnderwritingFinance/ActuarialOperationsPersonal/RetailLOBCommercialLOBSales企业级数据仓库集成的客户信用/理赔成本/定价利润贡献度CALLCENTER产品产品接触管理信息决策演变过程预定义查询突发查询分析模型报表发生了什麽?分析为什麽会发生?预测将会发生什麽?动态报表DynamicReporting随机分析AdHocAnalysis多维分析Multi-DimensionalAnalysis统计建模StatisticalModeling预测建模PredictiveModeling/DataMining静态报表StaticReporting协同建模SynergisticModeling数据分析方法与过程integratedanalyticalinfrastructure建模(modeling)分析(analyzing)仓储销售财务批发以前多个分离的数据库策略性能报告系统(销售、仓库、利润、批发)27TB现在单一的集成系统Wal*Mart公司●具有3,000多个分店和连锁店●1997年销售额为1,290亿美元●1988年10GB,1989年20GB●1996年7.5TB,1997年24TB●1998年27TB,1999年101TB销售数据、库存数据●复杂的平行查询●性能指标●所有层次的管理●应用规模●Teradata存有196亿条记录,每天要处理并更新2亿条记录,要对来自6000多个用户的48,000条查询语句进行处理●销售数据、库存数据每天夜间从3,000多个商店自动采集过来●Wal*Mart最大的表格为300GB超过50亿条记录,可容纳65个星期3,000多个商店的销售数据,代表了每个商店50,000到80,000种商品●商品分组布局●降低库存成本●了解销售全局●市场分析●趋势分析Wal*Mart公司议程安排数据仓库基本概念数据仓库演变过程数据仓库体系结构数据仓库实施与管理数据仓库发展方向自由讨论直接报表(DirectReporting)操作型数据业务用户IT用户独立数据集市业务用户(独立)数据集市操作型数据IT用户ETL处理操作数据业务用户IT用户数据转换数据仓库数据复制(依赖)数据集市层依赖数据集市数据仓库与数据集市的区别Source:Gartner,KevinStrange数据仓库数据集市范围应用–比较中性和全面集中的、共享的跨部门/面向整个企业多个主题区域特定的应用需求多个数据库,具有冗余数据面向部门或特定用户群部分主题区域数据方面的特性历史详细数据可以有部分小结数据可进行轻度不规则化(Denormalize)处理部分历史详细数据大量小结数据高度不规则化(Denormalize)处理整体特征灵活可扩展策略性的、可长期发展的面向数据的具有特定制,不方便扩展战术性的面向具体项目和特定业务流程典型的数据仓库结构操作数据业务用户IT用户数据转换ODS层企业级数据仓库与管理数据复制数据集市层•数据层次太多•ETL复杂•数据延迟•费用太高ODS系统•ODS-OperationalDataStore•操作数据(OperationalData)的集中存储•主要目的:扩充原有业务处理系统功能(主要针对Mainframe大机系统)面向主题的业务系统数据仓库ETL的数据缓冲等等•对数据的简单集中,依旧没有业务和数据的单一视图财务系统ERP系统MIS系统其它OLTP系统财务系统ERP系统MIS系统其它OLTP系统ODS操作型数据统一的企业级数据仓库:数据复制物理数据集市(OLAPServer/DataMiningServer)IT用户业务用户CUSTOMERCUSTOMERNUMBERCUSTOMERNAMECUSTOMERCITYCUSTOMERPOSTCUSTOMERSTCUSTOMERADDRCUSTOMERPHONECUSTOMERFAXORDERORDERNUMBERORDERDATESTATUSORDERITEMBACKORDEREDQUANTITYITEMITEMNUMBERQUANTITYDESCRIPTIONORDERITEMSHIPPEDQUANTITYSHIPDATE详细的基础数据(按照第三范式存储)逻辑数据集市(小结表或视图)数据转换与缓冲区ETL处理NCR建议的企业级数据仓库拓扑结构MiningNCR所建议的拓扑结构特点好处:•一致的信息视图(Singleversionofthetruth)•业务应用灵活可扩展•最低的整体拥有成本(LowestTCO)最小的数据冗余容易管理对核心平台的要求:•强大的并行处理能力,确保对数据进行复杂分析与处理的性能•线性可扩展能力,以适应日益增加的数据量、并发用户与业务应用•系统容易管理。当数据量增加时,系统管理的复杂性不应增加议程安排数据仓库基本概念数据仓库演变过程数据仓库体系结构数据仓库实施与管理数据仓库发展方向自由讨论企业数据仓库数据集市业务人员IT用户数据转换析取过滤条件剔除家庭关系加载复制和传播工具知识发现数据挖掘信息存取工具(OLAP)源数据汇集管理结果ITUsersBusinessUsersGettingdatainGettingdataoutTheHeartofthedatawarehouse业务系统业务系统源数据外部数据关系数据库管理系统聚集统计人工智能神经网络多维可视化EIS/DSS电子表对象语言开发NCR可扩展数据仓库逻辑体系框架源数据包括:核心业务分保业务客户文档收付费系统财务系统…支持源数据格式包括:•DB2/Oracle/Informix•Sybase/SQLServer•VSAM•OLEDB/ODBC/JDBC…广泛的源数据支持数据仓库组件-源数据ETL流程管理:NCRETLAutomationETL工具:TeraBuilder/FastloadMultiLoad/TPumpETL策略:批量加载实时加载ETL产品(Extraction,Transformation,Loading)数据仓库组件-ETL核心平台之设备:数据仓库服务器数据仓库存储设备数据仓库数据库核心平台之业务基础:保险业逻辑数据模型(LDM)保险业中间库数据仓库核心平台数据仓库组件-核心平台数据仓库数据流及其组织方式AT&TETL服务器•数据清洗/转换/加载•文本文件核心客户分保财务数据源•面向应用•3NF•业务系统•物理数据集市•DataMart•最终用户•保险逻辑数据模型•保留详细交易数据•面向业务主题•3NF建模LDM•面向分析主题•中间表/汇总数据•StarSchema建模数据仓库
本文标题:数据仓库技术及其发展方向
链接地址:https://www.777doc.com/doc-27378 .html