您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 01商务智能数据仓库原理
商务智能数据仓库原理洪志令大纲1、数据仓库的兴起2、什么是数据仓库3、两种不同的数据处理需求4、OLTP与OLAP的对比5、数据仓库架构6、数据仓库的OLAP7、数据仓库的设计8、数据仓库的开发过程9、数据仓库的运行结构10、数据仓库的决策支持11、航空公司数据仓库应用实例12、沃尔玛数据仓库应用实例21、数据仓库的兴起•从数据库到数据仓库a.“数据太多,信息不足”的现状b.异构环境的数据的转换和共享c.利用数据进行数据处理转换为利用数据支持决策•数据库用于事务处理•数据仓库用于决策分析•数据库与数据仓库对比3数据库数据仓库细节的综合或提炼的在存取时准确的代表过去的数据可更新的不更新或很少更新一次操作数据量小一次操作数据量大面向应用面向分析支持管理支持决策2、什么是数据仓库•不同的定义方式–Adecisionsupportdatabasethatismaintainedseparatelyfromtheorganization’soperationaldatabase–Supportinformationprocessingbyprovidingasolidplatformofconsolidated,historicaldataforanalysis.•数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。4数据仓库的特点5(1)数据仓库是面向主题的–按某个主题对象进行组织,如客户,产品,销售–主要是建立数据模型进行分析,并用于辅助决策支持,而并非用于日常的事务处理汽车人寿健康意外伤亡操作性环境应用顾客保险单保险费索赔数据仓库主题(2)数据仓库是集成的–数据进入数据仓库之前,必须经过加工与集成;–对不同的数据来源进行统一数据结构和编码。6数据库应用Am,f应用B1,0应用Cx,y应用D男,女数据仓库m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。7插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库(4)数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。8数据库数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照键码结构包括时间元素3、两种不同的数据处理需求计算机系统中存在着两类不同的数据处理需求,即:•操作型处理(OnLineTransactionProcessing,OLTP):a.操作型处理,为企业的特定应用服务b.是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改c.人们关心的是响应时间、数据的安全性和完整性•分析型处理(OnLineAnalyticalProcessing,OLAP):a.分析型处理,用于管理人员的决策分析b.经常需要访问大量的历史数据c.数据仓库+联机分析处理+数据挖掘d.(DW+OLAP+DM)→DSS94、OLTP与OLAP的对比10OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动5、数据仓库架构11数据仓库提取清理转换装入刷新OLAP服务器查询报告分析数据挖掘监控整合元数据存储数据源前端工具输出数据集市操作数据库其他外部信息源数据仓库服务器OLAP服务器5.1数据仓库的数据12元数据高度综合数据轻度综合数据当前基本数据历史数据层5.2数据仓库的元数据•元数据(metadata)定义为关于数据的数据(dataaboutdata),即元数据描述了数据仓库的数据和环境。•数据字典是描述数据库中各类数据的集合,包括:√数据项√数据结构√数据流√数据存储√处理过程•数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:–关于数据源的元数据–关于抽取和转换的元数据–关于最终用户的元数据13•例如,雇员与技能之间的关系元数据描述14EmployeeE_NoE_SE_NoS_CodeSkillS_Code1213关关I/O对对I/OObjectIDEmployeeE_SSkill关关关关R_IDIO_ID12121313EmployeeE_SE_SSKillR_ID1213R_IDIO_IDField_ID12121313EmployeeE_SE_SSkillE_NoE_NoS_CodeS_Code关关关关关5.3数据集市•数据集市:具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用。•独立的数据集市(IndependentDataMart)数据直接来源于数据源。•从属的数据集市(DependeantDataMart)数据来源于中央的数据仓库。15•人力资源数据集市•财务数据集市•销售数据集市•市场数据集市等两种数据集市16数据源数据源分析工具分析工具独立数据集市分析工具中央数据仓库数据源数据源从属数据集市分析工具分析工具数据仓库开发的一种推荐方法17定义高层的整合数据模型数据集市分布式数据集市多层节点数据仓库企业数据仓库模型提炼模型提炼数据集市5.4数据仓库数据整理工具•数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。(1)数据抽取(确认数据源,当前值/周期性状态)(2)数据清洗(3)数据转换(选择、分离/合并、转化、汇总、重分配)(4)数据加载(覆盖、追加、合并)(5)数据更新(周期、范围)•数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。185.4数据仓库的数据分析工具•查询工具不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:可视化工具(以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性)。•多维分析工具(OLAP工具)通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定观察视角,如时间、地域、业务等。•数据挖掘工具从大量数据中挖掘具有规律性知识,需要数据挖掘(DataMining)工具.196、数据仓库的OLAP•数据仓库设计基于多维的数据模型,允许以立体的方式从不同的角度看数据。•几个基本概念:对象(Object)、维(Dimension)、层(Layer)、维成员、多维数组、数据单元(单元格)、数据立方体(DataCube)…•数据仓库模型:维和衡量对象–星型模式:一个中央的事实表关联一些相关维表–雪花模式:一个中央的事实表关联一些相关维表,维表下面还进一步细分维表–银河模式:多个事实表共享相同的维表20星型模型21time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式22time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity银河模式23time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper维表的概念层次(以地区位置为例)24allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity数据仓库与维的分层视图257、数据仓库的设计26针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护7.1概念模型设计z确定系统边界–要做的决策类型有哪些?–决策者感兴趣的是什么问题?–这些问题需要什么样的信息?–要得到这些信息需要包含哪些数据源?z确定主要的主题及其内容–明确数据仓库的分析对象–确定主题属性信息及其取值情况–确定主题的公共码键–确定主题间的关系zOLAP设计用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。2728主题名公共码键属性信息商品商品号固有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等29供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期商品固有信息商品库存信息商品、顾客和供应商之间的E-R图7.2逻辑模型设计z将E-R图转换成关系数据库的二维表在逻辑模型的设计过程中,需要考虑以下一些问题:9适当的粒度划分一般将数据划分为:详细数据、轻度总结、高度总结三种粒度9合理的数据分割策略把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储。通常采用‘时间’属性作为数据分割的依据z定义数据源和数据抽取规则定义数据仓库中数据的来源,以及数据的抽取规则3031•商品固有信息:–商品表(商品号,商品名,类型,颜色,…)/*细节数据*/•商品采购信息:–采购表1(商品号,供应商号,供应日期,供应价,…)/*细节数据*/–采购表2(商品号,时间段1,采购总量,…)/*综合数据*/–……–采购表n(商品号,时间段n,采购总量,…)•商品销售信息:–销售表1(商品号
本文标题:01商务智能数据仓库原理
链接地址:https://www.777doc.com/doc-25649 .html