您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 最新2019-数据仓库简介-PPT课件
数据仓库技术谭义红:15873193369;QQ:2647724yhtan09@1632课程介绍性质是信科专业的主要专业课程、是决策支持系统方向的重要课程目的理解数据仓库及OLAP的相关概念了解数据仓库及OLAP的发展趋势和应用领域掌握数据仓库的设计、构建,数据的准备、转换、装载,数据的浏览、分析等方法和技术。相关课程数据库、数据挖掘、决策支持系统设计与开发3为什么学本课程(Why)信息技术在商业中发展管理信息系统(MIS)企业资源计划系统(ERP)、客户关系管理(CRM)商业智能系统(BI)发展过程中存在的问题数据可信性生产率问题无法将数据转化为信息4为什么学本课程(Why)BI定义(IBM):商业智能是一系列由系统和技术支持的以简化信息收集和分析的策略集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终战略性决策的智能、客户服务和供应链管理。包括:数据仓库(DW)、联机分析(OLAP)、数据挖掘(DM)工具:IBM、Oracle、Microsoft、SAS、CA等5为什么学本课程(Why)市场需求(岗位)数据仓库工程师•岗位要求1、岗位要求2、岗位要求3数据仓库开发工程师•岗位要求1数据仓库BI架构师•岗位要求数据仓库高级开发工程师•岗位要求数据仓库测试工程师•岗位要求数据仓库咨询师•岗位要求6本课程的主要内容(What)数据仓库与OLAP的相关理论知识数据仓库设计数据准备、转换、装载(SSIS)多维数据集操作及分析(SSAS)多维数据分析报表(SSRS)7如何学好本课程(How)重视相关概念和原理的理解从全局把握上把握数据仓库创建、管理及OLAP分析技术框架从微观角度掌握具体技术细节主动、认真做好实验及课程设计8教材:《数据仓库设计:现代原理与方法》(美)MatteoGolfareli著91)(美)JOYMUNDY.数据仓库工具箱--面向SQLSERVER2019和MICROSOFT商业智能工具集.北京:清华大学出版社,20192)于宗民,刘义宁,祁国辉.数据仓库项目管理实践.北京:人民邮电出版社2019•朱德利.SQLServer2019数据挖掘与商业智能完全解决方案.北京:电子工业出版社,2019.•technet.microsoft/zh-cn/default.aspx3)msdn.microsoft/zh-cn/sqlserver/default.aspx4)dwway/html/news.html参考教材:10第1章数据仓库与OLAP概述1.1决策支持系统1.2数据仓库1.3数据仓库的体系结构1.4数据准备与ETL1.5多维模型1.6元数据1.7访问数据仓库1.8多维数据的存储方式1.9小结111.1决策支持系统决策支持系统DSS(decisionsupportsystem)是可扩展交互式IT技术和工具的集合,这些技术和工具用于处理和分析数据以及辅助管理人员制定决策。为此,这种系统匹配管理人员的个人资源和计算机资源,以提高决策质量。121.2数据仓库数据仓库的引入商品名称生产厂家销售时间销售地销售员销售量空调美的2009.3.12北京0012空调格力2009.5.3长沙0023空调美的2009.5.10北京0012空调格力2009.6.3长沙0023空调美的2009.7.10北京0012空调格力2009.8.3长沙0023空调美的2009.10.10北京0012空调格力2009.11.3长沙0023电视机TCL2009.10.3长沙0033了解格力空调在长沙的月销售情况了解各品牌空调在各城市的月销售情况了解各销售员的月销售情况131.2数据仓库数据仓库的引入141.2数据仓库数据仓库的引入151.2数据仓库数据仓库的概念和特点概念:•数据仓库(DataWarehouse,DW)是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。特点:•面向主题–主题是在较高层次上将企业信息系统中的数据综合、归类和分析利用的抽象概念。每个主题对应一个分析领域。–典型主题:客户、产品、销售、利润、保险等–每个主题域都是以一组相关的表来具体实现,通过公共关键字建立联系161.2数据仓库171.2数据仓库18各子系统建立数据库情况子系统数据库名称数据字段销售子系统顾客顾客号,姓名,性别,年龄,文化程度,地址,电话销售员工号,顾客号,商品号,数量,单价,日期采购子系统订单订单号,供应商号,总金额,日期订单细则订单号,商品号,类别,单价,数量供应商供应商号,供应商名,地址,电话库存管理子系统领料单领料单号,领料人,商品号,数量,日期进料单进料单号,订单号,进料人,收料人,日期库存商品号,库房号,库存量,日期库房库房号,仓库管理员,地点,库存商品描述人事管理子系统员工员工号,姓名,性别,年龄,文化程度,部门号部门部门号,部门名称,部门主管,电话1.2数据仓库19面向主题的数据组织主题信息类数据字段商品商品固有信息商品号,商品名,类别,颜色商品采购信息商品号,供应商号,供应价,供应日期,供应量商品销售信息商品号,顾客号,售价,销售日期,销售量商品库存信息商品号,库房号,库存量,日期供应商供应商固有信息供应商号,供应商名,地址,电话供应商品信息供应商号,商品号,供应价,供应日期,供应量顾客顾客固有信息顾客号,顾客名,性别,年龄,文化程度,住址,电话顾客购物信息顾客号,商品号,售价,购买日期,购买量1.2数据仓库201.2数据仓库数据仓库的概念和特点(续)特点•数据的集成性–数据仓库中存储的数据是从原来分散在各个子系统中的数据提取出来的,经过处理后得到的。211.2数据仓库•数据的集成性221.2数据仓库数据仓库的概念和特点(续)特点•数据不可修改性–数据仓库中的数据是不可更新的,只能通过分析工具进行查询、分析。231.2数据仓库数据仓库的概念和特点(续)特点•数据与时间相关–数据随时间变化而定期地被更新241.2数据仓库数据仓库与传统数据库的比较传统数据库(事务性)数据数据仓库(决策支持)数据面向应用:数据服务于某个特定的商务过程或功能(OLTP)。面向主题:数据服务于某个特定的商务主题,例如客户信息等。它是非规范化数据(OLAP)。细节数据,例如包含了每笔交易的数据。对源数据进行摘要,或经过复杂的统计计算。例如一个月中交易收入和支出的总和。结构通常不变结构是动态的,可根据需要增减。易变性(数据可改变)非易变(数据一旦插入就不能改变)。事务驱动分析驱动。一般按记录存取,所以每个特定过程只操作少量数据。一般以记录集存取,所以一个过程能处理大批数据,例如从过去几年数据中发现趋势。反映当前情况。反映历史情况。通常只作为一个整体管理。可以分区管理。系统性能至关重要,因为可能有大量用户同时访问。对性能要求较低,同时访问的用户较少。1.2数据仓库数据仓库带来的好处提供决策支持。应用于证券、银行、保险、移动通讯、商品销售、其它等行业。25261.3数据仓库体系结构数据仓库系统的特点分离性可扩展性安全性可管理性体系结构分类面向结构的类型•单层体系结构,两层体系结构,三层体系结构面向应用层次的类型•独立数据集市,星型结构,联盟体系结构271.3数据仓库体系结构面向结构的类型单层体系结构报表工具操作型数据OLAP工具数据源层数据仓库分析281.3数据仓库的体系结构数据仓库体系结构示意图两层体系结构291.3数据仓库体系结构数据流数据源层•关系数据库、或其它系统数据库数据准备•提取、转换、加载(ETL)数据仓库层•数据仓库、数据集市分析•报表、信息分析、OLAP、数据挖掘301.3数据仓库体系结构层次数据(企业信息源)311.3数据仓库体系结构层次数据(企业信息源)321.3数据仓库体系结构数据集市(DataMarts)定义•为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也称部门数据或主题数据。•如:财务部门的数据集市与数据仓库的关系•数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。331.3数据仓库体系结构数据集市(DataMarts)(续)特性•规模小•特定的应用•面向部门•由业务部门定义,设计和开发•由业务部门管理和维护•快速实现•购买较便宜•投资快速回收•更详细的、预先存在的数据仓库的摘要子集•可升级到完整的数据仓库341.3数据仓库体系结构数据集市(DataMarts)(续)351.4数据准备和ETL数据集成(抽取、转换、装载--ETL)361.4数据准备和ETL数据集成(抽取、转换、装载--ETL)371.5多维模型多维模型概念•是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。特性•多维,也称作立方体(或超立方体)•提供一种便于使用的查询数据的机制。381.5多维模型391.5多维模型度量值(Measure)度量值是一组值,是客户发生事件或动作的事实记录。如:•客户打电话,记录次数和费用等;•超市客户销售,记录销售数量、金额等等。度量值所在的表称为事实数据表,常规多维数据集的结构中只能有一个事实数据表。401.5多维模型维度(Dimension)维度(也简称为维)是人们观察数据的角度。例如,时间维,地区维等。包含维度信息的表是维度表,维度表包含描述事实数据表中的事实记录的特性。描述维度的字段称为维度属性411.5多维模型维度成员(DimensionMember)维的一个取值称为该维的一个维度成员(简称维成员)。例如,考虑时间维具有日、月、年这3个级别,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。421.5多维模型维度的层次结构定义•层次结构是维度中成员的集合以及这些成员之间的相对位置。•如,地址维:洲、国家、城市、区、街道、门牌号类型•均衡层次结构–层次结构的所有分支都降至同一级别,每个成员的逻辑父代就是其上级成员。•不均衡层次结构–层次结构的所有分支都降至不同级别,每个成员的逻辑父代就是其上级成员。如CEO/部门经理(/员工)、执行秘书•不规则层次结构431.5多维模型维的级别(DimensionLevel)人们观察数据的某个特定角度(即某个维)还可以存在不同的细节程度,我们称这些维度的不同的细节程度为维的级别。一个维往往具有多个级别.例如描述时间维时(“月、季度、年”为层次结构),则月、季度、年为3个级别,可从不同级别来描述。441.5多维模型451.5多维模型限制限制数据:从立方体分离部分数据来选出分析字段。在关系代数中称为选择、投影切片、切块操作聚合将多个子多维数据集合并成更大的多维数据集。461.6元数据元数据定义•描述数据仓库内数据的结构和建立方法的数据,即:定义数据的数据。作用•对DW中的每个数据进行说明,以及数据间关系,为决策支持分析提供便利,也为操作型数据向分析型数据间转换提供支持。471.7访问数据仓库报表OLAP数据挖掘481.7访问数据仓库OLAP(OnlineAnalyticalProcessing,OLAP)1993年,E.F.Codd提出OLAP定义OLAP称联机分析处理,也称在线分析处理。是一种数据动态分析模型,以多维数据集的多维结构表示由来自商业数据源(如数据仓库),并经过聚合和组织整理的数据。使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP通过创建多维数据集,并对其进行切片、切块、钻取和旋转等数据操作,并进一步支持决策支持系统。491.7访问数据仓库特点快速
本文标题:最新2019-数据仓库简介-PPT课件
链接地址:https://www.777doc.com/doc-1826638 .html