您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 商务智能理论与应用4-数据仓库
大数据与数据挖掘-数据仓库一、决策支持系统二、商务智能人们对商务智能的理解如同那七个印度盲人对大象的理解:有人认为它是高级管理人员信息系统(EIS),有人认为它是管理信息系统(MIS),有人认为它是决策支持系统(DSS);有人说它是数据库技术,有人说它是数据仓库,有人说它是数据集市,有人说它是数据整合与清洗工具,有人说它是查询和报告工具,有人说它是在线分析处理工具,有人说它是数据挖掘,有人说它是统计分析;有人把它当做分析性ERP,有人把它当做分析性CRM,有人把它当做分析性SCM,有人把它当做企业绩效管理,有人把它当作平衡记分卡……商业智能技术,它以数据仓库(DataWarehousing)、在线分析处理(OLAP)、数据挖掘(DataMining)3种技术的整合为基础,建立企业数据中心和业务分析模型,以提高企业获取经营分析信息的能力,从而提高企业经营和决策的质量与速度。三、商务智能组成1、关系型数据库2、数据仓库(数据系统整合,收集,清洗)3、多维分析(不同维度之间的剖析,自定义)4、数据挖掘(灵魂,产生价值的地方)5、展示(可视化界面)在线分析处理技术(OLAP:OnlineAnalyticalProcessing)数据挖掘技术(DataMining)数据仓库技术(DataWarehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策三、商务智能体系四、关系型数据库关系型数据库就是由二维表及其之间的联系组成的一个数据组织,关系数据库中的数据结构就是一张二维表,以表格(关系)的形式存放数据。比如:订单数据库包括一个用列表示的描述一个客户信息的表格:名字、住址、电话号码,等等。另外的一个表格会描述一个订单:产品、客户、日期、销售价格,等等。报表:是关系型数据库时代将数据转化为信息的主要手段,但是报表是需要事先由开发人员定制的。比如:2013年5月份的废单报表五、数据仓库我们可以从多个菜市场,挑选我们做需要的蔬菜,肉类等。当然,我们处在一个选择的过程。如果菜不新鲜,我们完全可以不要它.六、多维分析OALP掌握数据仓库先要了解OLAP多维数据分析OLAP是以海量数据为基础的复杂数据分析技术。侧重于对决策人员和高层管理人员的决策支持,可以快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂的形式将结果提供给决策人员。•OLAP的特性:快速性:系统能在数秒内对用户的多数分析要求做出反应可分析性:用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告多维性:提供对数据分析的多维视图和分析信息性:能及时获得信息,并且管理大容量信息•大家知道数据透视表吗?•对于数据的查询,可以有以下两种形式产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006103180关系数据库的汇总查询时除了查询销售量外,有时还查询涉及多个数据项求和,若采取临时进行汇总计算,会使查询效率大大降低。多维数据库的OLAP,多维数据库(MDDB)是以多维方式组织数据,即以维作为坐标系,采用类似于数组形式存储数据。多维数据库中的元素具有形同类型的数值,如销售量。例,多维数据库存储数据如表所示:反映不同产品在不同地区的销售情况江苏上海北京电器服装940830450350340270江苏上海北京汇总电器服装汇总9408301770450350800340270610173014503180多维数据库的汇总在多维数据库中只需要按行或列进行求和,增加汇总的维成员即可。2019/8/116假设以“产品、城市、时间”三维数据为例时间城市产品电视机电冰箱广州上海9596以上关系可简单的抽象成多维数据分析模式比较发现多维数据比关系数据库表达的关系更加清晰明了,而且所消耗的存贮容量更少,查询处理也格外简单,若要查某地区的销售量,只要按列统计一下即可,若要查某个产品的销售量,则只要按行统计即可。多维数据的表示方法星型模式雪花型模式星型模式的关系数据库表示产品ID销售商ID地址ID时间ID销售数量销售成本总收入地理位置维表时间维表产品维表产品ID时间ID销售商ID地址ID销售商维度表雪花模式在关系数据库中的表示地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID产品维表产品ID销售商ID时间ID地址ID图雪花模式的关系数据库表示OLAP中的常用术语切片/切块上卷/下钻穿透赚取旋转维度事实在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作就称为切片。也即:如有(维1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维n,观察变量)在维i上的一个切片。这种切片的数量完全取决于维i上的维成员个数,如果维数越多,可以做的切片也就越多。例:对时间维的切片操作,它对中心数据立方体使用条件:时间=“Q1”选择销售数据。1、切片Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州605825144003951560440地区(城市)时间(季)类型广州上海北京南京计算机安全家庭娱乐电话60582514400类型城市在切片的概念中,有以下两个重要的概念必须掌握:多维数据集的切片数量多少是由所选定的那个维的维成员数量的多少所决定的。进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数数据集的维度,可使人们将注意力集中在较少的维度下进行观察。在一个多维数据集中对两个(及其以上的)维选定维成员的操作可以称为切块。即在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块。显然,当i=k时,切块操作就退化成切片操作。例:涉及三个维的切块。条件为:(地点=“南京”OR“北京”)AND(时间=“Q1”OR“Q2”)AND(类型=“家庭娱乐”OR“计算机”)2、切块Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州608214403950156440地区(城市)时间(季)类型计算机家庭娱乐Q1Q2南京北京605395在对数据仓库的多维数据集进行显示操作过程中,用户常常希望能将多维数据集改变其显示的维方向,也就是说进行多维数据集的旋转操作。旋转操作可将多维数据集中的不同维进行交换显示,以使用户更加直观地观察数据集中不同维之间的关系。例:类型和地区在一个2-D切片上转动。3、旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度56139693季度2397624季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294广州上海北京南京计算机安全家庭娱乐电话60582514400类型城市广州上海北京南京计算机安全家庭娱乐电话类型城市40014825605旋转通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,称为上卷操作。例:在地区维层次向上攀升,在中心数据立方体执行上卷操作。(这个分层被定义为全序:县城市州或省国家)4、上卷Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州605825144003951560440地区(城市)Q1Q2Q3Q4计算机安全家庭娱乐电话江苏省广东省地区(省)上卷从城市到省下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。例:沿着年季月天定义的时间维的概念分层向下,在中心数据立方体执行下钻操作的结果。5、下钻150北京南京上海广州1月2月3月4月5月6月7月8月9月10月11月12月时间(月)地区(城市)150100150计算机安全家庭娱乐电话下钻从季到月•OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。OLAP提供了分析建模机制,包括推导比率、变差等以及跨越多维计算度量的计算引擎。它能在每一粒度级和在所有维的交叉产生汇总、聚集和分层。OLAP也支持预报、趋势分析和统计分析的函数模型。在这种意义下,OLAP是一种强有力的数据分析工具。多维分析-维度维度在数据仓库中主要对用户要读取的指标进行过滤和重新组织。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度层级用来描述维度的各个层级。根据维度细节程度的不同,划分数据在逻辑上的等级关系,例如,时间维度包括年、季度、月、日等层次,地区维度包括国家、省、市等层次。用维表来记录多维数据库中的维度,将多维数据立方体的坐标轴上的各个取值记录在一张维表中,这样对于一个n维数据立方体就存在n张维表。多维分析—维度表事实是各个维度的交点,是对某个特定事件的度量。比如客户打电话,可能选择的度量有通话时长、通话次数和通话费用等;客户购买商品,可能选择的度量有购买的次数、购买商品的金额和购买商品的数量等。六、多维分析—事实事实表用来记录多维数据立方体各个维度的交点的度量值。这样,多维数据立方体各个坐标轴上的刻度以及立方体各个交点的取值都被记录下来,因而多维数据立方体的全部信息就被记录下来。多维数据立方体中所有的度量信息均可记录在同一事实表中,因此事实表的体积要比维表大得多。多维分析—事实表事实表设计事实表中包含2部分:一是由主键和外键所组成的键部分。事实表设计另一部分是用户希望在数据仓库中所了解的数值指标,这些指标是为每个派生出来的键而定义和计算的,称为事实或指标。维度和事实的区别:来自数据源的数值数据字段到底是一个已度量的事实还是一个维度的属性是比较容易混淆的。一般情况下,在每次抽样时,如果数值数据字段的度量都改变,那么它就是事实,如果它是某种东西的离散值描述,并几乎保持为常数,那么它就是维属性。多维分析OALP六、多维分析4546
本文标题:商务智能理论与应用4-数据仓库
链接地址:https://www.777doc.com/doc-26313 .html