您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库_6_多维建模
2015/6/31第六章多维建模(DimensionalModeling)DataWarehouse2015/6/326.1维度建模初步维度建模中的基本概念事实表:存储主要实事维度表:存放维成员的取值事实与维度的融合星型模型:维度表作为事实表的卫星雪花模型:将星形模型中的维度表改造成星形模型数据立方体DataWarehouse2015/6/336.1维度建模初步事实表是维度建模的核心和基本表每一事实表都有着一个或若干个业务‘度量值’度量值是事实表的核心,也是趋势分析中的观察对象通过事实表来记录维度值与度量值之间的关系事实表中的一行对应一个或若干个度量值事实表中的所有度量值必须具有相同的粒度维度值的取值情况确定了事实表中的度量值的粒度定义事实表的粒度类型:事务(细节),周期快照,累积快照DataWarehouse2015/6/346.1维度建模初步事实表-度量值最常用的度量值:数值类型可做加法运算(非常重要)可沿着某些维度做加法运算(半加性质)不能做加法运算(非加性质)计数统计计算平均值取样统计很少采用文本形式的度量值文本信息通常都放在维度表中,除非它对于事实表中的每一行都是唯一的度量值通常是一个可以连续取值的量DataWarehouse2015/6/356.1维度建模初步事实表-关键字每个事实表都有两个或两个以上的外关键字(ForeignKey)通过外关键字建立事实表与维表之间的联系,从而可以通过维度表的值来存取事实表中的度量值日销售情况事实表日期关键字(FK)产品关键字(FK)商场关键字(FK)销售量销售额可以由外关键字的组合构成事实表的主关键字(PrimaryKey)DataWarehouse2015/6/366.1维度建模初步维度表维度表是事实表的查询入口,为用户提供了使用数据仓库的接口。维度表中的维度属性通常用于定义事实表上的查询条件,也可作为定义报表和统计查询的列。维度表的定义原则尽可能多的列尽可能少的行(相对于事实表)DataWarehouse2015/6/376.1维度建模初步‘产品’维度表的属性组成产品关键字(PK)产品描述SKU编号商标描述分类描述部门描述包装类型描述包装尺寸含脂量描述食物类型描述重量重量单位储藏类型货架类型货架宽度货架高度货架深度……接左表DataWarehouse2015/6/386.1维度建模初步维度表-维度属性通常是文本数据,或者是离散数据尽量减少使用编码属性维度属性与度量值的区别度量值:含有多种取值并可以参与统计运算的属性维度属性:离散的或取值不多的的属性;取值不变或很少产生变化的属性;从不参与统计计算但经常用作查询条件的属性DataWarehouse2015/6/396.1维度建模初步产品关键字(PK)产品描述SKU编号商标描述分类描述部门描述包装类型描述包装尺寸含脂量描述食物类型描述重量重量单位储藏类型货架类型货架宽度货架高度货架深度……‘产品’维度表日销售情况事实表日期关键字(FK)产品关键字(FK)商场关键字(FK)销售量销售额DataWarehouse2015/6/3106.1维度建模初步事实与维度的融合将一张事实表及其相关的若干张维表结合在一起可以构成一个星型结构产品关键字(PK)产品属性……产品维度商场关键字(PK)商场属性……商场维度日期关键字(PK)日期属性……日期维度日期关键字(FK)产品关键字(FK)商场关键字(FK)事实……日销售情况事实表DataWarehouse2015/6/311维度建模案例之一零售营销6.2维度建模案例分析DataWarehouse2015/6/3126.2.1案例之一:零售营销维度建模的设计过程1.选取要建模的业务处理过程分析需要2.定义业务处理的粒度事实表中每一行的度量值的取值粒度3.选择事实表中的维度确定维度表中的属性4.选择事实表中的度量值分析对象每一张事实表中可以有多个度量值DataWarehouse2015/6/3136.2.1案例之一:零售营销需求分析来源:数据的入口前台的POS机后台的货物入库目的:管理决策需要定价促销DataWarehouse2015/6/3146.2.1案例之一:零售营销选取业务处理考虑:在什么促销条件下,在什么样的日子里,在什么商店,正在销售什么样的商品?定义粒度POS事务的单个商品条目最初粒度的选择与可以执行的分析操作有关DataWarehouse2015/6/3156.2.1案例之一:零售营销选定维度:日期,产品,商场,促销DataWarehouse2015/6/3166.2.1案例之一:零售营销确定事实:销售量,销售额,成本额,毛利润金额DataWarehouse2015/6/3176.2.1案例之一:零售营销确定事实(cont.)通过计算而获得的度量值也应该物理存储在事实表中,如毛利润金额=销售额–成本额;不具有可加性的计算结果则应该由数据存取工具在访问过程中进行计算,如销售量、销售额和成本额等。DataWarehouse2015/6/318维度设计日期维度是每个数据仓库必须具备的维度日期维度表可以事先建立可以存放5到10年的日期维度值日期维度中的属性日期关键字(PK)日期完全描述星期纪元日编号纪元周编号纪元月编号日历日期编号日历周编号日历月编号财政月日编号周末指示符月末指示符日历周结束日期年度日历周数日历月名年度日历月数日历年月(YYYY-MM)DataWarehouse2015/6/319维度设计退化维度维度表为空,具体的维度值直接存放在事实表中。例如:事务编号订单编号发票编号提货单编号……DataWarehouse2015/6/320模型的演化模型的演化新的维度属性新的维度在事实表中填加新的外关键字新的度量值填加新的度量值属性事实表的粒度考虑DataWarehouse2015/6/321模型的演化维度变得具有更多的粒度性可能需要重建新的维度表和事实表全新数据源的加入,会同时牵涉现存的维度和不能预见的新维度创建新的事实表和维度表DataWarehouse2015/6/3226.2.1案例之一:零售营销维度表中关键字的设计代理关键字(Surrogatekey)指维度表中使用顺序分配的整数值作为主键避免直接使用操作型数据作为维度表和事实表的主关键字和外关键字可以缓冲操作型数据的变化对数据仓库数据的影响也可以从零售营销事实表中抽取形成新的事实表,以实现新的分析应用DataWarehouse2015/6/323维度建模案例之二库存管理6.2维度建模案例分析DataWarehouse2015/6/3246.2.2案例之二:库存管理内容库存管理维度模型零售营销领域的库存处理事务的维度模型可广泛应用于各个行业的库存管理领域DataWarehouse2015/6/3256.2.2案例之二:库存管理主要概念商品值链三种事实表模型周期快照,事务,累积快照半加型事实增强型库存事实数据仓库总线结构与矩阵一致性维度与事实DataWarehouse2015/6/3266.2.2.1商品值链值链:值链确定了企业主体活动的自然逻辑流程DataWarehouse2015/6/3276.2.2.1商品值链值链确定了企业主体活动的自然逻辑流程其中的每一步业务处理都将产生大量的周期性事务记录(来自企业自身的业务处理系统)DataWarehouse2015/6/3286.2.2.1商品值链决策支持系统(DSS)的首要目标是监控关键处理过程的性能结果其分析的依据是来自于每一步业务处理过程的事实表从每一步业务处理过程的业务数据库中可以衍生出一个或多个事实表DataWarehouse2015/6/3296.2.2.2库存模型三种互补的库存模型1.周期库存快照定期生成每种商品的库存水平(数量)对于每一件商品,在事实表中都有若干行,以反映该商品在不同时期的库存水平2.库存事务记录影响库存水平的主要因素,如:商品的进/出仓库事务等每个事务(分列项)对应事实表中的一行3.库存累积快照每一件商品在事实表中都有一行,用于记录该商品的分发历史,直至其离开仓库为止DataWarehouse2015/6/330库存模型-周期库存快照目标确保合适的商场在合适的时间中存在合适的商品可最大限度地减少脱销现象,并减少存货维护的总体开销:零售商场的库存:每个商场每天每种商品的库存:最初的维度选择(日期,商场,商品):库存数量四步维度建模业务处理过程粒度维度事实(度量值)DataWarehouse2015/6/331库存模型-周期库存快照‘商场’维也可以被替换为‘货栈’维也会有新的维度表和维度属性加进来产品关键字产品属性…产品维度商场关键字商场属性…商场维度日期关键字日期属性…日期维度日期关键字产品关键字商场关键字现有数量事实表商场周期库存快照模型DataWarehouse2015/6/332库存模型-周期库存快照1商品的‘库存’事实表与‘销售’事实表的区别销售事实表是稀疏的在销售事实表中记录每天实际发生的商品销售情况库存事实表则是稠密的而库存事实表则需要记录每天、每种商品、在每个商场的库存情况(不管是否发生了实际的销售事实)即使某个产品在某个时期是零库存,也要在事实表中生成相应的度量值为0的行DataWarehouse2015/6/333库存模型-周期库存快照在稠密的周期库存快照事实表中,在每一天都需要加入每一种商品在每一个商场的库存情况,这将导致事实表的数据量过于庞大解决办法随着时间的推移可降低周期快照的频度,例如:最近60天内的以天为粒度单位的周期快照最近3年内的以周为粒度单位的周期快照DataWarehouse2015/6/334库存模型-周期库存快照2半加型事实(SemiadditiveFacts)只在部分维度上具有可加性的度量值被称为‘半加型事实’在商品营销中,绝大部分的度量值在所有的维度范围内都具有极好的可加性。在库存快照模型中,‘库存量’可以跨‘产品’或‘商场’进行汇总(具有可加性),但不具有跨‘日期’的可加性。DataWarehouse2015/6/335库存模型-周期库存快照几种常见的半加型事实库存数量,帐户余额,温度,水位,含量,…这些用于记录静态水平的度量值在跨日期维度以及可能的其它维度范围内都是不可加的。可用的跨时间维度的聚集方法:平均统计例如:银行帐户余额的统计DataWarehouse2015/6/336库存模型-周期库存快照3改进的库存事实仅有‘库存量’是不够的,需要结合其它的事实以测算出库存活动的周转率等一些令人感兴趣的其它分析指标改进型周期库存快照事实表事实表日期关键字产品关键字商场关键字库存数量销售量成本核算值最新售价核算值DataWarehouse2015/6/337库存模型-周期库存快照扩充的事实表库存数量(持有量,现有量)销售量成本核算值最新售价核算值处于同一张事实表中的上述度量值需要具有统一的统计粒度在三个维度之间都是可加的DataWarehouse2015/6/338库存模型-周期库存快照在扩充的事实表上可以提供更多的分析操作周转次数日周转次数:年周转次数:日供给次数当日销售量当日持有量年销售总量年平均持有量平均持有量平均销售量DataWarehouse2015/6/339库存模型-周期库存快照库存毛利润GMROI总销售量×(最新售价核算值–成本核算值)日平均持有量×最新售价核算值DataWarehouse2015/6/340库存模型-库存事务常见的库存事务类型产品入柜产品销售审批产品出柜运输前的产品包装产品接收产品送检对检验合格的产品进行分发将检验不合格的产品退给厂商向顾客发货从顾客那里回收产品对回收产品进行封存从库存中删除产品DataWa
本文标题:数据仓库_6_多维建模
链接地址:https://www.777doc.com/doc-26838 .html