您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据库应用与设计-数据仓库与数据挖掘
2014年12月31日星期三1第六讲数据仓库与数据挖掘2014年12月31日星期三DataMining:ConceptsandTechniques2数据仓库•什麽是数据仓库?•多维数据模型•数据仓库的系统结构2014年12月31日星期三DataMining:ConceptsandTechniques3什么是数据仓库?•数据仓库已被多种方式定义但没有一种严格的定义。•一个与组织结构的操作数据库分别维护的决定支持数据库。•为统一的历史数据分析提供坚实的平台,对信息处理提供支持。•“数据仓库是一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决策过程”—W.H.Inmon•建立数据仓库•构造和使用数据仓库的过程2014年12月31日星期三DataMining:ConceptsandTechniques4数据仓库——面向主题的•围绕一些主题如顾客、供应商、产品和销售等而组织。•关注于决策者的数据建模和分析,而不是集中于组织机构的日常操作和事务处理。•数据仓库排除与对于决策无用的数据,提供特定主题的简明视图。2014年12月31日星期三DataMining:ConceptsandTechniques5数据仓库——集成的•通过集成多个异种数据源而构成。•关系数据库、一般文件和联机事务处理记录。•使用数据清理和数据集成技术。•在不同的数据源中,确保命名约定、编码结构、属性度量等的一致性。•例如,旅馆价格:由住宿费、税收、附带的早餐费等等构成。•数据被移到数据仓库时就进行了数据转换。2014年12月31日星期三DataMining:ConceptsandTechniques6数据仓库——时变的•数据仓库的时间范围明显长于操作系统.•操作数据库:当前的有用信息。•数据仓库数据:从历史的角度提供信息(例如:过去的5-10年)•数据仓库的每一个关键结构•隐式或显示的包含时间元素•但操作数据的关键结构可以包含也可以不包含“时间元素”2014年12月31日星期三DataMining:ConceptsandTechniques7数据挖掘——非易失的•数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据•操作性的数据更新不会发生在数据仓库的环境下.•数据仓库不需要事务处理、恢复和并发控制机制•它只需要两种数据访问:•数据的初始装入和数据访问2014年12月31日星期三DataMining:ConceptsandTechniques8数据仓库和异源DBMS•传统的异种数据路的集成:•在异种数据库的顶部建立一个包装程序和集成程序•查询驱动方法•当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站点上的查询,然后,不同站点返回的结果被集成为全局回答•查询驱动方法需要复杂的信息过滤,并且与局部数据源上的处理竞争资源•数据仓库:使用更新驱动的方法,为集成的异种数据库系统带来了高性能•将来自多个异种源的信息预先集成,并存储与数据仓库中,供直接查询和分析2014年12月31日星期三DataMining:ConceptsandTechniques9数据仓库和操作数据库系统•联机事务处理OLTP(on-linetransactionprocessing)•传统的关系DBMS的主要任务•他们涵盖了一个组织的大部分日常操作:购买、库存、制造、银行、工资、注册、记账等。•联机分析处理OLAP(on-lineanalyticalprocessing)•数据仓库系统的主要任务•数据分析和决策•OLTP和OLAP的区别•用户和系统的面向性:OLTP面向顾客,而OLAP面向市场•数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据。•数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型•视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP系统主要关注汇总的统一的数据。•访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询2014年12月31日星期三DataMining:ConceptsandTechniques10OLTPvs.OLAPOLTPOLAP用户办事员、数据库专业人员知识工人功能日常操作决策支持DB设计面向用户面向主题数据当前的、最新的、详细的历史的、汇总的、多维的操作读/写主关键字上的索引/散列大量扫描工作单位短的,简单事务复杂查询#访问记录数量数十个数百万#用户数数千数百DB规模100MB-GB100GB-TB度量事务吞吐量查询吞吐量,响应时间2014年12月31日星期三DataMining:ConceptsandTechniques11为什么需要一个分离的数据仓库?•提高两个系统的性能•数据库管理系统—OLTP的协调:存取方法,索引,同步控制,恢复•数据仓库—OLAP的协调:复杂的OLAP查询,多维视图,合并•不同的功能和不同的数据:•数据维护:决策支持需要历史数据,而操作数据库一般不维护历史数据•数据统一:决策支持需要将来自异种源的数据统一(如聚集和汇总)•数据质量:不同的数据源通常使用不一致的数据表达,代码和形式,这些都需要协调2014年12月31日星期三DataMining:ConceptsandTechniques12数据仓库和数据挖掘的OLAP技术•什么是数据仓库?•多维数据模型•数据仓库的系统结构2014年12月31日星期三DataMining:ConceptsandTechniques13由表和电子数据表到数据立方体•一个数据仓库建立在多维数据模型上,多维数据模型把数据看成数据立方体的形式•一个数据立方体,像sales,允许以多维对数据建模和观察•维表,例如item的维表包含属性(item_name,brand,type),time的维表包含属性(day,week,month,quarter,year)•事实表包含度量(例如dollars_sold)和每个相关维表的关键字•数据仓库语义中,一个n-D底层方体称为基本方体.最高层的0-D方体,存放最高层的汇总,称为顶点方体.所有的方体格组成了数据立方体2014年12月31日星期三DataMining:ConceptsandTechniques14立方体:一个方体格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(顶点)方体1-D方体2-D方体3-D方体4-D(基本)方体2014年12月31日星期三DataMining:ConceptsandTechniques15数据仓库的概念性模型•建立数据仓库模型:维与度量•星型模型:中间是事实表,连接一组维表•雪花模式:雪花模式是星型模式的变种,其中某些维表示规范化的,而数据进一步分解到附加的维表中,它的图形类似于雪花的形状•事实星座表:多个事实表共享维表,这种模式可以看作星型模式及,因此称为星系模式或事实星座2014年12月31日星期三DataMining:ConceptsandTechniques16星型模式的例子time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcityprovince_or_streetcountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表2014年12月31日星期三DataMining:ConceptsandTechniques17雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcity_keylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_keyitem维表branch_keybranch_namebranch_typebranch维表supplier_keysupplier_typesupplier维表city_keycityprovince_or_streetcountrycity维表2014年12月31日星期三DataMining:ConceptsandTechniques18事实星座模式的例子time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcityprovince_or_streetcountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表Shipping事实表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper维表2014年12月31日星期三DataMining:ConceptsandTechniques19数据挖掘查询语言DMQL:语言原语•立方体定义(事实表)definecubecube_name[dimension_list]:measure_list•维定义(维表)definedimensiondimension_nameas(attribute_or_subdimension_list)•特殊情况(共享维表)•首先进行“立方体定义”•definedimensiondimension_nameasdimension_name_first_timeincubecube_name_first_time2014年12月31日星期三DataMining:ConceptsandTechniques20用DMQL定义星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,provi
本文标题:数据库应用与设计-数据仓库与数据挖掘
链接地址:https://www.777doc.com/doc-5859413 .html