您好,欢迎访问三七文档
数据仓库介绍•数据库类型简介•商业智能技术•数据仓库与多维模型•设计数据仓库•设计多维模型主题数据库类型(按架构区分)关系型数据库•Oracle•SqlServer•DB2•Mysql•Access•……非关系型数据库•列存储数据库(Hbase…)•文档型数据库(MongoDb…)•键值数据库•图形数据库•……数据库类型间区别数据库类型特性优点缺点关系型数据库SQLite、Oracle、mysql1、采用了关系模型来组织数据的数据库;2、最大特点就是事务的一致性;3、二维表格模型,由二维表及其之间的联系所组成的一个数据组织。1、容易理解:二维表结构;2、使用方便:通用的SQL语言;3、易于维护:丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大减低了数据冗余和数据不一致的概率;4、支持SQL,可用于复杂的查询。1、维护一致性所付出的巨大代价就是其读写性能比较差;2、固定的表结构;3、高并发读写需求;4、海量数据的高效率读写;非关系型数据库MongoDb、redis、HBase1、使用键值对存储数据;2、分布式;3、一般不支持ACID特性;4、严格上不是一种数据库,应该是一种数据结构化存储方法的集合。1、无需经过sql层的解析,读写性能很高;2、基于键值对,数据没有耦合性,容易扩展;3、存储数据的格式:nosql的存储格式是key,value形式、文档形式、图片形式等等,文档形式、图片形式等等。1、不提供sql支持,学习和使用成本较高;2、无事务处理,附加功能bi和报表等支持也不好;非关系型数据库分类Examples举例典型应用场景数据模型优点缺点键值(key-value)TokyoCabinet/Tyrant,Redis,Voldemort,OracleBDB内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。Key指向Value的键值对,通常用hashtable来实现查找速度快数据无结构化,通常只被当作字符串或者二进制数据列存储数据库Cassandra,HBase,Riak分布式的文件系统以列簇式存储,将同一列数据存在一起查找速度快,可扩展性强,更容易进行分布式扩展功能相对局限文档型数据库CouchDB,MongoDbWeb应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)Key-Value对应的键值对,Value为结构化数据数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构查询性能不高,而且缺乏统一的查询语法。图形(Graph)数据库Neo4J,InfoGrid,InfiniteGraph社交网络,推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。比如最短路径寻址,N度关系查找等需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。数据库使用场景事务型处理•即操作型处理,是指对数据库的联机操作处理OLTP;•用来响应日常商务活动;•它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性);•在此环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。分析型处理•用于管理人员的决策分析,例如DSS、EIS(经理信息系统)和多维分析等。它帮助决策者分析数据以察看趋向、判断问题;•经常要访问大量的历史数据,支持复杂的查询;•过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。集成(Integrated)数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等时变(TimeVariant)数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据非易失(Nonvolatile)的数据集合数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。面向主题(SubjectOriented)数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据数据仓库概念(what)•数据仓库(DataWarhouse)是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。DW特点1234数据仓库用途(why)传统数据库(事务性)数据数据仓库(决策支持)数据面向应用:数据服务于某个特定的商务过程或功能(OLTP)。面向主题:数据服务于某个特定的商务主题,例如客户信息等。它是非规范化数据(OLAP)。细节数据,例如包含了每笔交易的数据。对源数据进行摘要,或经过复杂的统计计算。例如一个月中交易收入和支出的总和。结构通常不变结构是动态的,可根据需要增减。易变性(数据可改变)非易变(数据一旦插入就不能改变)。事务驱动分析驱动。一般按记录存取,所以每个特定过程只操作少量数据。一般以记录集存取,所以一个过程能处理大批数据,例如从过去几年数据中发现趋势。反映当前情况。反映历史情况。通常只作为一个整体管理。可以分区管理。系统性能至关重要,因为可能有大量用户同时访问。对性能要求较低,同时访问的用户较少。数据仓库设计(how)商业智能的体系商业智能技术体系(BI——BusinessIntelligence)在线分析处理技术(OLAP:OnlineAnalyticalProcessing)数据挖掘技术(DataMining)数据仓库技术(DataWarehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策更加全面、深入的分析形成知识库指导决策、再分析数据仓库定义•数据仓库的概念数据仓库就是面向主题的、集成的、不同时间的、稳定的数据集合,用以支持经营管理中的决策制定过程。什么是数据仓库??数据仓库的特点•面向主题•集成性—企业数据框架•历史性、稳定性数据仓库与业务数据库的比较什么是联机分析处理(OLAP)?•OLAP的定义OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。OLAP的特征•OLAP的核心——指标、维•OLAP的目标——多维分析•OLAP的特点–灵活、动态–多角度、多层次的视角–快速OLAP的基本功能•商业语义层的定义•上钻和下钻(RolluporDrilldown)•切片和切块(SliceandDice)•旋转(Pivoting)•强大的复杂计算能力•时间智能•丰富的数据展现方式OLAP功能示意按机构钻取济南地区维时间维行业维青岛数据挖掘技术(DataMining)•DM的定义–数据挖掘(DataMining)是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。也就是说,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。•DM的特点–涉及数据库、统计分析、人工智能多种技术–预测和验证功能–特征和规律描述主题•商业智能技术•数据仓库与多维模型•数据仓库设计•多维模型设计数据仓库与多维模型概述•多维模型与数据仓库多维模型通过组织和汇总数据仓库中的数据而为分析查询提供一种多维的表现方式。数据仓库是多维数据集的数据基础,其结构的设计会影响多维数模型的设计和建立的难易程度。主题•商业智能技术•数据仓库与多维模型•数据仓库设计•多维模型设计数据仓库设计原则(一)•模型构架尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量达到最小。•设计方法将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单一维度表中,而且在多个维度表中数据不应重复。•维表设计设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。•事实表设计不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。数据仓库设计原则(二)•数据存储方式在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。•索引在关键字段上创建索引,以提高处理多维数据集的性能。•特殊要求根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。•增量更新必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。数据仓库基本元素(一)•关系型数据库关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支持数据仓库的功能。•数据源数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和合并的不同来源的数据。数据仓库基本元素(二)•事实表事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个事实表。事实表一般不包含描述性信息,具有可以聚合的特点。•维表维度表是存储描述事实表中事实数据特性的表,每个维表都是独立于其它维表的,并且包含了事实特性的层次结构信息。•索引与在任何关系数据库中一样,索引对提高数据仓库性能和处理多维数据集性能的起着重大作用,是数据仓库中不可或缺的部分。数据仓库组织形式(一)•星型模型星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模型中每个维度表均联接到事实数据表上。事实表税务机关维表行业维表经济性质维表时间维表税种维表数据仓库组织形式(二)•雪花型模型雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其它维表上,而非事实数据表上。事实表机构维表行业维表地市维表时间维表省份维表地区维数据仓库设计(一)——事实表•事实表设计每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和一些由这些索引所描述的数据。–索引部分索引部分包含着与描述事实数据特征的维表相关联的外键信息。–数据部分数据部分是事实表中真正要存放的事实数据。数据仓库设计(一)——事实表事实表示例:前五列为索引部分,后三列是事实数据部分列描述time_id时间维表Dim_time的外键swbm_id税务机关维表Dim_swbm的外键jjxz_id经济性质维表Dim_jjxz的外键szsm_id税种维表Dim_szsm的外键hy_id行业维表Dim_hy的外键Yzsj包含本月应征税款的列Djs包含抵缴数的列Jms包含免数/退库数的列…………数据仓库设计(一)——事实表•设计事实表应注意的问题–事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的任何数据。–事实表中的数据应该是经过适当聚合的数据–事实表中数据的粒度应该是一致的–事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。数据仓库设计(二)——维表•维表设计维表设计中由于维度类型的不同,其维表结构也会相应有不同特点。•维度分类–普通维普通维是基于一个维表的维度,由维表中的不同列来表示维度中的不同级别。–雪花维雪花维是基于多个维表的维度,各个维表间以外键关联,分别存储同一维度中不同级别的成员列值。–父子维父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。数据仓库设计(二)——维表•普通维普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。设计普通维度的维表必须充分考虑维度的扩展性。•示例:
本文标题:数据仓库介绍
链接地址:https://www.777doc.com/doc-6491674 .html