您好,欢迎访问三七文档
第一章数据仓库概述纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能2一、数据仓库技术产生的背景1决策信息的需求与当前信息状况的不足2操作性系统与分析性系统3新的数据环境的特点3现有的数据库系统的侧重点现有的数据库系统,主要用于事务(Transaction)处理一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性4企业信息化建设现状在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献各类信息系统大多属于面向事务处理的OLTP系统信息系统多年运行,积累了大量的数据数据是一种宝贵的资源,但没有充分发挥作用管理决策层对数据分析基础平台的需求日益强烈5企业信息化建设提出了更高的要求市场竞争日益激烈—创造竞争优势需要及时、准确的做出科学决策科学决策必须以准确、有效的数据为基础充分利用现有数据,将它转化为信息以客户为中心的经营管理模式—优化客户关系原有系统往往以产品为中心原有系统往往以“单据(票证)”的处理为基础转向“以客户为中心”强调服务,尤其是个性化服务个性化数据6现有数据库系统处理“分析型”应用存在的问题数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合7分析处理的需求例1:今年销售量下降的因素时间:销售地区:(销售*顾客)[顾客地址所在的地区,……]商品:(销售*订单细则)[商品类别,……]销售部门:销售*员工*部门[部门名称,……]例2:持卡人今年的交易情况与以往相比,有怎样的变化?交易特点(存款、取款、转帐、消费)是什么?持卡人消费倾向(宾馆、大型商场、超级市场等)是什么?要求:多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图8分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求9分析决策人员的挑战组织内部横向共享信息数据的重构个人授权服务和质量管理组织之间合作伙伴客户驱动的解决方案战略联盟价值链和供应链市场竞争对手市场分割实时的市场行情全球化10数据可信性数据没有同一时间基准例如:一个企业的两个部门向管理者呈送报表部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同部门A使用的是旧帐号部门B使用的是大帐号多次抽取,扩大了上述两个问题用抽取程序从数据库或文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。11数据可信性外部数据问题一位分析员把《华尔街日报》的数据带进系统另一位将《商业周刊》的数据进入系统数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源部门A最初来源于文件XYZ部门B最初来源于数据库ABC12生产率为了生成一个企业报表:获得源数据定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱把数据加工成报告要写许多程序,每个程序必须客户化(与客户环境有关)程序会涉及公司具有的各种技术由于定位数据困难,检索所要的数据是一件很麻烦的事完成任务需要很长时间定位数据+获得数据+集成报告,完成任务所需时间较长每份报告各自需求不同,因此每份报告所需要的时间都很长。13从数据到信息例如:“今年的帐户情况与前五年比较”涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。没有足够的历史数据:贷款部门,拥有二年的数据银行存折处理,拥有一年的数据即期汇票管理只有60天的数据现金交易处理具有18个月的数据。数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Female外部数据和非结构化数据14两种报表的区别例:就一个银行而言出纳员需要操作型报表,因为他需要知道当天所有交易,来确定一天结束时的现金余额;银行行长的长期战略决策(如决定一个地区安装ATM机的数目)就需要了解大量的内部和外部信息,每天的交易报表对他意义不大,他更需要分析型报表152操作型系统vs.信息型系统操作型系统,OLTP下订单处理呼叫装货开发货单收取现金预定座位16►信息型系统给我销售量最好的产品名单告诉我出问题的地区告诉我为什么(向下钻取)让我看看其他的数据(横向钻取)显示最大利润当一个地区的销售低于目标值时,提醒我将数据写入数据库从数据库中读取战略信息操作型系统vs.信息型系统操作型系统信息型系统数据内容当前值存档的,推导出来的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数17操作型环境和分析型环境不同的需求,要求将操作型环境和分析型环境相分离在操作型环境中支持分析应用太复杂、太困难操作性环境不支持域(Domain)之间的联系,仅仅支持表之间的连接不同的数据环境要求从数据组织(结构)和操作上进行工作183数据仓库要解决的基本问题全局范围内统一数据视图数据内容数据的完整性数据的准确性数据的一致性数据组织面向分析决策19数据仓库的功能性定义数据仓库是一种信息环境,它能够:提供对企业综合、完整的概括使决策者所需要的当前数据和历史数据都方便易得无需妨碍操作型系统,也能使支持决策的处理成为可能使企业的信息保持一致性提供了一个灵活的、交互的战略信息来源20数据仓库是信息传递的一种简单概念数据仓库的来源在于对决策信息的需求和对操作型计算环境的不满数据仓库不“创造”新的数据数据仓库概念简单使用所有现存的数据通过清洗、转换提供有用的决策信息21数据仓库是一种环境,而不是产品你不可能买到数据仓库但你可以构建自己的数据仓库数据仓库新型计算环境的特点数据分析和决策支持的理想环境不固定,灵活、交互式操作100%用户驱动适合”提问-回答-再提问”的模式22纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能231数据仓库定义数据仓库的创始者BillInmon:“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”24“面向主题”的数据在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的在数据仓库中数据是按主题而不是按照应用程序存储的。数据是跨应用程序的25订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程序数据仓库主题面向主题的数据组织主题:宏观分析领域所涉及的分析对象面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。采用面向事务进行数据组织,其特点为:充分考虑企业的部门组织结构和业务活动反映企业内部数据流动情况,业务处理的数据流程与业务处理流程中的单据、票证、文档有良好的对应数据与应用(数据的处理)有一定的对应例:保险公司:面向应用(操作):财产险、寿险、健康险、意外险面向主题:客户、保单、保费、理赔(赔款)。26“综合”的数据数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)数据进入数据仓库前,需要进行的标准化工作:命名规则编码27储蓄帐户支票帐户贷款帐户主题=帐户来自应用程序的数据数据仓库主题数据特性度量单位数据的“时间特性”数据仓库中的每一个数据结构都包含了时间要素。数据仓库中的数据是和时间变化相关的数据可以对过去进行分析与当前的信息相关可以对未来进行预测28数据的非易变性(相对稳定)操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新数据仓库中的数据是用来进行查询和分析的不能在数据仓库中实时地删除数据不能在数据仓库中修改数据29决策支持系统操作型系统OLTP数据库数据仓库读取增加修改删除读取2数据仓库和数据集市数据仓库和数据集市(DataMart)是一个混淆不清的概念。是学术界争论的话题BillInmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。在建立数据仓库前,我们需要考虑下列这些问题:采取自上而下还是自下而上的方法企业范围还是部门范围先建立数据仓库还是数据集市数据集市是否相互独立30数据仓库vs.数据集市数据仓库数据集市►完整的,从企业整体考虑的►部门的►所有数据集市的集合►一个单独的商业处理过程►从阶段区域得到的数据►星型结构►通过展示的方式进行查询►适合数据连接和分析技术►基于公司数据视角的结构►基于适合部门数据视角的结构►通过实体-关系模式进行组织31纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能32数据仓库的组成部分(Component)33源数据部分主要类别生产数据:多个系统多种数据的标准化、转换、整合内部数据:表格、文档存档数据:旧的历史的数据外部数据:社会的企业,社会的人34数据准备部分ETL(ETCL)数据抽取(Extract):多源、异构数据的抽取数据转换(Transform):清洗(Clean)、标准化等过程数据装载(Load)35数据存储部分数据仓库的数据存储器是一个独立的部分与操作型的数据库分开存储大多数数据仓库都采用关系数据库管理系统36信息传递部分多种信息传递方式特别的报表复杂的查询多维分析统计分析主管信息系统的需求数据挖掘37元数据MetaData描述数据的数据数据仓库内容的一本字典元数据是数据仓库数据本身信息的数据元数据对于数据仓库极其重要38纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能392007年三大并购案商务智能开始发力,渐入佳景Oracle33亿美金收购HyperionSAP48亿欧元收购BusinessObjectIBM50亿美金收购Cognos2006年IDC商务智能领域10强BO8.94亿美元SAS6.79亿美元微软、Hyperion、Oracle、SAP40厦门大学软件学院41国内BI状况厦门大学软件学院42Gartner2013年:中国BI市场份额11.75亿美元商务智能BusinessIntelligenceBI概念提出:GartnerGroup(1996年)BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。43为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。BI的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。BI是一种解决方案。44BI的关键从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取、
本文标题:01数据仓库概述
链接地址:https://www.777doc.com/doc-25656 .html