您好,欢迎访问三七文档
第6章CRM中的数据管理数据仓库(datawarehouse)与数据挖掘(datamining)6.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。6.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:DB数据DW数据细节的综合或提炼的在存取时准确的代表过去的数据可更新的不更新一次操作数据量小一次操作数据量大面向应用面向分析支持管理支持决策数据仓库特点(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没有完全实现数据与应用的分离。但这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对象,即将数据组织成主题域。面向主题汽车人寿健康意外伤亡操作性环境应用顾客保险单保险费索赔数据仓库主题(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。数据库应用Am,f应用B1,0应用Cx,y应用D男,女数据仓库m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量应用A描述应用B描述应用C描述应用D描述应用Achar(10)应用Bdecfixed(9,2)应用Cpic‘9999999’应用Dchar(12)多重信息源描述char(12)冲突的键码集成(3)数据仓库是稳定/非易失的•操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库(4)数据仓库是反映时间变化的操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽样。随着时间变化,数据仓库需要不断增加新数据、删去旧数据。数据库数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照键码结构包括时间元素(5)DW中数据量大。大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。(6)是信息的概括和聚集。操作性数据仓库JJones女1945年7月20日。。。。。JJones去年有两张罚单一次大事故。。。。。JJonesMain大街123号已婚。。。。。JJones两个孩子高血压。。。。。人寿保险汽车保险房产保险健康保险JJones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。。。。。。顾客6.1.2数据仓库中的数据组织1数据的粒度2数据仓库的数据组织结构3数据的分割4数据仓库的数据组织形式5数据仓库的数据组织模式6数据的追加1粒度粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。粒度——细节的级别粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。多重粒度粒度的一个例子高细化低细化每月200个记录每月40,000个字节每月一个记录每月200个字节通过检索可以回答无细节无法回答询问某一电话的细节近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。2数据仓库的数据组织结构2数据仓库的数据组织结构元数据高度综合级轻度综合级(数据集市)销售细节级2000-2001操作型转换早期细节级每月销售1994-2001每周销售1994-2001当前细节级销售细节级1994-19993分割分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分片——数据分割后的独立单元。数据的分割提高了数据管理的灵活性重构、索引、重组、恢复、监控分割的标准:日期、地域、业务领域。分割的一个例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保险生命保险健康保险4数据仓库的数据组织形式简单堆积数据轮转综合数据简化直接数据连续数据简单堆积文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………轮转综合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月………………简化直接文件数据库快照姓名顾客号地址张平C960100北京王珂C960101上海刘辉C960102天津李强C960103成都...一月份顾客表操作性数据生成简化直接文件连续文件姓名顾客号地址张平C020100北京王珂C020101上海张顺C020102天津李强C020103成都姓名顾客号地址张平C020100北京王珂C020101上海张顺C020101广州李强C020103成都刘诚C020105杭州姓名顾客号日期地址张平C0201001-2月北京王珂C0201011-2月上海张顺C0201031月天津张顺C0201032月广州李强C0201031-2月成都刘诚C0201052月杭州1月份顾客表2月份顾客表1-2月份顾客表
本文标题:客户关系管理第6章
链接地址:https://www.777doc.com/doc-4662 .html