您好,欢迎访问三七文档
客户关系管理第十章数据挖掘及其在CRM中的应用客户关系管理第十章数据挖掘及其在CRM中的应用数据仓库技术(DataWarehousing)⒈数据仓库的产生1996年,中国IT界两大热门话题:互联网络数据仓库美国FORTUNE杂志统计2000家商务公司中,90%应用DW计算机应用初期电子数据处理(EDP)执行信息系统(EIS)决策支持系统(DSS)数据仓库探求企业办公室(OA)开发环境财会部(AM)→数据结构→(全局数据)很难一致人事部(PM)系统结构1数据仓库与客户关系管理客户关系管理第十章数据挖掘及其在CRM中的应用•早期的数据库主要支持联机事务处理•决策支持对数据分析的需求•传统数据库系统不适宜DSS①事务处理和分析处理的性能特性不同②数据集成问题③数据动态集成问题④历史数据问题⑤数据的综合问题⑥操作繁简问题客户关系管理第十章数据挖掘及其在CRM中的应用⒉数据仓库概念权威定义,WilliamInmon博士90年代初,给出:数据仓库:通常是一个面向主题的、集成的、随时间变化的、但信息本身是相对稳定的数据集合,用于对管理决策过程的支持。⒊数据仓库特性⑴主题和面向主题主题:用户使用数据仓库进行决策时所关心的重要方面。(如,销售情况、利润情况、客户情况)面向主题:数据仓库中的信息是按主题进行组织的,为按主题进行决策的过程提供支持。例子:一家采用“会员制”经营方式的商场销售管理系统按业务建立了采购管理系统库存管理系统客户关系管理第十章数据挖掘及其在CRM中的应用数据结构:销售管理系统顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)采购管理系统订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)库存管理系统领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)客户关系管理第十章数据挖掘及其在CRM中的应用这种数据组织的特点:①对相关部门的数据进行收集和处理,重点是“数据”和“处理”数据按部门的组织结构和业务活动特点进行;②数据是不断变化和反复更新的,所以,是动态的,要求的是处理的速度和即时性(只反映当时的情况);③数据库中存储的表与部门中的业务报表基本上是对应的,所以,直观,处理方便,易理解;④数据库建立的本质:数据与处理分离(在程序中不分离)因为:很多应用涉及同一数据项,而同一数据项分散在不同的数据库中→造成数据的不一致性。这样的数据处理方式称为“联机事务处理”——OLTP数据库的存储要求冗余小(各种范式)速度快(保留一定的冗余)客户关系管理第十章数据挖掘及其在CRM中的应用按主题组织数据的数据结构:商品商品固有信息(商品号,商品名,类别,颜色,…)商品采购信息(商品号,供应商号,供应价,供应日期,供应量,…)商品销售信息(商品号,顾客号,售价,销售日期,销售量,….)商品库存信息(商品号,库房号,库存量,日期,…)供应商供应商固有信息(供应商号,供应信息,地址,电话,…)供应商品信息(供应商号,商品号,供应价,供应日期,供应量,…)顾客顾客固有信息(顾客号,顾客名,性别,年龄,文化程度,住址,电话,…)顾客购物信息(顾客号,商品号,售价,购买日期,购买量,…)客户关系管理第十章数据挖掘及其在CRM中的应用按主题进行数据组织:①企业关心的业务方向:客户,商品,供应商②对上述分析对象,可围绕主题进行数据组织:采购销售库存商品(一致)信息,便于联机分析处理OLAP⑵数据仓库中的数据是集成的OLTP建表的数据在多个库中抽取OLAP要求数据的一致性→集成的(李强,李强)⑶数据仓库中的数据是不可更新的OLTP中的操作——存入、查询、修改、删除OLAP中的操作——存入、查询(注意:两个存入的不同)⑷数据仓库中的数据是随时间变化的OLTP的存入=修改OLAP的存入=增加(数据保存大约5—10年)客户关系管理第十章数据挖掘及其在CRM中的应用⒋数据仓库中的粒度定义:粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,数据粒度越小,粒度级别越低;反之,数据综合程度越高,数据粒度越大,粒度级别越高。数据粒度是详细程度——存储空间的一个平衡例:回答问题“张三在某时某地是否给李四打过电话?”“张三去年给李四打过几次电话?”早期明细表当前细节轻度综合高度综合客户关系管理第十章数据挖掘及其在CRM中的应用⒌多维数据库在数据仓库的特性中隐含了一条特性:数据是按多维方式组织的DW的数据→随时间变化的→数据有时间属性→表格也有时间性→或者说:时间是数据的一维实际预算地区地区产品产品销售偏差=实际—预算客户关系管理第十章数据挖掘及其在CRM中的应用⑴多维数据库报表——交叉报表1994年1995年变化率销售情况利润率销售情况利润率销售情况利润率服装2346727.238110221.562.4-21.0家庭用品6250833.86600531.15.6-8.0汽车37509822.432540227.2-13.221.4其它20238821.330667721.750.71.9三维商品销售时间客户关系管理第十章数据挖掘及其在CRM中的应用⑵细化与概化处理VolumeofProd(numbersin1000)1996Qtr1Qtr2Qtr3Qtr4WestSanJose78453456Boulder90678791VolumeofProd(numbersin1000)Quarter1JanFebMarWestSanJose302622Boulder283032RollUpDimension:Time客户关系管理第十章数据挖掘及其在CRM中的应用VolumeofProd(numbersin1000)CellPhonePager1001201120012011WestSanJose3312812Boulder45342023VolumeofProd(numbersin1000)CellPhonePager1001101120012011WestTerm120867Term213425Drill–DownDimension:locationMember:SanJose客户关系管理第十章数据挖掘及其在CRM中的应用OLAP的分析方法-钻取按时间维向下钻取按时间维向上钻取60客户关系管理第十章数据挖掘及其在CRM中的应用⒍联机分析处理(OLAP)OLAP——多维数据库60年代,E.F.Codd提出关系数据模型→促进了OLTP的发展(4个阶段)1993年,Codd将这项技术定义为OLAP→支持多维数据处理→OLAP=多维数据处理销售渠道(零售、批发)销售额(万)时间(月)北京多维报表处理——切块,切片,旋转…客户关系管理第十章数据挖掘及其在CRM中的应用⒎数据仓库设计⑴概念模型设计E-R图方法:实体——主题→全局的E-R图⑵逻辑模型设计逻辑模型——关系模型→逻辑模型:描述了数据仓库的主题的逻辑关系主题—维度—指标⑶物理模型设计逻辑模型在数据仓库中的实现主要考虑要素:I/O存取时间、空间利用率、维护代价…客户关系管理第十章数据挖掘及其在CRM中的应用8.数据库到数据仓库•在数据库应用的早期,计算机系统处理的是传统手工业务自动化的问题。联机事务处理(OLTP)成为整个80年代直到90年代初数据库应用的主流。•当联机事务处理系统应用到一定阶段,单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,于是出现了联机分析处理。•数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决的问题就是从数据库中获取信息。客户关系管理第十章数据挖掘及其在CRM中的应用OLTPvsOLAPOLTP细节的综合的或派生的当前的历史的可更新不可更新需求事先可知道需求事先不知道符合系统生命周期完全不同的生命周期对性能要求高对性能要求相对宽松事务驱动数据驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常事务支持管理需求OLAP客户关系管理第十章数据挖掘及其在CRM中的应用•CRM的业务整合需要数据仓库•数据清洁与集中需要数据仓库•数据分析需要数据仓库2CRM中的数据仓库2.1CRM与数据仓库的关系客户关系管理第十章数据挖掘及其在CRM中的应用•客户行为分析•重点客户发现•个性化服务•市场性能评估2.2数据仓库的作用客户关系管理第十章数据挖掘及其在CRM中的应用2.3CRM数据仓库的系统结构客户关系管理第十章数据挖掘及其在CRM中的应用数据挖掘:从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。数据挖掘就是对数据库(数据仓库)中蕴涵的、未知的、非平凡的、有潜在应用价值的模式(规则)的提取。例1:美国加州一超市连锁店:酒和尿布。例2:股票分析时间2000.11999.11998.11997.1例3:地质学家卫星发回数据和图片→探矿(数据挖掘完成)⒈定义3数据挖掘(DataMining)客户关系管理第十章数据挖掘及其在CRM中的应用⒉概念区别数据挖掘(DM)知识发现(KDD)联机分析(OLAP)KDD≥DM(DM侧重算法的研究)OLAP验证性分析工具DM挖掘性分析工具⒊DM技术人工智能(ArtificialIntelligence,AI):以自动机为手段,通过模拟人类宏观外显的思维行为,高效率地解决事实世界问题的科学与技术。DM利用了AI的一些技术,DM的难度<AI的技术难度(数据确定)AI中,如,模式识别步骤很多,很难(如,机器人)客户关系管理第十章数据挖掘及其在CRM中的应用⑴人工神经网络(ArtificialNeural)模拟人脑神经元结构,有三种神经网模型⑵遗传算法(GeneticAlgorithms)模拟生物进化过程的算法,由三个基本算子组成⑶决策树方法(DecisionTrees)利用信息论中的互信息寻找数据库中的具有最大信息量的属性字段→建立结点DM的分析方法分为以下四种:关联算法(Associations)序列模式分析(SequentialPatterns)分类分析(Classifiers)聚类分析(Clastering)客户关系管理第十章数据挖掘及其在CRM中的应用4.关联算法(Associations)确定:隐含在数据之间的关联关系前提:一组Item项,如,A,B,C,D,E,…一个记录集合→怎样算是关联关系?关系:72%包含ItemA,B,C的记录,同时,也包含了ItemD,E(这就是ItemA,B,C,D,E之间的关系)72%——可信度用户要输入2个参数:最小置信度,最小支持度满足最小置信度和最小支持度的模式称为兴趣度测量满足兴趣度测量原语包括:简单性(simplicity);确定性(certainty,比如:可信度);效用(utility,比如:支持度);新颖性(novelty)。客户关系管理第十章数据挖掘及其在CRM中的应用•模式(pattern)–用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。–例如:在超市的商品销售数据库中,我们可以找到以下信息:•男性顾客在购买婴儿尿布时也往往同时购买啤酒•在购买面包和黄油的顾客中,大部分的人同时也买了牛奶•置信度(confidence)–知识在某一数据域上为真的量度。–置信度涉及到许多因素,如数据的完整性、样本数据的大小、领域知识的支持程度等。–没有足够的确定性,模式不能成为知识。–例如:模式‘在购买面包和黄油(X)的顾客中,大部分的人同时也买了牛奶(Y)’的置信度为:4.1相关定义置信度(Confidence)=同时购买商品X和商品Y的交易数购买商品X的交易数客户关系管理第十章数据挖掘及其在CRM中的应用•支持度(Support)–同时购买X和Y的客户人数占总客户数的百分比称的支持度。•兴趣度(interestingness)–在一定数据域上为真的知识被
本文标题:CRM数据仓库
链接地址:https://www.777doc.com/doc-4353306 .html