您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 《客户关系管理》第6章:CRM与数据挖掘
第6章CRM与数据挖掘第6章CRM与数据挖掘6.1数据挖掘概述6.1.1数据挖掘的产生6.1.2数据挖掘的定义6.1.3数据挖掘的技术6.1.4数据挖掘的功能6.1.5数据挖掘的流程6.1.6数据挖掘的发展方向6.2CRM中数据挖掘应用6.2.1从客户生命周期角度数据挖掘技术的应用6.2.2从行业角度分析数据挖掘技术的应用6.3CRM数据挖掘应用实例数据挖掘概述6.1.1数据挖掘的产生6.1.2数据挖掘的定义6.1.3数据挖掘的技术6.1.4数据挖掘的功能6.1.5数据挖掘的流程6.1.6数据挖掘的发展方向6.1.1数据挖掘的产生•数据爆炸但知识贫乏•支持数据挖掘技术的基础数据挖掘数据库越来越大有价值的知识可怕的数据数据爆炸但知识贫乏数据挖掘的出现数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据爆炸但知识贫乏更大,更便宜的存储器--磁盘密度以Moore’slaw增长--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术数据挖掘处理技术--数理统计--人工智能--机器学习支持数据挖掘技术的基础数据挖掘的演化•机器学习•数据库中的知识发现•数据挖掘6.1.2数据挖掘的定义•SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。•Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。•Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义•技术角度的含义•商业角度的含义•与传统方法的区别数据挖掘的技术上的定义•数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。•这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘的商业角度的定义•按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘与传统分析方法的区别•数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.•先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系6.1.3数据挖掘技术•数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。决策树•决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。决策树•假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。•决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树建立•决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。•然后根据记录字段的不同取值建立树的分支,如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。•还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。决策树图决策树应用•决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。聚类分析•聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。•它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。•通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。聚类分析应用•市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;•土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;•保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;•城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;•地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的评判•一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:–高的簇内相似性–低的簇间相似性•聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;•聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;人工神经网络•神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。遗传算法•遗传算法(GeneticAlgorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。遗传算法•GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitnessfunction)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。支持向量机•支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。贝叶斯预测•贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。在数据挖掘中具有以下优点:可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。规则推导•规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。•关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。规则推导可视化技术•用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。•信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。其他技术•近邻算法,将数据集合中每一个记录进行分类的方法。•统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。•模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。6.1.4数据挖掘的功能•自动预测趋势和行为•关联分析•对象分类•聚类分析•概念描述•偏差检测数据挖掘功能—预测•数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。数据挖掘功能—关联分析•数据关联是数据库中存在的一类重要的可被发现的知识。•若两个或多个变量的取值之间存在某种规律性,就称为关联。•关联可分为简单关联、时序关联、因果关联。•关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。•关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。•时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能—分类•按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能—聚类•数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。数据挖掘功能—概念描述•概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生
本文标题:《客户关系管理》第6章:CRM与数据挖掘
链接地址:https://www.777doc.com/doc-7036071 .html