您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 客户关系管理5 数据挖掘与客户关系管理
5.数据挖掘与客户关系管理hongxj@njupt.edu.cn•数据挖掘概述•数据挖掘的任务、技术与实施过程•数据挖掘在CRM中的应用•CRM数据挖掘案例数据挖掘的出现数据挖掘数据库越来越大有价值的知识可怕的数据数据挖掘的出现数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据挖掘的定义•数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。描述性模型:描述数据中的模式,用以创建有意义的群或子群预测性模型:在从已知条件中确定的模式基础上,预测一些现象或数值数据挖掘模型的分类数据挖掘描述预测统计回归关联规则决策树可视化聚类顺序关联汇总神经网络分类数据挖掘的分类数据挖掘应用英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品……使直邮的回应率提高了100%数据挖掘应用GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本……通过数据挖掘的方法使库存成本比原来减少了3.8%汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……营销费用减少了30%数据挖掘应用美国国防财务部需要从每年上百万笔的军火交易中发现可能存在的欺诈现象……发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘应用美国国内税务局需要提高对纳税人的服务水平……合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务数据挖掘应用•电信:流失•银行:聚类(细分),交叉销售•百货公司/超市:购物篮分析(关联规则)•保险:细分,交叉销售,流失(原因分析)•信用卡:欺诈探测,细分•电子商务:网站日志分析•税务部门:偷漏税行为探测•警察机关:犯罪行为分析•医学:医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)(BigBank&CreditCardCompany)目标:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000数据挖掘技术•数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。决策树•决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。决策树•假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。•决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树图决策树应用•决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。决策树算法•常用的算法有CHAID、CART、Quest和C5.0。•决策树的优缺点:•优点:•1)可以生成可以理解的规则。•2)计算量相对来说不是很大。•3)可以处理连续和种类字段。•4)决策树可以清晰的显示哪些字段比较重要•缺点:•1)对连续性的字段比较难预测。•2)对有时间顺序的数据,需要很多预处理的工作。•3)当类别太多时,错误可能就会增加的比较快。•4)一般的算法分类的时候,只是根据一个字段来分类。聚类分析•聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。•它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。•通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。应用聚类分析的例子•市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;•土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;•保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;•城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;•地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的评判•一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:–高的簇内相似性–低的簇间相似性•聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;•聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;人工神经网络•神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。人工神经网络•在使用神经网络进行数据挖掘时有几点需要注意:•神经网络很难解释•神经网络会学习过度•除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成•建立神经网络需要做的数据准备工作量很大输入流失概率(0.87)输出男293000元/月神州行130元/月…………•问题描述:根据客户信息,预测客户流失可能性•结果描述:(神经网络)遗传算法•遗传算法(GeneticAlgorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。遗传算法•GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitnessfunction)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。支持向量机•支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。贝叶斯预测•贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。在数据挖掘中具有以下优点:可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。规则推导•规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。•关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。规则推导可视化技术•用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。•信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。其他技术•近邻算法,将数据集合中每一个记录进行分类的方法。•统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。•模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。数据挖掘功能—预测•数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。数据挖掘功能—关联分析•数据关联是数据库中存在的一类重要的可被发现的知识。•若两个或多个变量的取值之间存在某种规律性,就称为关联。•关联可分为简单关联、时序关联、因果关联。•关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。•关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。•时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能—分类•按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能—聚类•数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。数据挖掘功能—概念描述•概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。数据挖掘功能—偏差检测•数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中
本文标题:客户关系管理5 数据挖掘与客户关系管理
链接地址:https://www.777doc.com/doc-4797267 .html