您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 客户流失分析(数据挖掘-第1讲)
客户流失分析(数据挖掘-案例分析1)上海****通信技术有限公司MrJim(seniordba@sina.com)2014-02培训大纲一、统计知识二、案例背景三、商业理解四、数据理解与数据准备五、建立模型与模型评估六、模型应用七、总结CRISP-DMCRISP-DM(即跨行业数据挖掘标准流程”的缩写),是一种业界认可的用于指导数据挖掘工作的方法。指标变量获取从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好数据挖掘结果的目的.这时需要对数据进行各种变换或者生成相关的衍生变量。下面介绍一些数据的常用变换形式和衍生变量生成的常用方法。1、单变量的变换为了建立模型的便利,经常要对现有的变量进行某种形式的变化。这里总结出以下几个类型的单变量变换方法。指标变量获取连续变量向连续变量的转化。连续变量的变换通常有这样几种情况:①使数据便于计算和比较进行的变化,例如由单位是分变为单位是元、入网时间(时间型号变量)向在网时长的转化②为了修正数据的分布对数据进行适当的变化,例如对数变换、倒数变换等③使不同量纲和数量级的数据具有可比性的变化,即标准化变化。标准化变换通常有两种形式:一种是(原值-平均值)/标准差,另一种是(原值-最小值)/(最大值-最小值),这种变换后取值范围在0~1之间。指标变量获取连续变量向离散变量的转化。一个变量取值是大是小,往往只是相对而言,分析中经常需要把一个连续取值变换为离散的分级变量以使业务上更好理解。连续变量向离散变量的转化可以完全基于业务来考虑,比如对客户的年龄分群,有些企业就是把18~40岁算作他们的青年客户。如果从统计学角度考虑,连续型变量向离散型变量转换主要是进行分箱变换,可以分为三种:①、按照等距离进行分箱②、按照等数量进行分箱③、按照分布进行分箱。例如把数据分为3段,小于平均数-3个标准差为第一段;大于平均数-3个标准差且小于平均数+3个标准差为第二段;大于平均数+3个标准差为第三段。指标变量获取离散变量向连续变量的转化。对于有些分级类型的离散变量,可以将它理解为对连续变量做处理和建立模型。例如:对于二分的标志变量,也可以将它们转化为连续变量,即将标量的一个取值记为1,另一个取值记为0。这样,如果将1理解为1.0,将0理解为0.0。则这个标志变量可以理解为是分布在0.0~1.0之间的一个连续变量,只不过这个连续变量比较特殊,在观察到数据中只有0.0和1.0两个取值。离散变量向离散变量的转化。当离散变量的类别数特别多时,可以对它们适当的归并,例如将个数特别少的类别统一归为其它就是典型的一种。另外,一个多分的离散变量也可以变为多个二分的标志变量,比如有一个离散变量是X,它有a,b,c三个取值,那么完全可以把它变为Xa,Xb,Xc三个变量,每个变量有1和0两个取值,而当X取值为a时,对应的情况是Xa取值为1,而Xb,Xc的取值都为0。指标变量获取2、衍生变量为了更清晰的说明衍生变量的生成,我们把数据分为两类:一类是横截面数据(指某一时点上收集到的数据),另一类是时间序列数据,一条记录代表一个时间点或者时间段上的取值,通常会有一个表示时间的变量。对横截面数据的衍生变量来说有以下一些常用的生成衍生变量的方法:①、强度相对指标:有一个联系的两个指标之间相比的结果得到的指标。例如平均通话时长=总通话时长/总通话次数②、比例相对指标:用来反映总体中各组成部分所占比例的一个指标。指标变量获取2、衍生变量对时间序列数据有以下一些常用的生成衍生变量的方法:①、滞后类指标:对于时间序列数据,各条记录之间联系更加紧密,我们通常会取上一条记录(例如代表上月取值)及上年同期(例如去年同月),与当前记录相比得到环比增长率(例如本月值/上月值)和同比增长率(例如本月值/上年同期值);为了消除波动,有时我们还对多个时间段数值进行求和、平均等操作。例如股市中常用的股价5日平均值,这类指标可以被归结为滞后类指标。②、汇总类指标:汇总类指标:求和,平均值,最小值,最大值,标准差,记录数等。指标变量获取3、趋势类指标对时间序列变量来说,一个重要的方面是看趋势。例如在这个案例中,我们特别关注每个客户的通话时长等指标的趋势,是变多,变少,还是随机性的波动?我们有理由猜测,如果一个客户的通话时长趋势是变少,那么这个客户流失的可能性会更大。但是如何衡量趋势呢?最朴素的想法是用最后一个月的取值除以第一个月的取值看增长率,但是这样会丢失很多中间月份的数据信息。我们还可以使用下面的方法来查看趋势。即建立变量与时间的回归模型(例如在这个案例中,自变量为月份,因变量为通话时长),将自变量的回归系数作为趋势(也可以使用标化回归系数作为趋势),这个值大于0,则趋势是变多;这个值小于0,则趋势是变少。趋势的计算公式如下(以x作为月份,y代表通话时长,n代表月份数量),则:22)(xxnyxxyn趋势值指标变量获取4、波动类指标对时间序列变量来说,趋势只反映了大致方向,但是这个方向的过程是一帆风顺,还是惊淘骇浪呢?可以使用波动指标来进行度量。简单地,可以使用标准差或变异系数来衡量波动,也可以使用如下公式计算波动:平均值最小值最大值波动值培训大纲一、指标变量获取二、案例背景三、商业理解四、数据理解与数据准备五、建立模型与模型评估六、模型应用七、总结案例背景现在假设你是电信企业的一个数据分析经理,发现最近电信市场又在血拼,竞争对手不断挖公司的墙角,公司的高端客户这个月又流失了不少。公司打算组织一个市场营销活动来遏止这种趋势,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。看看数据仓库里积累了那么多数据,能不能挖挖这些数据,①、看看哪些客户可能会流失?②、这些客户都有些啥特征?③、做这样的市场活动大概会有啥投资汇报?培训大纲一、指标变量获取二、案例背景三、商业理解四、数据理解与数据准备五、建立模型与模型评估六、模型应用七、总结•通信业是一个竞争异常激烈的行业,如何对客户进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题。这里将介绍数据挖掘在移动通信业关于客户流失研究中的应用。•数据挖掘技术将提供功能强大的模型,可以回答诸如“哪些客户最可能流失?”和“为什么这些客户会流失?”等问题。商业理解流失与哪些因素相关顾客年龄?性别?收入?行业?话费水平?话务质量?确定数据挖掘目标①对客户进行分群,寻找高流失的客户群②建立规则,描述那些可能流失的客户特征③建立打分模型,对客户流失可能性进行评价商业理解商业理解我们可以把流失问题归结为如下3个问题:①、预测哪些客户(尤其是哪些高价值的客户)可能会流失②、可能流失客户的特征是什么③、市场挽留活动的预计收益是多少商业理解如何定义流失经过与业务人员的充分沟通,最终定义:①、销号②、欠费超过3个月(后付费客户)③、3个月无通话行为(预付费客户)变量值记为1,否则为不流失,变量记为0。商业理解哪些变量可用于预测流失①、客户基本信息数据:包括客户的年龄,性别,入网时间等②、客户行为数据:主要是客户使用电信产品和服务情况的数据。比如客户的通话详单记录,客户订阅,使用,退订增殖服务情况等,这部分数据容易获得,存放在业务系统中,一般数据质量较好。③、客户交互数据:包括客户投诉、业务咨询以及客户对电信的市场营销活动等响应情况等数据,尤其是客户拨打客服电话的的情况。④、客户态度数据:包括客户对电信服务的满意程度、意见和建议、客户流失的真正原因(是被竞争对手挖角,搬家,对产品或服务不满意,还是特别喜欢特定手机终端)等。这部分数据需要通过市场调查获得,但获得成本过高,往往不在我们考虑的范围之内。希望全面使用以上4个类别的客户数据,但实际项目中有些数据或者由于获取成本太高,或者由于数据库系统中没有记录,导致分析时无法使用。最终可能发现,真正能用于作为数据挖掘的预测自变量只剩下客户基本信息和客户行为数据两类,甚至这两个类别中包含的变量也只有在数据理解阶段完成数据质量审核后才能决定是否可用。商业理解定义分析用数据的时间窗口如何定义预测的输入变量(自变量)和预测变量(因变量)的时间窗口。对自变量窗口来说,进行流失分析的目的显然是希望在客户流失之前发现他,而在业务系统中,客户行为是连续发生的,那么在分析时应该取多长时间的数据呢?取的时间过短,可能客户的行为受随机因素影响太大,不具有代表性;取的时间过长,历史太久远的数据不能反映客户最新的趋势。综合考虑数据的可获取性和有效性以后的结果,我们这里取6个月的历史数据。对因变量(是否流失)的数据窗口来说,为了使得到的预测结果既具有前瞻性,又能给营销部门充分的营销时间,我们考虑流失定义的时间窗口与自变量的定义窗口间隔一个月(通常需要3~7天的数据处理时间),再考虑到如前述流失定义需要3个月的观察期(欠费与无通话行为情形),具体预测自变量和目标变量(因变量)的时间窗口如下图所示:第1月第2月第3月第4月第5月第6月第7月第8月第9月第10月预测自变量时间窗口预测目标变量时间窗口间隔商业理解如何从分析结果中获取实际收益得到了流失预测结果,如何使用?如何事先预估市场挽留活动的收益?通过数据挖掘得到流失分析的结果往往有两类:一类是流失客户的特征描述另一类是针对每一个客户的流失评分。流失客户的特征描述可用来帮助市场部业务人员在制订挽留性营销策略时参考,从而制订出有针对性的挽留策略;而流失评分结合其它变量(例如客户价值)可以帮助业务人员决定应该对哪些客户进行挽留。经过与市场业务人员的讨论,我们得知针对特定客户的挽留措施往往是给他们一定折扣或者优惠政策,这样就大体上得到了预估市场挽留活动预期收益的数据公式:预期收益=流失客户预期收入-流失客户挽留预期成本其中,流失客户预期收入可以用流失客户过去若干个月的总花费或者平均花费来表示,流失客户挽留预期成本包括:电信公司进行时常挽留活动的总体策划、宣传成本;针对客户的集体折扣或优惠成本。培训大纲一、指标变量获取二、案例背景三、商业理解四、数据理解与数据准备五、建立模型与模型评估六、模型应用七、总结套餐数据字段名称指标解释套餐类型固定费用每月需支付固定费用免费时长每月提供免费(国内)时长高峰时费率高峰时期每分钟话费(超过免费时长部分)低谷时费率低谷时期每分钟话费(超过免费时长部分)周末时费率周末时期每分钟话费(超过免费时长部分)国际费率国际长途电话每分钟话费语音信箱语信信箱收费(未用)短信服务短信服务收费(未用)数据理解数据理解与数据准备在数据理解与数据准备阶段,我们将对数据做初步探索性分析,了解数据质量状况,考察数据的大致分布情况,此外还要将各方面的数据进行合并,整理成可以进行数据挖掘的宽表形式(即行代表记录,列代表变量的二维表),并进一步根据业务上的考虑,生成一些有业务含义的衍生变量。在实际的数据挖掘项目中,我们会发现,数据理解和数据准备的时间经常会占到整个项目周期的60%~70%,甚至更多。数据理解:接口1客户基本信息表(custinfo.csv)变量名称变量标签变量类型变量取值(范围)Customer_ID客户编号离散Gender性别离散男,女Age年龄连续12~82L_O_S在网时长连续9.53~58.2Tariff话费方案离散CAT50,CAT100,CAT200,Play100,Play300Handset手机品牌离散ASAD170,ASAD90,BS110,BS210,CAS30,CAS60,S50,S80,SOP10,SOP20,WC95数据理解:接口2客户通话情况表(custcall.csv)变量名称变量标签变量类型变量取值(范围)Customer_ID客户编号离散Peak_calls高峰时期电话数连续0~486Peak_mins高峰时期电话时长连续0.0~2527.8OffPeak_calls低谷时间电话数连续0~154OffPeak_mins低谷时期电话时长连续0.0`745.5Weekend_cals周末时期电话数连续0~33Weekend_mins周末时期电话时长连续0.0~162.6
本文标题:客户流失分析(数据挖掘-第1讲)
链接地址:https://www.777doc.com/doc-1532735 .html