您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > SPSS-Modeler-预测电信客户流失案例
Modeler帮助电信运营商预测客户流失案例本文主要通过运用IBMSPSSModeler中C5.0节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果引言目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。本文主要通过运用IBMSPSModeler中C5.0节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。数据准备读入数据源读入电信客户数据,数据有多达42个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。将流失字段churn角色设置为目标。将所有其他字段的角色设置为输入。图1.数据源由于数据包括多达42个字段,我们将先进行数据准备阶段。数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。据估计,实际的数据准备工作通常占50-70%的工程时间和工作量。在前期的业务理解和数据理解阶段投入足够的精力可以将对这一阶段的投入降至最低,但您仍需花费大量的精力在建模前做数据准备工作。利用“特征选择”节点删除无用字段首先通过使用“特征选择”节点,删去不能为预测变量/目标之间的关系添加任何有用信息的预测变量或数据。将数据源节点链接到“特征选择”节点,双击打开“特征选择”节点。图2.设置选择可以看到用户可以选择定义缺失值最大百分比,单个类别中记录的最大百分比,作为记录百分比的最大类别数,最小变异系数,最小标准差,来进行数据选择。这里保持默认设置,运行流。打开生成的模型块如下;图3.模型块,3个字段分别由于单个类别过大,缺失值过多以及变异系数低于阈值而不会被选定作为输入字段。让我们进一步解释一下。单个类别中的记录最大百分比筛选相对于记录总数而言,同个类别中具有过多记录的字段。例如,如果数据库中95%的客户开同一类型的车,则此信息无助于区分客户。任何超过指定最大值的字段都将被筛选掉。我们通过图形看一下retire字段。选择“分布”节点连接到读入数据的数据源节点,选择retire字段,运行流。可以看到retire字段中,确实有95.3%的人都是未退休的人。此信息无助于区分客户。图4.退休情况图字段logwire由于缺失值的最大百分比超过“特征选择”节点中定义的70%而被筛选出。显而易见,具有过多缺失值的字段,几乎不提供任何预测信息。我们先直观的用“表”节点来观察一下这个字段,可以看到字段中确实有许多值是缺失的$null$值。图5.logwire那么到底缺失比率到底是多少呢,我们用“数据审核”节点来看一下具体的统计分析值。将“数据审核”节点连接到读入数据的数据源节点,选择logwire字段,运行流。可以看到logwire的有效数据是296条,相对于总的1000条数据,它的缺失比率为70.4%,高于“特征节点”定义的70%。图6.数据审核情况而logequi字段由于变异系数低于“特征选择”节点中定义的最小变异系数0.1而被筛选掉。此度量值是输入字段标准偏差与输入字段均值之间的比值。如果此值接近0,则变量值的变异性就不高,则信息无助于区分客户。利用“特征选择”节点选择重要字段除了这三个字段,我们还将滤除非重要性的字段。重要性是在建模之前在“特征选择”节点中定义的,我们建模时使用的是它的默认值,这里重新打开“特征选择”节点,到“选项”选项卡。图7.选择重要字段可以看到重要性是基于Pearson分布的,当值小于0.9,模型将认为该字段是不中要的。重新回到之前生成的模型块,可以看到从字段marital开始,重要性是非重要的。我们将滤去这些字段,在模型块菜单中选择生成过滤器,选择“所有排列的字段”/“重要“并单击确定。图8.选择生成过滤将生成的过滤节点连接到数据源节点,打开过滤节点,可以看到许多字段被过滤掉了。实际上通过以上的数据准备阶段,源数据的42个字段已被降低到28个字段,这些字段将用来建立模型,分析客户流失。图9.删除过滤后的源数据利用“过滤”节点处理含有大量缺失数据的字段在最终建模预测客户流失之前,我们还需要对这28个数据进行分析,识别所有含有大量缺失数据的字段。这里我们再次运用“数据审核节”节点。将数据审核节点附加到生成的“过滤”节点后,运行流。图10.数据审核可以看到唯一需要修改的字段是logtoll,其有效值比例小于50%。通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值,这里我们看到,它的均值是3.240。接下来,我们用“填充”节点来实现对空值与无效值的替换。如下图所示,对于字段logtoll的空值和无效值,将用均值3.240替代。图11.替换无效值利用C5.0创建并分析模型创建模型这里我们完成了数据准备阶段,接下来我们就可以真正建立模型了。我们选择C5.0节点创建模型图12.创建模型分析模型利用C5.0所具有的函数定义将属性进行排列,具有最高信息增益的属性选作给集合S的测试属性。创建一个根节点,并以该属性标记,对属性的每个值创建分支,然后递归建树,可构造一个树状结果图。其中每一个节点都是属性中具有最大增益的属性,生成的树状结果图如下可见:图13.生成树状结果图从这张图上,我们可以清楚的看到,对于从根到树叶的每条路径创建一个规则,以现有形式条件分类规则,组成规则集。沿着给定路径上的每个属性,叶子节点包含的类预测,形成后的部分,将规则存入规则库。从图1中可以看出,本地通话费小于等于4.976分钟/月为分类条件,可以将现有客户分成两个集合;然后又根据性别,将其中一个集合再次划分为两个字集合;还可以通过年龄、收入、国际长话费时间等再细分,以此类推。分析数据挖掘结果探寻客户管理策略从图13树状分析结论来对某电信公司主动流失客户的具体情况进行分析,可以看出在本地通话费小于等于4.976分钟/月的人群中客户最容易流失,这是因为这一部分人大多有相对稳定的工作、收入相对较高,基本上每人都有自己的移动通信工具,孩子较大且大多在外读书或者已经上班,家中很少有人在,因使用频率低而销户。本文认为,为挽留这类客户,就应该针对他们工作相对稳定并已经定性、不需要为打拼天下花大量的时间和精力、需要决策而必须了解和掌握大量信息、休闲娱乐的时间相对较多而且固定等特点,采取“固话+宽带”绑定的方法一定会受到他们的欢迎。年轻e族(年龄,小于等于39)收入少、赶新潮、思维活跃、攀比心理较强,因而用以受到新的竞争因素影响而成为易流失的客户,针对这部分人的情况,可以采用各种优惠办法,或赠送时尚彩铃,或发展为各种等级的VIP会员等办法,来增加对年轻人的吸引力。年收入低于38950元的低收入群体也是易流失客户,电信公司可以针对这类低收入客户,采取零月租,接听免费,赠送话费等实用措施,留住低收入客户。相对应的就有年收入高于51669元的客户,可能这类客户很多竞争公司会来拉拢,这类客户会因为需要联系业务或是别的要求,经常需要打电话,所以电信可以投其所好,对这类稍高收入群开办套餐,比如200元包月任意打、且免除漫游费等优惠活动。(等等可根据其他细分情况提出有针对性的挽留优惠活动)另外,对易流失客户群,采取提高服务质量(如进行客户满意度调查、客户投诉分析、客户咨询和查询焦点分析等)、适当的优惠赠送活动等办法来提高竞争力,加强企业与客户之前的感情沟通,从而留住客户。关于模型准确性评估图14.准确率评估结果图图14可以看出,建模和评估模型得出来的结果几乎差不多,而且准确率可以达到90%以上。实验结果表明,使用该算法进行客户流失的分析和预测是可行的和有效的,它可以帮助管理者更好地了解客户的流失受到哪些因素的影响,以便在今后的市场营销中有针对性的对那些客户流失率高的客户做好服务工作,防止客户的流失引发的经营危机,这对于提高公司竞争力、改善客户关系具有重要意义。结论客户资源是电信公司的生命,保留并巩固客户资源对电信公司来说意义重大。C5.0节点是数据挖掘中一个常用的节点,其算法理论清晰、方法简单、适用于处理大规模的数据问题,因此是一种知识获取的有用工具。将C5.0算法应用于客户流失分析,能够帮助电信公司深入了解客户流失的原因,改进客户服务,对提高客户的留存率,具有十分重要的应用价值
本文标题:SPSS-Modeler-预测电信客户流失案例
链接地址:https://www.777doc.com/doc-5183828 .html