您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 基于数据挖掘的通信业客户挽留系统研究
42基于数据挖掘的通信业客户挽留系统研究[董佩佩]简单的客户流失预测并不能减少客户的流失,要降低客户流失率,关键在于对流失客户的挽留。到目前为止,通信行业对客户流失预警的研究大多集中在提高客户流失预测的准确率上;而对如何针对不同离网用户制定合适的挽留策略这方面的研究还是比较的少。基于数据挖掘技术,建立了一个针对通信行业的客户挽留系统。该挽留系统由两个模型组成:客户流失预测模型和挽留策略制定模型。文章着重分析了离网客户的离网特征和离网原因,并依据客户离网率和客户价值,将离网客户分为4类,并参考客户分割矩阵,提出离网客户挽留建议。期望对通信行业的客户挽留问题有实用价值。关键词:董佩佩女,山东省即墨市人,硕士生,主要研究方向:网络技术与网络管理、数据分析与数据挖掘。摘要数据挖掘客户分割矩阵客户挽留客户流失预测挽留策略制定背景介绍随着中国加入WTO,通信行业的竞争愈演愈烈。客户的争夺已经成为服务提供商们的主要竞争目标。而有数据表明,开发一个新客户的费用是维持一个老客户成本的4~5倍[1]。因此,客户保持已经成为运营商客户争夺战的首战场。有事实表明,通信行业每年平均有25%~30%的客户流失[2]。另外有研究表明,一个公司如果将其顾客流失率降低5%,利润就能增加25%~85%[3]。由此可见,大量的客户流失已经让运营商蒙受巨大损失。如何减少客户流失,提高客户的挽留率,已经是运营商的当务之急。1研究意义对于客户流失的研究,大多集中在客户流失预测上。但是,简单的客户流失预测并不能减少客户的流失,经营与管理经营与管理2007.11.广东通信技术43要降低客户的流失率,关键在于对流失客户的挽留。目前,针对不同流失客户,制定合适的挽留策略这方面的研究还是比较的少,并没有成熟的体系出现。电信运营商要减少客户流失,提高客户的挽留率,首先需要预测哪些客户会流失;其次,针对不同客户的流失特征,制定客户挽留策略,阻止客户流失。这就需要研究客户的行为,找出流失客户与公司策略之间的联系。只有这样,运营商才可以最优的配制其各种资源,尽可能多的阻止客户流失。换句话讲,如果运营商知道哪些客户最有可能流失和他们流失的原因,就可以及时、有效的针对不同的流失客户,制定特色的客户挽留策略,从而防止客户流失。本文建立的客户挽留系统的特色就在于使客户挽留策略的制定系统化且有依可循。本文试图运用数据挖掘技术挖掘出一份流失客户的名单,归纳客户的流失特征,预测客户的流失概率,计算流失客户的价值,并结合无线通信行业的客户分割矩阵[4]划分流失客户群,以针对不同客户群,制定客户挽留策略。使制定客户挽留策略的工作更加规范,有规律可循。2通信行业客户挽留系统的建立基础2.1系统架构该客户挽留系统有两个模型组成,客户流失预测模型和挽留策略制定模型。图1显示了该客户挽留系统的架构图。第一个模型首先使用数据挖掘技术预测客户流失的可能性和流失条件;第二个模型是本文的重点,着重分析客户的流失特征,根据客户流失可能性和客户价值,制定相应的挽留策略。图1客户挽留系统架构2.2数据挖掘的概述数据挖掘是一个利用统计学和机器学习技术在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。简单地说,就是从大量数据中提取或“挖掘”知识。目前比较流行的数据挖掘方法论主要有以NCR、SPSS等提出的跨行业标准数据挖掘过程CRISP-DM,IBM公司提出的通用数据挖掘方法,以及SAS公司提出的SEMMA方法论等。其中CRISP-DM是业内影响最大、使用最为广泛的数据挖掘方法论。CRISP-DM将数据挖掘过程分为6部分,分别为商业理解、数据理解、数据准备、建立模型、模型评估和模型应用。目前,世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产品,而且功能和使用简易性也在日益提高。例如:SAS公司的EnterpriseMiner以及IBM公司的IntelligentMiner,SPSS公司的Clementine等等。目前,采用商业数据挖掘工具在项目工程实施中已普遍采用。本文采用SPSSClementine实现数据挖掘过程。SPSSClementine是业界最佳数据挖掘工具之一,它是一个开放式、可视化的数据挖掘工具,不但提供—系列完整的数据挖掘技术及功能,还支持数据挖掘的行业标准CRISP-DM。2.2.1C5.0分类算法介绍C5.0检测规则模型是在ID3算法的基础上扩展出来的一种决策树算法[5]。决策树是一个类似于流程图的树结构,由决策节点、分支和叶子构成。其中,每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树。建模的基本思想是:选取一个最能区分不同类别样本的属性,让其作为树根,并把训练样本集分为相应的几块,接下来再依次在每一块样本集中选出区分度最大的属性,作为树的第二层结点。依此类推,直到所有的叶结点都只包含一类样本时终止。2.2.2K-means聚类算法介绍K-means算法是把数据集拆分成预先给定数目的类,这个数目就是K,均值就是平均树[5]。为了组成不同的基于数据挖掘的通信业客户挽留系统研究经营与管理经营与管理44类别,每个记录都映射到“记录(样本)空间”的一个点,记录有几个字段,这个空间就是几维,每个字段的值相当于该点到对应坐标轴的距离。所有字段都要转化为数值型,才能用在这种几何运算上。为了便于不同维度量统一,便于比较,数据最好能够预先进行标准化处理。每条记录都是通过迭代过程进行归类。迭代开始时,每个类别都是处于记录空间的随机中心位置,然后通过计算各个类的质心,不断改变各个类别的中心位置,直到每个类的质心就是处于该类的中心位置。3通信行业客户挽留系统的研究本文选定某电信企业小灵通客户3个月的6000条数据,首先运用Clementine对数据进行抽取和规范化等处理,然后在Clementine平台上运用C5.0分类算法,预测有流失倾向的客户和其流失特征,运用K-means聚类算法归纳不同客户群的流失特征,最后针对不同客户的流失特征,流失率和客户价值,并制定挽留策略。3.1数据预处理数据预处理是对生产系统的数据进行数据清理、数据集成、数据变换,它是数据挖掘过程中花费时间最长的过程,并且需对行业领域知识有较深的理解。数据预处理可使用成熟的ETL工具,如Powermart,也可使用开发工具定制开发预处理程序,本文采用Clementine直接对数据进行抽取、转换、装载。形成的客户属性表通常都会包含以下信息:用户基本属性信息,包括人口统计学数据:年龄、性别等;以及其他数据:在网时长、付款方式、套餐等;通话行为数据:包括通话次数:市话次数、长话次数等;通话计费:市话费用、长话费用等;账单数据:月租费、功能费用等。通过处理后,这6000条记录共产生了50个字段。3.2客户流失预测模型的建立3.2.1建模数据本文选取样本数据的2/3作为训练集,约4500条数据,用来建立预测模型;剩下的1/3约1500条数据作为检验集,用来检验预测模型的预测效果。通过关联度分析之后,本文选取了14个与客户流失有密切关系的字段作为预测模型的输入字段。它们分别是年龄(Age),3个月的平均月收入(Average_invoice),在网时间(On_networl_hours),平均ARPU值(ARPU),本地通话时间(Local_call_hours),拨打本地移动电话费(Local_mobile_call_fee),拨打异地移动电话时间(Non_local_mobile_hours),PHS短信费(PHS_message_fee),本地白天通话时间(Local_day_call_hours),本地夜晚通话时间(Local_night_call_hours),短信次数(Message_times),国内通话费(National_call_fee),国际通话费(International_call-fee),本地通话费(Local_call_fee),用户状态(User_positon)。用户状态是用户流失预测模型中的目标字段,它是由1和0两个值组成,1代表用户现在是离网状态,0代表用户现在在网。剩下的14个字段作为预测字段,通过归纳分析它们的特征来预测用户是否离网。3.2.2预测客户的流失在Clementine上运行C5.0分类技术,得出了客户流失决策树,见图2。决策树中每一条路径代表一条规则,每条规则对应了一个树叶,树叶后面给出了该规则客户流失的数量和流失的概率。该决策树得出了客户离网的6条规则。图2C5.0建模结果经营与管理经营与管理经营与管理2007.11.广东通信技术453.2.3客户流失预测模型评估模型评估是对建立的客户离网预测模型进行评价并改进。对于离网模型的评估有多种指标,这里主要采用正确率指标,借助Clementine中的Analysis节点来对上述离网模型进行评估。用正确率指标评价预测的正确性,公式是:预测正确率=正确预测个数/测试样本数×100%。将在数据抽样阶段分离出的检验数据集输入该客户流失预测模型中,借助Analysis节点,分析该模型的准确率。图5显示了该C5.0模型的检验结果。由图3可知,该模型的正确率高达99.31%,具有很高的预测准确性。因此这里无需对该模型进行进一步的优化。图3客户流失模型分析结果3.3挽留策略制定模型挽留策略制定模型根据流失客户的不同特征,来制定适当的挽留策略,这是本文的重点。它由两部分组成。首先分析客户流失预测模型中得出的对客户流失有重要影响的属性,运用K-means聚类技术产生不同的聚类;其次,分析不同的聚类,参考无线通信行业客户分割矩阵,制定合适的客户挽留策略。3.3.1运用K-means聚类技术聚类流失客户首先需要分析流失客户的特征,如年龄,入网时间或其他消费特征,借助聚类方法中K-means算法,对样本数据中离网用户划分类别,对具有相似特征的用户进行归类分析,在此基础上再继续针对不同类别的用户制定相应的挽留策略。客户流失预测模型分析出与客户流失关联度较大的指标有6个,分别是年龄(Age),三个月的平均月收入(Average_invoice),在网时间(On_networl_hours),拨打本地移动电话费(Local_mobile_call_fee),拨打异地移动电话时间(Non_local_mobile_hours),本地通话费(Local_call_fee)。这6个指标作为K-means聚类方法的输入,设置将离网用户根据指标特征分为4类,分类结果如图4所示。图4离网用户K-means聚类结果聚类1:客户在网时间在30~40个月之间,很少拨打移动电话,本地通话量也较少,该类客户共472人。该类客户3个月的月平均收入在4个聚类中最低,且具有较高的流失风险。聚类2:客户在网时间25个月,经常拨打本地移动电话,本地费用很高,这应该是该类客户离网的主要原因,该类客户共216人。3个月的月平均收入较高,客户流失率也很高。聚类3:客户在网时间26个月,异地移动电话通话量很高,本地费用和本地移动通话量也较高,该类客户共12人。3个月产生的月平均收入很高且具有较低的流失率。聚类4:该类客户年龄小于29岁,3个月创造的收入较低,在网时间小于11个月,为运营商创造的总体价值较低,流失的可能性也比较低。该类客户共337人。3.3.2客户挽留策略制定通过聚类已经得出了4类流失客户群,分析每一类客基于数据挖掘的通信业客户挽留系统研究经营与管理经营与管理46户群,得出其对客户挽留有重要贡献的特征集合,并根据这些特征集合,依据客户流失率和客户价值,并参考无线行业客户分割矩阵,来制定适当的客户挽留策略,这就是这一节要解决的问题。客户分割矩阵L.Modisette在1999年《Milkingwirelesschurnforprofit》中提到的一种客户分类方法。根据客户流失风险和客户价值,将客户分为了4类,并对每一类客户提出了相应的挽留建议。客户流失风险高且具有较高价值的客户被
本文标题:基于数据挖掘的通信业客户挽留系统研究
链接地址:https://www.777doc.com/doc-315549 .html