您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘技术与电信客户分析
20090543数据挖掘技术与电信客户分析李净张范张智江中国联合网络通信有限公司博士后工作站北京100140摘要数据挖掘技术以其跨学科、算法丰富及处理海量数据的特点而被广泛应用于金融、零售、电信等领域的客户分析中,帮助企业深入细分客户,提升客户体验,增加企业收入。我国电信运营商正面临着激烈的市场竞争,对深入细分客户的需求也日益强烈,对数据挖掘技术的跟踪与应用的需求十分迫切。本文深入探讨数据挖掘方法论、技术方法及其在电信客户分析中的应用,指出应用中要注意的问题,为对电信客户进行分析提供了参考。关键词数据挖掘;电信;客户分析引言金融、零售、电信等企业都积累了大量客户数据,这些数据是企业的重要资产和财富。通过深入分析,可以从中获取大量有用的信息。数据挖掘是处理此类海量数据,从中挖掘有用信息的常用技术,应用广泛。如,沃尔玛超市拥有世界上最大的数据仓库系统,利用数据挖掘工具分析客户购买行为;中科院利用数据挖掘技术为银行建立客户信用度评估系统;法国电信,英国电信,AT&T,SKT,DoCoMo及国内电信运营商都已在客户分析中采用了数据挖掘技术,以提升客户洞察能力,提高企业竞争力。在激烈的竞争环境下,我国电信运营商也越来越重视客户分析工作。如何利用数据挖掘技术分析处理规模巨大的电信业务运营数据,解决客户发展成本高、流失率高、个性化服务需求高、客户满意度低等问题,是我国电信企业最为关注的内容。本文将深入探讨数据挖掘技术与电信客户分析相关问题,以作为电信客户分析的参考。1数据挖掘方法论数据挖掘(DataMining)是从大量数据中提取或挖掘知识的过程。数据挖掘是一个新兴的多学科交叉领域,起源于20世纪80年代,在决策支持中扮演着重要的角色。随着数据库技术的发展,越来越多的数据被收集起来,形成了“数据丰富,知识贫乏”的状况,因此,如何从海量数据中挖掘有用的知识,变得非常重要,数据挖掘技术就是在这种背景下诞生的。从数据挖掘的概念看,其特点主要体现在两点:一是处理大数据集的能力,作为数据挖掘可以吸取多学科的大量算法,通常需要加强算法的可扩展性以处理海量数据;二是“探索”或“挖掘”过程,数据挖掘强调从海量数据中获取知识的过程,通过探索的方式,利用各种方法从大量数据中挖掘可能有用的模型或模式;因此,数据挖掘更侧重于方法论,而非具体的算法。SIG组织在1996年提出的数据挖掘标准流程CRISP-DM[1],是一种被广泛应用的跨行业的处理流程,如图1所示。SAS[2]也提出了一种数据挖掘方法论SEMMA,并应用于SAS系统中。业务理解数据理解数据准备建模评估部署数据图1CRISP-DM标准流程业务与运营Business&OperationBusiness&Operation信息通信技术44CRISP-DM流程分为六个阶段,详细说明见表1:从流程图中可以看出,数据挖掘过程是一个循环往复、不断优化的闭环流程。其中,“业务理解”与“数据理解”之间、“数据准备”与“建模”之间都存在着反复过程,正体现出了“挖掘”、“探索”的特点。首先,数据挖掘过程应是业务主导而非技术主导,深入理解业务问题和数据内涵对数据挖掘项目的成功非常重要。这个过程需要业务人员和分析人员共同参与,深入沟通,明确分析的目标、理解业务数据、确定数据需求、评估数据质量。其次,分析时常采用探索的方式,尝试多种数据挖掘技术来进行建模。在此过程中,可能出现数据不足的问题,这就需要继续丰富数据,也可能出现模型效果不理想的情况,就需要尝试其它方法来重新建模。我们将数据挖掘技术应用于电信客户分析时,应充分重视业务理解、数据理解和数据准备过程,并关注分析结果的业务解释。2数据挖掘技术方法作为一个交叉学科,数据挖掘是由多种不同的学科发展而来,主要包括统计、机器学习、数据库等。不同的来源也带来了不同的观点,其采用的方法也有很大区别。最主要的观点包括以下三个方面[3-5]见表2:拥有不同专业背景的人员对数据挖掘有着不同的理解,所使用的技术方法也与自身专业相关,这就给数据挖掘带来了丰富的算法。从某种角度说,凡是可以用户从数据中挖掘知识的技术方法,都可以纳入数据挖掘范畴中。总体上,数据挖掘中采用的方法可以划分为以下几类:2.1数据泛化(datageneralization)数据泛化是对数据进行抽象与汇总的过程。可以利用业务知识或采用属性归纳等方法生成属性的概念层次树,并利用这种层级关系对数据进行泛化。汇总是一种常用的数据泛化方法。另外,OLAP分析[3]是数据泛化的一个具体应用,用于发现隐藏在不同数据粒度层级上的知识。2.2关联分析(associationanalysis)关联分析主要用于发现大数据集中数据项之间的关联关系、相关关系等,可采用关联规则挖掘、相关分析、主成分分析,频繁项目集等方法。其中用于查找频繁项目集的Apriori[6]算法可以认为是数据挖掘技术中的原创性算法。2.3聚类(clustering)聚类是按照某种相似性将数据分组的过程,通常被称为无指导的(unsupervised)学习。聚类算法非常丰富,可以划分为基于分割、分层、网格和模型等的方法。在数据挖掘中使用的聚类算法侧重于对大数据集、高维特征数据的处理能力。2.4分类(classification)分类是将数据映射到事先定义好的群组或类,通常被称为有指导的(supervised)学习,主要包括统计方法(如贝叶斯分类、近邻法)、机器学习(如决策树、规则归纳)、神经网络等。2.5回归(regression)回归是将数据映射到某一实值预测变量。回归与分类有些相似,区别在于,分类将数据映射到离散的类别中,而回归则建立连续值函数模型。回归分析主要包括线性回归、非线性回归方法等,常用于预测。2.6序列模式(sequentialpattern)序列模式挖掘是挖掘有序序列或时间序列中的频表1CRISP-DM步骤说明描述通过反复沟通准确理解业务问题,将其转换成数据挖掘问题,并拟定初步构想收集、理解、过滤所需的数据,并进行数据质量评估数据清理、转换、归并等,便于数据挖掘技术使用尝试采用各种方法建立分析模型,解决提出的业务问题对建立的模型进行评估最终报告生成或模型部署步骤业务理解数据理解数据预处理建模评估部署表2数据挖掘观点说明从数据库的角度定义数据挖掘,强调方法的效率,即,如何高效地从海量数据中抽取知识侧重算法的正确性,假设的真实性,统计结果的获得需要有大数据量的保证强调算法的有效性观点数据库观点统计学观点机器学习观点业务与运营20090545Business&Operation繁序列模式,主要包括频繁子序列、周期模式等。类似于关联分析,通过序列模式挖掘可以获取有用的关联规则,如客户购买某产品A一段时间以后,很可能会购买另一件产品B。2.7异常点分析(outlieranalysis)异常点或孤立点分析通过检测数据中的异常数据,发现异常模式。异常点分析可以采用统计检测、距离度量、基于背离度的方法,常用于欺诈检测。如,通过检测用户近期的行为与历史行为的不一致,发现客户欺诈问题。以上每类方法中都有大量的算法可以使用,在进行客户分析时可以选择其中一种或多种方法进行尝试并进行对比。3电信客户分析应用电信客户数据量非常庞大,一方面因为电信客户数量多,另一方面因为客户消费行为产生了大量的记录。从庞大的数据中抽取有用的知识是一件困难的事情,而数据挖掘技术正是为此而诞生的。如前所述,在使用数据挖掘技术进行客户分析时要注重其方法论。在更多情况下,利用数据挖掘进行客户分析的过程是一个提出假设并验证的过程。对业务和数据的深入理解可以帮助分析人员提出更为恰当和有效的假设,选用恰当的方法去验证,从而更快更好地得到有用的知识。通常,对于同一个业务问题,由于业务分析人员对业务的理解、分析结果的假设以及表示形式的设定不同,可能采取完全不同的分析方法,得到完全不同的结果,这也正是数据挖掘技术的特点之一。本文将电信客户生命周期划分为未入网、非稳定期和稳定期各阶段,并给出每个阶段电信客户分析的核心任务、典型分析课题及主要分析方法。此处仅列出主要的数据挖掘方法,实际上并不限于这些方法,见表3。下面对表3中的几个典型客户分析课题进行探讨,包括客户家庭成员分析、未入网网站会员分析/网站访问习惯分析、交叉销售分析、客户流失分析、欺诈检测等。3.1客户家庭成员关系分析客户在入网时通常没有登记家庭成员关系,可以通过关联分析等方法生成关联规则来进行猜测。具体可以通过对客户基本信息(包括姓名、性别、年龄、家庭地址、家庭电话等属性)及消费行为信息(如经常联系的号码、夜间通话基站等)进行分析,生成各属性与家庭成员关系的关联规则,用于自动判别家庭成员关系。例如(CID1与CID2登记地址相同)∧(CID1与CID2同姓)∧(CID1比CID2年龄大20-30岁)→(CID1与CID2为父子或父女关系),并使用支持度(support)和置信度(confidence)来判断规则的可靠性。假设条件为A,结果为B(父子或父女关系),则支持度和置信度分别为P(AB)和P(B|A),只有超过一定阈值才认为是有效规则。家庭成员关系作为将来维系挽留与个性化营销的参考,这对于全业务电信运营商更为重要。3.2未入网网站会员分析/网站访问行为分析可以记录网站会员对网站的访问情况,并使用序列模式挖掘、关联分析等方法对会员点击序列进行分析。点击序列分析本质上是寻找频繁出现的子序列,以及长时间驻留的页面,频繁子序列和长期驻留页面可能反映出客户所关心的内容,并借此深入了解客户爱好偏好、关注的产品、客户敏感性特征(如价格敏感、促销敏表3电信客户分析典型课题及主要分析方法信息通信技术46感、终端敏感)等信息,以便更有针对性地推荐产品;对未入网(未使用企业服务)会员制定特定的产品吸引其入网;优化网站设计、增加快速链接,方便客户及时掌握企业信息,以及提供个性化网站布局等。3.3交叉销售(cross-selling)如果已知足够多的客户同时订购了产品A和B,那么当我们发现一个客户订购了产品A而未订购产品B时,可以向其推荐产品B,称为产品的交叉销售。在分析时通常采用Apriori及其改进算法来查找频繁项目集,通过支持度和置信度阈值来判断是否作为有效规则。以增值业务为例,与盲目营销相比,交叉销售可以在很大程度上降低营销成本,提高成功率,并减少客户不满。3.4客户流失分析(churn)客户流失分析主要包括流失预警和原因分析。电信客户流失可以分为主动流失和被动流失(欠费销号等),而客户主动流失分析是企业最为关注的。对于离网预警/征兆及离网原因分析,可以采用关联分析、序列模式挖掘、异常点分析、聚类/分类、回归等方法,得到客户离网预警模型并分析离网原因。如关联分析主要用于探查与“离网”密切相关的属性,序列模式挖掘用于发现离网前的频繁子序列,作为离网征兆或原因,异常点分析通过客户离网前的异常行为(异常点)来进行预警。预警模型可以使用关联规则、决策树、判别函数等表示。客户流失分析本质上就是挖掘相关属性与离网之间的关系。3.5欺诈检测通过客户异常行为,检测潜在的客户/代理商欺诈行为,减少企业收入损失。可以采用聚类/分类、关联分析、异常点分析等方法检测用户欺诈行为。如,采用决策树、聚类、异常点检测、神经元网络等技术。聚类/分类、异常点分析主要研究欺诈客户与其他客户群在属性空间分布的差异,发现潜在的欺诈客户,或者通过分析客户当前行为与历史行为的差异来发现欺诈行为。如可以选择适当的属性,通过聚类/分类或异常点分析找到欺诈客户,或采用基于距离、信息增益或的评价函数来生成决策树,或通过关联分析找到与欺诈相关的属性并得到关联规则,以检测客户欺诈行为。4总结本文对数据挖掘方法论、技术方法及其在电信客户分析中的应用进行了探讨。数据挖掘从海量数据中挖掘潜在的知识,吸收多种学科的优势,汇集了丰富的算法,适用于电信客户分析,并在我国电信客户分析得到了一定程度的应用。在今后的发展中,数据挖掘技术会越来越广泛地应用于电信客户分析,帮助企业洞察客户,提供个性化服务。在使用数据挖掘技术进行客户分析时还应
本文标题:数据挖掘技术与电信客户分析
链接地址:https://www.777doc.com/doc-1534488 .html