您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 数据挖掘在通信业中的应用
第7章数据挖掘在通信业中的应用电信业是典型的数据密集型行业,长期积累的大量客户行为数据是运营商的重要资源和财富。然而,电信业务数据量庞大,业务系统众多,在电信业中引入数据挖掘技术,以帮助理解商业行为、识别电信模式、更好地利用资源和提高服务质量,具有重要的应用价值。本章主要介绍数据挖掘在电信行业中的应用概貌,并通过案例具体介绍相关技术的应用。第7章数据挖掘在通信业中的应用数据挖掘在通信行业的应用概述客户细分客户流失预测分析客户社会关系挖掘业务交叉销售欺诈客户识别案例分析客户通话模式分析基于通话数据的社会网络分析客户细分与流失分析移动业务关联分析7.1数据挖掘在通信行业的应用概述数据挖掘技术为电信运营商制定营销策略、争夺客户资源等方面都可以起到不可或缺的作用。在客户关系管理中:通过对客户进行分类以发现不同价值的客户群体;通过对客户的流失预测以进行客户挽留;对客户之间的社会关系进行分析以获取潜在客户和保持现有客户。在市场营销方面,可以使用购物篮分析进行业务的交叉销售和提升销售。同时,异常检测技术是识别欺诈客户的有效方法。根据电信业在不同方面的业务需求,这里只讨论与客户相关的业务数据挖掘,重点介绍客户细分、客户流失分析、客户社会关系挖掘、业务交叉销售和欺诈客户识别等。客户细分客户细分是有效实施市场策略的第一步。企业通过客户分类,一方面能够识别出具有价值的客户,并针对他们做个性化的营销服务;另一方面可以有效地识别企业的潜在客户,并有针对性地开展新客户的获取工作。客户细分是将一个大的消费群体划分成多个小类别的操作,同属于一个细分类别的客户彼此相似,而隶属于不同细分类别的消费者彼此之间的消费行为存在较大差异。对电信业而言,不同的客户群对企业创造的价值会有所不同,其消费特征也有所区别,这就需要将不同的群体分别开来对待。客户流失预测分析客户流失预测分析通过对客户基本状态属性与历史行为属性等数据进行深入分析,提炼出已流失客户在流失前具有的特征或行为,建立客户流失预测模型,通过模型预测企业在近期内将可能流失的客户。将客户流失预测是一个客户识别问题。它通过在包含了一定比例的已流失和未流失的客户样本集上建立模型进行训练,得到能够区分客户是否具有流失倾向的分类器,然后将该模型用于预测客户未来的流失倾向。而建立模型之前,还需要对客户细分后的各客户群的价值、消费行为、消费偏好及流失原因等进行分析。所以客户流失预测提供给企业的并不仅仅是一个流失预测名单,还会给企业带来大量有价值的市场信息。客户社会关系挖掘电信运营商拥有其客户打出和接入的每个电话呼叫的详细记录,每一条通话记录表示两个客户之间发生的一次联系。从这些联系中得到的信息可以发现客户之间的社会关系及个体的社会影响力,以帮助电信运营商提高客户忠诚度和防止客户流失。电信运营商可以特别瞄准具有高影响力的客户,因为他们可能带入新的入网客户和带来更多的价值。基于通话数据建立客户社会关系模型,使用社区替代单个客户作为电信客户关系管理的对象,一方面可以掌握社区内客户的行为影响,另一方面也可以将社区内的消息传播用于产品推销,从而节省推销成本。同样,运营商还可以借助通话网络的社区结构信息传播特性进行重要信息的快速发布,如灾害气象等。业务交叉销售交叉销售通过分析以往客户的购买行为以发现频繁地被同时购买的产品组合,可以为只购买部分产品的客户来推荐组合中的其它产品以提高企业的利润,其实现的方法有关联规则挖掘、相关分析、主成分分析等。通过关联分析发现客户使用业务的潜在规则和同时被使用频率较高的业务组合。电信行业拥有众多的业务种类,不同性质的客户通常会使用不同的业务组合,使用关联规则发现不同业务之间的关联,可以了解客户频繁使用哪些业务、哪些业务倾向于被一起使用、哪些客户更可能接受促销的新业务、哪些业务有必要以促销的方式提供给客户来加以了解。欺诈客户识别电信网络的欺诈行为也不断涌现,大量客户的恶意欠费、欺诈行为导致电信运营商的收入受到巨大的损失。通过电信运营商客户异常行为分析,不仅可以检测出潜在的客户诈欺行为,从而减少企业收入损失,也可以检测出呼叫骚扰客户,从而为其他客户提供更好的服务。异常客户分析识别主要是对电信客户所处状态的一种判断。根据已有的异常客户数据归纳其特性,当拥有新的客户数据时,以此预测识别具有异常倾向的客户,如识别具有离网倾向或欺诈倾向的客户。这样可有助于改进电信运营商的服务水平,减少收益流失,增强客户的忠诚度等。主要内容数据挖掘在通信行业的应用概述客户细分客户流失预测分析客户社会关系挖掘业务交叉销售欺诈客户识别案例分析客户通话模式分析基于通话数据的社会网络分析客户细分与流失分析移动业务关联分析案例一:客户通话模式分析概述针对客户通话详细数据进行几个方面的业务分析:第一,话模式有地区性的不同。对定价部门而言,了解这一点非常重要,因为它能显示不同地区应该以不同的方式来衡量收费规则。第二,通话模式有时间性的不同。一天中的不同时段,通话的频率有所不同,了解这一点可以知道通话的闲时和忙时,这样也可以帮助业务人员制定合理的收费方式。第三分析高利润的通话模式。国际电话仅占所有通话量的少部分,但利润贡献与其通话量并不对称。数据能告诉我们哪些是与国际通话模式有关的信息。数据准备-1通话明细数据本案例使用的客户通话数据源自某电信运营商交换机直接记录11天的通话明细记录,共2千多万条记录。每一个通话明细记录(表7-1)都是由电话网络对每一次通话进行的详细记录。字段顺序字段名字段名称说明1from_number主叫拨打方电话号码(也称发话号码)。在中国,截止2007年8月,共有61个城市的固定电话号码为8位,剩下大多数的电话号码为7位。2to_number被叫3start_date开始日期4start_time开始时间5end_date结束日期6end_time结束时间7duration_of_call通话时间通话时间(通常以秒计)。8type话单类型话单类型。例如市内通话,国际长途等表7-1通话明细数据表数据准备-2客户基本信息除了通话明细记录外,本案例需要客户基本信息(如表7-2)。由于客户可能使用多条电话线,因此客户数据需要与客户的电话号码相关资料做匹配。字段顺序字段名字段名称数据类型1region_id区县标识Char(10)2cust_type_id客户类型码Char(13)3cust_type客户类型Char(8)4compute_0013行业类别Char(30)5compute_0014行业子类Char(26)6billing_no电话号码Char(15)7serv_id服务编码Char(8)8product_name产品名称Char(30)9user_type用户性质Char(8)10State状态Char(8)表7-2客户基本信息表数据准备-3辅助文件通话明细分析,通常需要格外的参考表,如中国各地级市区号列表(如表7-3)、国家代码以及对应国家的列表(如表7-4)、中国电话号码归属及收费说明表(如表7-5)。字段顺序字段名字段名称1Province省份2City城市3Code区号4Weishu电话号码位数表7-3中国个地级市区号列表字段顺序字段名字段名称1country_eng国家英文名2country_chn国家中文名3Short国家名称缩写4cnt_code国家代码5time_diff时差表7-4国家代码及对于国家列表字段顺序字段名字段名称1num_start号码开头字段2Compay归属运营商3Description收费说明4Attach备注表7-5中国电话号码归属及收费说明表数据预处理-1本案例使用SAS软件的编程工具进行通话数据预处理工作。采用的数据预处理技术包括:数据清洗、数据集成和数据变换。本案例的数据预处理流程如图7-1所示:原始数据无效数据号码为空值、错误值IP通话数据根据IP接入号号码=6位普通长途政企呼叫市内通话根据主、被叫区号等公共服务号码已‘9’开头国际长途国内长途网内通话手机通话图7-1数据预处理流程数据预处理-2数据清洗在通话记录数据中,可能会出现空缺值、不完整数据或者噪声数据,如类似被叫为空值、‘0’、‘00’、‘000’,通话时长为0的电话号码。这些数据会降低数据挖掘的效率,影响数据挖掘的效率和结果,所以将这类数据输出到误单数在通话数据中。本实验数据集中有一个表示通话时长的变量,在分析之前先通过时长验证公式(通话时长=通话结束时间-通话开始时间),以验证通话数据的正确性。数据预处理-3数据集成由于以下因素,将会导致同一号码的形式多种多样:不同导致IP通话中被叫号码的形式多样,如电信IP电话接入号为179**,移动IP接入号为为17950,17951。通话所在的区域不同,如长途电话相对本市电话,固定电话前加区号。国际长途电话,固定电话前加00+国家代码。与移动电话之间的长途通话,移动电话号码前加0。政企客户打外线号码,被叫号码前加‘9’。针对以上各种情况,进行数据统一包括以下几个方面:主叫号码处理:对于长途通话数据,需要从主叫号码中分离区号,并还原原始主叫号码。被叫号码处理:对于IP长途通话,需要从被叫号码中识别IP接入号,再分离区号。对于普通长途通话,直接从被叫号码中分离区号。数据预处理-4数据变换通话数据中没有直接体现与客户类型、通话类型等信息。所以构造以下特征:公话标记:标识与公话服务电话通话的记录。通话类型:根据通话类型将通话的明细数据被分成三大类:市话、国内长途电话、国际长途电话。通话子类型:根据IP接入号,将国内长途通话分成IP国内长途和传统国内长途,将国际长途通话分成IP国际长途和传统国际长途;根据拨打国际长途的地区提取港澳台国际通话。客户类型:将明细数据分成三大类:政企客户、家庭客户和其他客户。通话时段:将一天划分为24个时段。通话时长分析-1通话时间长短是客户行为的一个基本面。然而更重要的是,它能告诉我们很多关于数据质量的信息,并给出该数据源是否产生合理价值的提示,某些超短通话是否为骚扰电话?超长电话是否为机器故障所致?本案例通过数据产生通话时间的长条图,首先对时长进行分组,以10分钟作为区间。然后查看时长的分布条形图再分析10分钟及以内、10秒钟及以内和大于30分钟的分布情况。在时长分析时,同时探索在每个时长中各种通话类型的比例。通话时长分析-2本案例实验数据的通话时长有96.43%分布在10分钟及以内,且大部分为市内通话(如图7-2)。这样的条形图对通话时长的探索还不够具体,故将抽取时长为10分钟及以内的通话数据来观察时长的分布情况,并以1分钟为区间。在10分钟及以内的时长分布条形图中(如图7-2),主要数据分布在4分钟及以内,占92%以上,电信运营商可以根据该特征将4分钟设置市内优惠通话划分点。在通话时长大于30分钟的数据中(如图7-4),主要分布在40分钟以内,且国内长途占主体,该特征又可作为优惠通话的参考。通话时长分析-3图7-2以10分钟为区间的通话时长分布通话时长分析-4图7-3以1分钟为区间的通话时长分布通话时长分析-5图7-4以10分钟为区间且时长大于30分钟的通话时长分布通话时长分析-6识别骚扰电话对运营商和客户来说都具有很大的意义,通过对通话时长在2秒以内的呼叫客户进行分析(如图7-4所示),该类电话主要属于市内通话,对主叫号码进行分组为184654个号码,其中有304个号码的呼叫次数大于50,可初步判断为骚扰号码,这些号码大多是公免用户,可能是公用号码被私人拨打骚扰电话。图7-42秒以内通话数据分析通话时长分析-7这里对骚扰号码的客户基本信息进行聚类分析,包括客户类型、行业类别、产品名称、用户性质、地区分布。聚类结果显示,骚扰号码主要集中在两个簇中,其中一个簇以政企客户为主,说明可能某些企业内部的员工使用公司的电话拨打骚扰电话。而对于通话时间大于等于1小时的超长通话,如图7-6所示,主要为国内
本文标题:数据挖掘在通信业中的应用
链接地址:https://www.777doc.com/doc-6851685 .html