您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 电信行业数据分析发掘交流
中国电信广东公司综合部企业信息化部数据分析挖掘培训大数据运营中心赖晓彬中国电信广东公司综合部企业信息化部Why?Who?How?What?数据挖掘FAQ中国电信广东公司综合部企业信息化部数据=储藏室数据+工具=技术员数据+工具+方法=知识数据+工具+方法+目标=信息数据+工具+方法+目标+行动=价值(Why)为何要数据挖掘?Why中国电信广东公司综合部企业信息化部分析决策能力$ROI原始数据标准报表描述型模型预测型模型数据知识信息智能模型优化发生了什么?为什么发生?即席查询&OLAP清洗后的数据将会发生什么?希望发生什么?(Why)从数据中获取智能中国电信广东公司综合部企业信息化部(What)什么是数据挖掘?按既定业务目标,对海量的电信数据进行探索,揭示隐藏其中的规律性,并进一步将其模型化的先进、有效的方法与艺术。What中国电信广东公司综合部企业信息化部(Who)数据挖掘应用的角色分配数据人员业务人员挖掘人员进行一个挖掘应用至少需要如下人员的合作:Who中国电信广东公司综合部企业信息化部amplexploreodifyodelssessSampleExploreModifyModelAssess循环往复的挖掘过程How(How)数据挖掘方法论中国电信广东公司综合部企业信息化部预测性模型描述性模型数据挖掘我们的客户是什么样子的?他们需要什么?如何选取最好的针对性客户交互方式,以保证利润最大化?揭示蕴含于历史数据中的规律无指导的学习数据挖掘模型按照功能划分对未来事件的预测有指导的学习中国电信广东公司综合部企业信息化部电信业数据挖掘模型主要适用范围向上销售客户挽留账单催收管理主动新客户获取客户分群模型交叉销售客户信用管理交易行为生命周期价值响应倾向流失倾向交易价值信用风险中国电信广东公司综合部企业信息化部工具介绍-Clementine10Clementine现在叫IBMSPSSModeler,是一个业界领先的数据挖掘工具。Clementine拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型。快速帮助数据挖掘工作者进行数据探索和模型的优化。同时,增强了数据源连接、数据处理、建模分析等功能。中国电信广东公司综合部企业信息化部软件界面介绍11节点选项板工具栏模型、流、输出件管理窗工程文件管理窗操作区中国电信广东公司综合部企业信息化部可读入数据12自由格式的文本文件固定格式的文本文件Excel文件SPSS数据文件SAS数据文件数据库文件XML文件中国电信广东公司综合部企业信息化部变量类型连续数值类型(range),如年龄离散数值类型(Discrete),如家庭人口二分类型(flag),如性别多分类型(set),如职业定序型(OrderedSets),如学历和收入水平缺失型(default),尚未明确的变量类型13中国电信广东公司综合部企业信息化部数据整合纵向合并数据纵向合并中,确保两份或多份数据的合并是有实际意义的,相同含义的变量应取相同的变量名,且变量的类型需一致14横向合并横向合并必须需要有唯一的ID进行关联合并用户ID地区ARPU1广州892广州129用户ID地区ARPU1深圳1892深圳49用户ID地区ARPU1广州892广州1291深圳1892深圳49纵向合并效果地区用户数广州2837深圳3202茂名782汕头1242地区区域广州珠1深圳珠1茂名粤西汕头粤东地区用户数区域广州2837珠1深圳3202珠1茂名782粤西汕头1242粤东横向向合并效果中国电信广东公司综合部企业信息化部变量计算(案例操作)计算:流量饱和度=使用手机流量/套餐总流量计算:总通话时长=主叫通话时长+被叫通话时长进行ARPU值分档15ARPU档次说明0~10ARPU大于0且少于10M10~30大于等于10M且少于30M30~100大于等于30M且少于100M100~300大于等于100M且少于300M300+300M及以上中国电信广东公司综合部企业信息化部常见的变量计算说明(1)均值:平均数是表示一组数据集中趋势0的量数,它是反映数据集中趋势的一项指标。其计算公式:16极差:表示统计资料中的变异量数,其最大值与最小值之间的差距;即最大值减最小值后所得之数据用途:在统计中常用极差来刻画一组数据的离散程度,以及反映的是变量分布的变异范围和离散幅度。同时,它能体现一组数据波动的范围。极差越大,离散程度越大,反之,离散程度越小。其计算公式:R=Xmax-Xmin中国电信广东公司综合部企业信息化部平均差:是总体所有单位与其算术平均数的离差绝对值的算术平均数。其是反映各标志值与算术平均数之间的平均差异。平均差越大,数据就越分散;反之,数据就越集中其计算公式:MD=(|x1-x|+|x2-x|+…+|xn-x|)/n,x是均值标准差:是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同其计算公式:s=sqrt(((x1-x)^2+(x2-x)^2+......(xn-x)^2)/(n),x是均值离散系数:又称变异系数,是统计学当中的常用统计指标,主要用于比较不同水平的变量数列的离散程度及平均数的代表性。其也是反映一个数据集的离散程度。其计算公式:cv=s/x,x是均值常见的变量计算说明(2)17中国电信广东公司综合部企业信息化部功能示例中国电信广东公司综合部企业信息化部数据载入1.通过SPSS节点读取数据文件2.双击节点,在属性框中点击‘ReadValue’对数据实例化3.Clementine可以自动判别数据类型,可以通过点击字段的‘Type’值手工修改字段类型4.也可以通过Type节点修改字段类型中国电信广东公司综合部企业信息化部输入输出变量定义1.选择‘Field’窗口的‘Type’节点,并将其与数据节点连接2.双击节点,在属性框中设置字段运算方向,将预测变量‘Churn’设置为‘Out’,其他设置为‘In’中国电信广东公司综合部企业信息化部变量过滤1.根据前期数据预处理的结果(相关性分析等)确定需要抛弃字段2.单击字段‘Filter’上箭头过滤需抛弃字段,如再次点击则重新选择中国电信广东公司综合部企业信息化部决策树预测模型C5.0模型根据能带来最大信息增益(informationgain)的字段拆分数据。第一次拆分确定的子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的子集被剔除或者修剪。决策树是对这种算法拆分的直观描述。在每个叶子节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况恰好属于树上的一个终端节点。换句话说,决策树展示的任一特定数据记录只有一种可能预测结果选择C5.0节点并将其与Filter节点连接中国电信广东公司综合部企业信息化部模型参数设置输出类型:决策树或者规则集使用助推:按序列建立多重模型。第一个模型以通常的方式建立,随后建立第二个模型聚焦于被第一个模型错误分类的记录并以此类推以提高精度。同时可设置助推模型数量(Num.oftrials)简单模式:可指定精确(Accuracy)优先还是适应性(Generality)优先专家模式:•PruningSeverity:指定修剪程度。提高纯度值将获得更小更简洁的决策树•Minimumrecords:限制决策树任一分支的拆分纪录数,可防止过度训练•Windowattributes:可预先发现无关的预测字段,并将其排除在建模过程中交叉验证:使用一组基于训练数据子集建立的模型来估计基于全部数据建立的模型的精确度中国电信广东公司综合部企业信息化部运行模型并查看结果1.将生成的Churn模型与Fillter节点连接并双击2.在查看窗口中查看生成的规则集3.窗口下方显示选中节点的范围条件,上方则显示结构,众数及置信区间4.点击Viewer可查看对应的决策树(见下图)中国电信广东公司综合部企业信息化部决策树查看器1.决策树地图显示整体决策树缩略图2.移动焦点框或鼠标可在查看器中查看局部细节,如左图中国电信广东公司综合部企业信息化部预测模型评估标准模型信息可解释性模型信息丰富度。丰富度越高,模型越好模型主要变量从业务上解释与目标变量的相关性,相关性越高,模型越好模型预测准确性对客户用模型预测出的概率进行排序,前xx%(根据实际需求确定,通常为10%)的客户中实际预测准确的客户数越多,模型越好模型应用强壮性将模型应用到有相同结构的数据集得到的预测结果越接近,模型的应用强壮性越好,模型就越好中国电信广东公司综合部企业信息化部数据挖掘总流程数据理解与准备商业理解变量筛选模型输出•商业背景•商业目标•模型定义模型建立•清洗、合并原始字段•创建衍生字段•剔除无关字段•剔除无建模意义字段•决策树、回归、关联等模型•评估优化•模型、预测公式和规则•名单输出模型可解读易移植承接•采用回归、树类模型,明确建立预测流失公式和规则部署可固化易现网应用•相应硬件、软件配置完善后,模型可直接固化在IT系统中•可根据现有系统布局,灵活调整模型固化形式12345营销落地6•营销落地工作开展中国电信广东公司综合部企业信息化部商业理解商业理解问题1:预测哪些客户(尤其是哪些高价值客户)可能会流失?问题2:可能流失客户的特征是什么?288月9月10月7月6月5月预测期维系期观测期11月4月12月模型预测时间窗口输出9月预警清单预警模型预测流失时间中国电信广东公司综合部企业信息化部流失口径定义以销户为标准:销户的客户记为流失1,否则为不流失0,但实际并不是所有客户使用电信公司的服务后会主动销号,因此应该还有其他流失的定义;以有无通话行为为标准:若某客户连续3个月内均没有使用任何语音、数据业务则定义为流失1,否则为不流失0;以欠费为标准:欠费3个月以上的客户记为流失1,否则为不流失0;话费流失:如客户连续3个月的话费比过去6个月的话费均值降低70%为流失1,否则为不流失0;流量流失:……29•流失口径确定:销号、欠费超过3个月(后付费客户)或3个月无通话行为(预付费客户)即为流失1,否则为不流失0中国电信广东公司综合部企业信息化部数据准备-基础数据提取30数据源表变量名称变量注释变量类型变量取值范围备注Customer_ID客户编号离散Gender性别离散男、女Age年龄连续12~82L_O_S在网时长连续9~60Tariff话费方案离散Handset手机品牌离散Customer_ID客户编号离散Peak_calls高峰期电话数连续Peak_mins高峰期电话时长连续OffPeak_calls低谷期电话数连续OffPeak_mins低谷期电话时长连续Weekend_calls周末电话数连续Weekend_mins周末电话时长连续International_mins国际电话时长连续Nat_call_cost国内电话费连续month月份连续Tariff话费类型离散Fixed_cost固定费用连续Free_mins免费通话时长连续Customer_ID客户编号离散Churn是否流失离散基础信息客户通话记录表话费方案客户是否流失1、高峰期:典型工作时间(周一至周五早8:00至晚6点)2、低谷期:指典型的不含周末的非工作时间(周一早0:00至早8:00,周一至周四晚6点至次日早8:00和周五晚6点至周五晚24:00)3、周末:指周六早0:00至周日晚24:00的时间注:数据为模拟的数据中国电信广东公司综合部企业信息化部数据加工-生成最终数据挖掘宽表31数据挖掘宽表说明中国电信广东公司综合部企业信息化部数据探索-离散变量离散型变量:如性别、话费方案、手机品牌32结论1:性别与流失关系不大结论2:手机品牌与流失相关性很大,其中ASAD90、CAS30、SOP10、SOP20的流失比例特别高中国电信广东公司综合部企业信息化部数据探索-连续变量使用描述性变量:对于连续型
本文标题:电信行业数据分析发掘交流
链接地址:https://www.777doc.com/doc-562900 .html