您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 数据挖掘方法和实例_20070115
数据挖掘方法和实例运营支持部\经营分析组2007-01-152目录探索数据间的关系对数据的预测数据挖掘的特点常见陷阱如何开展数据挖掘工具使用演示数据挖掘的基本作用3检查数据间的关系•统计分析中的方法–相关分析•例如:学生的高考成绩的分数与学生每天学习多少小时这两个变量的相关系数是0.7•数据挖掘中的方法–聚类•例如:把全体客户分成若干个群体–关联分析•例如:购买婴儿尿布的人一般也会购买啤酒群体123456789名称基本型经济型年轻时髦族保守型接听型客服使用型高端型夜猫型普通青少年4检查数据间的关系:相关分析2222xynXYXYrNXXNYY相关系数:两个变量之间的关系(例如:年龄与收入)用散点图表示:5检查数据间的关系:聚类•例一:FO用户按上网时段分,有哪几种类型?•数据的选取和预处理:–选取9、10、11月均活跃(有登录)的FO用户1,302,759个–统计每个用户在11月份的各时段的在线时长•例如:QQ号为123456的用户在11月的8-9点的总在线时长为500秒;在11月份的总在线时长为10000秒–计算每个用户在11月份的各时段的相对在线时长•例如:QQ号为123456的用户在11月的8-9点的相对在线时长为500/10000=0.05–目的:想把这1,302,759个用户分成若干个群体,同一群体中的上网时段集中在一个区间内,不同群体的上网时段则相隔较远。6检查数据间的关系:聚类•例一:FO用户的上网时段有哪几种类型(续)–各群体的指标均值群体编号1234群体人数5580082343772243472832840-1点的在线时长0.0220.0080.0130.1051-2点的在线时长0.0210.0070.0090.0812-3点的在线时长0.0200.0060.0070.0663-4点的在线时长0.0190.0050.0060.0554-5点的在线时长0.0180.0050.0060.0455-6点的在线时长0.0230.0050.0050.0276-7点的在线时长0.0210.0060.0050.0187-8点的在线时长0.0200.0100.0050.0108-9点的在线时长0.0250.0270.0090.0089-10点的在线时长0.0210.0820.0130.00910-11点的在线时长0.0190.1260.0170.01011-12点的在线时长0.0190.1530.0170.01112-13点的在线时长0.0360.1870.0260.01713-14点的在线时长0.0890.0950.0310.01814-15点的在线时长0.0930.0570.0290.01715-16点的在线时长0.0970.0490.0310.01816-17点的在线时长0.1000.0440.0340.01817-18点的在线时长0.0920.0360.0410.01918-19点的在线时长0.0720.0250.0800.02119-20点的在线时长0.0350.0200.2140.02720-21点的在线时长0.0290.0160.2450.03721-22点的在线时长0.0630.0130.0980.07122-23点的在线时长0.0240.0100.0390.15823-24点的在线时长0.0220.0080.0200.136合计11110.0000.0500.1000.1500.2000.2500.3001357911131517192123下午型上午型傍晚型半夜型7检查数据间的关系:聚类•例二:某运营商群体编号12345678910ARPU15434224552838630022316343465035084428186033662524群体人数22068444726056121887663627015621444229111308占总客户比例0.1790.3620.0490.0990.0620.0510.1270.0360.0240.011三个月增值业务使用个数均值0.7410.7231.0912.5730.4541.4121.7361.41760.7980.48361三个月来话总时长均值24381391518172131953641133421312535660634111883.17三个月来话总次数均值24.09143.3136.6135.4418.1301.2360.5713.2943.54919.8874三个月拨打电信客服次数10000均值0.050.1060.1290.1320.1430.1470.1560.16390.18330.00407三个月拨打移动客服次数1860,1861均值0.030.0460.0640.0620.0580.0740.0710.08180.32530.01196三个月去话总时长均值466012708151671488325871244852611440003709363383343三个月呼出网外数均值33.87108.6102.5111.8249192.6229.3373.651852.41164.91三个月去话总次数均值40.29134.6127.3144.4318.1244.4306.3520.021992.41273.59三个月网内呼叫数均值11.5851.7949.3463.27145.3106.9155.8308.57146.7113.656三个月长话使用IP次数均值2.5417.15310.478.912.1814.2913.218.771214.710.41105三个月网外呼叫数均值50.6228.4216.9221.8599.3447.6522.2942.171890.21180.79三个月呼转移动次数均值1.2581.1310.3281.8081.5150.8911.7912.86240.04770.08638三个月呼转电信次数均值0.6812.4773.4554.4475.5727.3598.10311.5750.41360.73394三个月呼转联通次数均值0.8370.8130.5041.2991.3170.981.5463.12430.40870.33588三个月本地被叫总时长均值218312927168801167034813316832918054452341065.8061三个月本地被叫总次数均值21.47132.3123.7119.5398.4282.4336.1685.7943.5230.76833三个月本地主叫总时长均值24338186883383761919516772180313043588385216.934三个月本地主叫总次数均值29.5610794.02105.4269.7197.5249.4446.72566.61.98394三个月长途通话总时长均值17783384447544025308580760087863.66208711022.38三个月长途通话总次数均值7.30316.8718.8421.4133.6330.6736.8956.1651425.44.41385三个月接收短信次数均值7.92427.51197.335.0135.58192.939.9959.6446.61616.71577三个月漫游通话总时长均值728.72157319037012999370942123926.3108.6383934三个月漫游通话总次数均值6.45522.6228.8335.635.8938.0147.4748.3380.50511286.7三个月发送短信次数均值7.19626.93274.838.4928.67208.136.2851.4020.33150.8547三个月总出帐费用均值15369222512802229892311313409934513416826030961993.4三个月呼转无条件数均值0.0020.0040.0020.0040.0010.0030.0020.00500特服总个数17.7918.7088.5458.868.5638.6958.7878.74567.99427.90291强次强次弱弱8检查数据间的关系:聚类•例二:某运营商群体编号9:超高使用组细分组信息数量:2911比例:2%年龄:32.07ARPU:603.36在网时间(月):22.8女性比例:35%客户群分析•其最显著特征是通话总时长、通话总次数、去话总时长、总次数、交往圈人数异常的高。•来话次数/去话次数之比为0.2%,通话小区数只有2.45个•长途通话次数、时长最高,漫游通话次数非常少。•本组用户通话次数很高。平均每天66.41次。•交往圈人数很高,三个月平均每月1459人。•拨打电话中基本上都是拨打不同的电话。•此用户群较异常,初步判断是包月服务计划用户当作黑公话来使用。找出异常用户.9检查数据间的关系:关联分析•经典案例:“啤酒与尿布”–沃尔玛:零售行业最大的数据仓库–“购买尿布的顾客中80%会同时购买啤酒”–尿布和啤酒摆在一起出售,销售量双双增长•目的:–什么产品经常被一起购买?–例:买了PC机后,接下来还会买什么?10关联规则:基本概念交易id本次交易购买了哪些物品1A,B,C2A,C3A,D4B,E,F•关联分析,又称购物篮分析•规则XY(买了X的同时还会买Y)–支持度(support):同时买X和Y的交易次数占总交易次数的百分比–置信度(confidence):买X的交易中有多大可能性买Y(条件概率)两条关联规则举例:AC(50%,66.7%)CA(50%,100%)支持度置信度11检查数据间的关系:关联分析讨论:互娱的哪些问题可以使用关联分析?12QQShow物品推荐——关联分析”结果片段CONFSUPPORTCOUNTRULE10.837440.03179622[发亮的心情]==[冰雨]11.797750.03035121[蓝月光]==[冰雨]10.126580.02312416[hiphop_boy]==[绝酷运动帽男孩]15.306120.02167915[快乐的心]==[自在]14.736840.02023414[旷野之狼]==[冰雨]54.545450.01734312[我心永恒]==[自在]21.428570.01734312[明星气质]==[used_denim_pants]21.052630.01734312[used_denim_pants]==[明星气质]41.379310.01734312[韩风飞舞]==[爱不释手]11.881190.01734312[爱不释手]==[韩风飞舞]11.224490.01589811[快乐的心]==[严锋]15.492960.01589811[都市丽人]==[凉夏美眉]28.1250.0130079[自我风格]==[低调一点]39.130430.0130079[低调一点]==[自我风格]22.50.0130079[贴心]==[休闲假日]定义(以第一条规则为例)CONF:购买[发亮的心情]的QQ号码中有10.8%同时购买[冰雨]SUPPORT:同时购买[发亮的心情]和[冰雨]的QQ号码占全部QQ号码的0.032%COUNT:同时购买[发亮的心情]和[冰雨]的QQ号码数为22个只根据距11月22日最近的10万次交易数据得到13目录探索数据间的关系对数据的预测数据挖掘的特点常见陷阱如何开展数据挖掘工具使用演示14根据一些数据预测另一些数据•建立预测模型•例如:–根据非付费用户的行为属性,判断其下月是否成为付费用户–根据活跃用户的行为属性,判断其下月流失概率–根据用户行为属性,判断其对某活动的响应率–根据用户行为属性,判断对其进行交叉销售的成功率–根据用户行为和业务措施的历史数据,预测未来收入•交叉销售(Cross-sell)–卖给客户尚未使用的业务•提升销售(Up-sell)–向某业务客户卖更高档次的该类业务15业务量预测——FO蓝色:
本文标题:数据挖掘方法和实例_20070115
链接地址:https://www.777doc.com/doc-4242213 .html