您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 05_决策树算法案例_高校学生用户识别模型
高校学生用户识别模型_模型分析报告TeradataSCJul,2010TeradataConfidential21/15/2020目录2高校学生样本分析3模型构建分析目标及统计口径14模型结果5模型评估、部署与维护TeradataConfidential31/15/2020统计口径及分析目标•分析目标根据学生群体的语音通话、行为轨迹、假日行为、新业务使用特征、交往圈信息等特点,建立相应的学生客户识别模型,进行针对性营销与服务。•统计口径分析用户群–移动公司提供的一批归属于贵阳市贵州大学、贵阳学院、贵阳医学院三所高校的前置营销号码。–高校V网用户。–有在高校区域基站通过话的贵阳移动用户。时间窗口–201003-201005模型目标–构建一个分类模型,将在高校区域基站有通话的用户分为学生和非学生两类。TeradataConfidential41/15/2020目录2高校学生样本分析3模型构建分析目标及统计口径14模型结果5模型评估、部署与维护TeradataConfidential51/15/2020高校学生样本分析•目标:提高学生样本纯度•结论:对于第一批前置营销用户,按照如下规则筛选:–201005月底用户状态正常–2007-2009年8/9月份入网–区县代码与校园位置一致–201005有在校园区域基站通话对于三所学校校园V网的用户,按照如下规则筛选:–201005月底用户状态正常–20070731之后入网–201005有校园通话。TeradataConfidential61/15/2020高校学生样本分析–入网时间•第一批前置营销的7432名用户中,在2010年5月有6862名用户在用。•根据在校时间与开学时间,排除2007年8月之前入网的,以及不是在8、9月份入网的用户。•排除后剩余的用户有4433名,占在用用户的65%。入网时间其他,1387,20%2007-2009年8/9月份入网,4433,65%200708之前入网,1042,15%TeradataConfidential71/15/2020高校学生样本分析–区县代码•在排除大约5%的不在学校所在区域的用户后,剩下的学生样本数为4217名。贵州大学(花溪区)其他区域,65,4%花溪区,1749,96%贵阳学院(南明区)其他区域,48,6%南明区,790,94%贵阳医学院(云岩区)其他区域,103,6%云岩区,1678,94%TeradataConfidential81/15/2020高校学生样本分析–3类V网类型•在按照用户状态、入网时间、区县代码排除一部分用户后,仍然有相当数量的用户加入了非本校的V网。特别是贵阳医学院的用户。•在贵阳医学院其他V网中,排名靠前的包括贵医附件的刘老四百鸡宴、其他高校V网、其他单位V网•考虑是否将加入其它V网的用户排除贵州大学加入其它V网,141,8%没加入V网,436,25%加入本校V网,1172,67%贵阳学院加入其它V网,45,6%没加入V网,149,19%加入本校V网,596,75%贵阳医学院加入本校V网,473,28%没加入V网,780,47%加入其它V网,425,25%16181865112020406080100120财经学院09校园网雷士照明电器师大白云校园V网大唐高鸿公司刘老四百鸡宴贵阳医学院其他V网TeradataConfidential91/15/2020高校学生样本分析–通话区域•从通话区域看,加入其它V网、没加入V网的用户与加入了本校V网的用户区别不大,因此没有把加入其它V网的用户排除•在排除没有校园通话的用户后,剩下的学生样本数为4181名。98.7%97.3%93.5%99.6%99.6%94.5%98.4%97.3%92.3%70.0%75.0%80.0%85.0%90.0%95.0%100.0%105.0%校园通话用户占比校园通话与学校一致用户占比校园区域用户占比没加入V网加入本校V网加入其它V网TeradataConfidential101/15/2020目录3模型构建2高校学生样本分析分析目标及统计口径14模型结果5模型评估、部署与维护TeradataConfidential111/15/2020模型构建——步骤训练集模型训练测试集模型结果(权重、规则等)对测试集打分模型评估模型调整数据准备TeradataConfidential121/15/2020模型构建——训练集与测试集(1/2)•在对高校学生样本进行分析、筛选后,我们得到了两份纯度较高的学生样本:学生样本1:第一批前置营销用户中,2010年5月底仍然在用、2007-2009年8/9月份入网、区县代码与校园位置一致、2010年5月在校园区域基站有通话的用户(4181名)学生样本2:“全省高校V网渗透率情况”报表中贵州大学、贵阳学院、贵阳医学院三所学校对应的V网用户中,2010年5月底仍然在用、2007年7月31号之后入网、2010年5月在校园区域基站有通话的用户(10427名)学生样本1按照6:4划分6学生样本1.a非学生样本a训练集学生样本1.b非学生样本b测试集14学生样本2非学生样本c测试集2•学生样本与非学生样本合并后,组成训练集、测试集,用于模型的构建与评估。TeradataConfidential131/15/2020模型构建——训练集与测试集(2/2)•非学生样本:规则:卡类用户中没有加入校园V网、有在校园基站通话、通话最多基站为非校园基站的用户数量:选取一定量的非学生样本,使得非学生样本与学生样本混合后,学生样本的占比为“全省高校V网渗透率情况”报表中的学生用户数比上有在校园基站通过话的用户数(133502:993578,约等于13.44%)。学生样本1按照6:4划分6学生样本1.a非学生样本a训练集学生样本1.b非学生样本b测试集14学生样本2非学生样本c测试集2TeradataConfidential141/15/2020模型构建——决策树介绍•决策树类似于流程的树形结构内部节点代表对某个属性的一次测试分支代表测试的输出结果叶节点代表分类标签或分布•示例如下:age?overcaststudent?creditrating?noyesfairexcellent=3040yes30..40TeradataConfidential151/15/2020目录3变量设计及模型构建2数据探索分析目标及统计口径14模型结果5模型评估、部署与维护TeradataConfidential161/15/2020和本地校园区域客户的短信条数9本地交往圈属校园区域客户数3本地交往圈ARPU大于50的客户数=24本地交往圈同属校园区域客户数%=87.7%=12.3=1212最频繁校园通话天数19最频繁校园通话天数=19%=83.2%=2.7%=2.3%=4.5本地交往圈神州行客户数=10%=1.8CF=0.9880%=0.4CF=0.9720%=0.1CF=10%=2.2本地交往圈动感地带客户数=18%=2.1CF=0.841本地交往圈属校园区域客户数6%=5.0总通话次数54%=4.6交往圈ARPU大于80的客户数=5%=4.3CF=0.9570%=0.3飞信好友数20%=0.075CF=11%=0.4%=0.4CF=0.9871最频繁校园通话次数8%=78.2本地交往圈神州行客户数=2%=4.8本地交往圈属校园区域客户数3%=0.4交往圈ARPU大于50的客户数=4%=0.1CF=11本地交往圈神州行客户数25%=0.6CF=0.990%=11.6本地交往圈神州行客户数=25本地交往圈全球通客户数=6%=11.1最频繁校园通话天数16%=0.6本地费=28.65%=0.5最频繁校园通话天数6%=0.4CF=0.7781%=10.5本地交往圈全球通客户数=3%=9.8CF=0.9591%=0.7%=0.6CF=0.7951%=0.6本地交往圈校园网客户数6%=0.04CF=11%=0.5本地校园区域客户通话时长727%=0.03CF=11%=0.5本地交往圈全球通客户数6本地交往圈校园网客户数=6飞信好友数51%=0.03CF=0.6671模型结果%:客户数占比CF=节点判断正确的客户数/该节点总客户数1:判断为高校学生0:判断为非高校学生TeradataConfidential171/15/2020和本地校园区域客户的短信条数9本地交往圈属校园区域客户数3本地交往圈ARPU大于50的客户数=24本地交往圈同属校园区域客户数%=87.7%=12.3=1212最频繁校园通话天数19最频繁校园通话天数=19%=83.2%=2.7%=2.3%=4.5本地交往圈神州行客户数=10%=1.8CF=0.9880%=0.4CF=0.9720%=0.1CF=10%=2.2本地交往圈动感地带客户数=18%=2.1CF=0.841本地交往圈属校园区域客户数6%=5.0总通话次数54%=4.6交往圈ARPU大于80的客户数=5%=4.3CF=0.9570%=0.3飞信好友数20%=0.075CF=11%=0.4%=0.4CF=0.9871最频繁校园通话次数8%=78.2本地交往圈神州行客户数=2%=4.8本地交往圈属校园区域客户数3%=0.4交往圈ARPU大于50的客户数=4%=0.1CF=11本地交往圈神州行客户数25%=0.6CF=0.990%=11.6本地交往圈神州行客户数=25本地交往圈全球通客户数=6%=11.1最频繁校园通话天数16%=0.6本地费=28.65%=0.5最频繁校园通话天数6%=0.4CF=0.7781%=10.5本地交往圈全球通客户数=3%=9.8CF=0.951%=0.7%=0.6CF=0.791%=0.6本地交往圈校园网客户数6%=0.04CF=11%=0.5本地校园区域客户通话时长727%=0.03CF=11%=0.5本地交往圈全球通客户数6本地交往圈校园网客户数=6飞信好友数51%=0.03CF=0.6671模型结果分析%:客户数占比CF=节点判断正确的客户数/该节点总客户数1:判断为高校学生0:判断为非高校学生TeradataConfidential181/15/2020模型结果分析变量名意义解释最频繁校园通话天数自己及其交往圈的活动集中在校园区域本地交往圈中同属校园区域客户数本地交往圈中全球通客户数交往圈中全球通与神州行客户数少本地交往圈中神州行客户数本地费自己及其交往圈大多是中低端用户本地交往圈中ARPU大于50的客户数本地交往圈中ARPU大于80的客户数飞信好友数飞信好友数较多TeradataConfidential191/15/2020目录3模型构建2高校学生样本分析分析目标及统计口径14模型结果5模型评估、部署与维护TeradataConfidential201/15/2020模型评估使用命中率(Response%)、覆盖率(CaptureRespones%)、提升率(Lift)、来对模型进行评估:•命中率=判断正确的高校学生数/判断为高校学生的客户数•覆盖率=判断正确的高校学生数/样本中的高校学生数•提升率=命中率/样本中高校学生的占比训练集测试集1测试集2样本中的高校学生数2509167210427判断正确的高校学生数208613698892错判为高校学生的客户数12096595命中率2086/(2086+120)=94.56%1369/(1369+96)=93.45%8892/(8892+595)=93.73%覆盖率2086/2509=83.14%1369/1672=81.88%8892/10427=85.28%提升率94.56%/13.44%=7.0493.45%/13.44%=6.9693.73%/13.44%=6.98此外,还可以通过外呼对模型的命中率进行评估。学生样本1(前置营销)按照6:4划分6学生
本文标题:05_决策树算法案例_高校学生用户识别模型
链接地址:https://www.777doc.com/doc-3051412 .html