您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 3.4分类回归树建模与应用.pdf
主要内容1.决策树算法概述从学习角度看,决策树属有指导(监督)学习算法目标:用于分类和回归2.C5.0(ID3,C4.5)算法及应用3.分类回归树及应用4.模型的对比分析5.决策树应用2018-05-15数据挖掘与商务智能1分类回归树分类回归树(ClassificationAndRegressionTree,CART,Breiman,1984)特点:(对比C5.0)既可建立分类树也可建立回归树(O:分类型/数值型)只能建立2叉树以Gini系数和方差作为建树依据依据测试样本集进行剪枝2018-05-15数据挖掘与商务智能2C5.0CART输出分类型分类型/数值型分支多分枝二分支建树依据信息熵(信息增益率)Gini系数和方差修剪依据训练集测试集Gini系数是个啥?2018-05-15数据挖掘与商务智能3赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标。设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除以(A+B)的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。低于0.2收入绝对平均0.2-0.3收入比较平均0.3-0.4收入相对合理0.4-0.5收入差距较大0.5以上收入差距悬殊Gini系数是个啥?2018-05-15数据挖掘与商务智能4Gini系数是个啥?2018-05-15数据挖掘与商务智能5CART:生长算法选择当前最佳分组变量数值型输入变量和分类型输入变量,计算策略不同分类树数值型输入变量:分成两组(2叉树)依次以相邻数值的中间值为组限分组计算两组样本输出变量值的异质性分组应尽量使两组的异质性总和较小,使两组异质性随着分组而快速下降2018-05-15数据挖掘与商务智能6怎样判断异质性大小呢?分类型?数值型?CART:生长算法(分类树)异质性指标:Gini系数p(j|t)是节点t中样本输出变量取第j类的归一化概率节点只有一个类别时,异质性最小时,Gini系数为0;节点各类样本相同时,异质性最大时,Gini系数为1-1/k异质性下降指标:使异质性下降达到最大的组限应为当前最佳分割点∑=−=kjtjptG12)|(1)(∑≠=ijtiptjptG)|()|()()()()()(llrrtGNNtGNNtGtG−−=∆2018-05-15数据挖掘与商务智能7𝑝𝑝𝑗𝑗,𝑡𝑡=𝑁𝑁𝑗𝑗,𝑡𝑡𝑁𝑁𝑗𝑗𝑝𝑝𝑗𝑗𝑡𝑡=𝑝𝑝(𝑗𝑗,𝑡𝑡)∑𝑗𝑗𝑝𝑝(𝑗𝑗,𝑡𝑡)CART:生长算法(分类树)分类型输入变量:形成2个超类(2叉树)多分类型输入变量:合并为超类同数值型变量,应使两组的异质性总和达到最小,异质性下降最快Twoing策略:找到使两个超类差异足够大的合并点sOrdered策略:适用于定序型输入变量,只有两个连续的别类才可合并成超类2|)|()|(|),(−=Φ∑jrlrltjptjpppts2018-05-15数据挖掘与商务智能8CART:生长算法(回归树)异质性指标:方差异质性下降指标:∑=−−=NiitytyNtR12))()((11)()()()()(llrrtRNNtRNNtRtR−−=∆2018-05-15数据挖掘与商务智能9节点t的样本量CART:生长算法•如何分组变量的众多取值中找到最佳分割点?•已经在找分割变量的同时完成!2018-05-15数据挖掘与商务智能10CART:剪枝算法预修剪策略决策树最大深度父节点和子节点所包含的最少样本量或比例树节点中输出变量的最小异质性减少量后修剪策略根据一定的规则,剪去决策树中的那些不具有一般代表性的叶节点或子树CART依次给出所有可能子树,从中挑选一棵如何得到这些子树?挑选标准是什么?2018-05-15数据挖掘与商务智能11CART:剪枝算法最小代价复杂性剪枝法(MinimalCostComplexityPruning,MCCP)目标:得到恰当的树,具有一定的预测精度,且复杂程度恰当代价(误差)和复杂度之间的权衡是必要的α为复杂度系数基于最小代价复杂性原则α等于0时怎样?α很大时怎样?|~|)()(TTRTRαα+=2018-05-15数据挖掘与商务智能12复杂决策树对训练集精度高,对测试集或新样本则不一定!(过拟合)理解和应用复杂决策树比较复杂!不考虑复杂度一个节点1.{t}的代价复杂度2.{t}的子树Tt的代价复杂度•例:判断能否剪掉一个中间节点{t}下的子树Ttαα+=)(})({tRtR|~|)()(tttTTRTRαα+=)(})({tTRtRαα保留子树,此时:1|~|)()(−−ttTTRtRα1|~|)()(−−=ttTTRtRα1|~|)()(−−ttTTRtRα剪掉子树剪掉子树越小且小于α剪掉确定可算,关键是α2018-05-15数据挖掘与商务智能133.判断是否剪枝CART:剪枝算法(*)α是一个不断调整过程α从0到α’的过程中:此时应剪掉子树Tt)(})({tTRtRαα)(})({tTRtRαα=αα+=)(})({tRtR|~|)()(tttTTRTRαα+=2018-05-15数据挖掘与商务智能14剪枝过程:产生子树序列T1,T2,T3,…,Tk。T1为最大树,Tk只包含根节点α初始为0,无枝可剪增大α找到小于α的所有子树中最小值对应的子树,剪掉,计算剪枝后树的代价复杂度值在当前α值下判断是否仍有小于α的子树,有则依从小到大顺序剪掉,并计算代价复杂度;否则,继续增大α,直到得到Tk随着α值增大,得到子树序列。它们的复杂度依次降低,但代价复杂度的变化情况并不确定1|~|)()(−−ttTTRtRCART:剪枝算法(*)2018-05-15数据挖掘与商务智能15剪枝过程选择k个子树中代价复杂度最低的子树,也可以允许考虑误差项'))(1)(())((NTRTRTRSEkkk−=))(()(min)(kkkoptTRSEmTRTR×+≤αCART:剪枝算法(*)放大因子代价复杂度最小子树在测试样本集上的预测误差的标准误差2018-05-15数据挖掘与商务智能162018-05-15数据挖掘与商务智能17CART应用示例以Telephone.sav为例,目标:找到影响客户流失的重要因素分类回归树的交互建模目的:使决策树的实际含义更贴近业务2018-05-15数据挖掘与商务智能18CART应用示例2018-05-15数据挖掘与商务智能19非交互建模:CART应用示例2018-05-15数据挖掘与商务智能20交互式建模:CART应用示例2018-05-15数据挖掘与商务智能21逐层生长或逐节点按自己需求生长为一棵决策树CART应用示例2018-05-15数据挖掘与商务智能22无线服务费用高的客户流失怎么如此大?是不是不能满足需求?调查客户需求……
本文标题:3.4分类回归树建模与应用.pdf
链接地址:https://www.777doc.com/doc-1738705 .html