您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > Clementine-第五讲
分类预测:决策树(二)主要内容分类回归树及应用模型的对比分析分类回归树分类回归树(ClassificationAndRegressionTree,CART,Breiman,1984)特点:既可建立分类树也可建立回归树只能建立2叉树以Gini系数和方差作为建树依据依据测试样本集进行剪枝CART:生长算法选择当前最佳分组变量分类树和回归树、数值型输入变量和分类型输入变量,计算策略存在差异分类树数值型输入变量:分成两组(2叉树)依次以相邻数值的中间值为组限分组计算两组样本输出变量值的异质性分组应尽量使两组的异质性总和较小,使两组异质性随着分组而快速下降CART:生长算法(分类树)异质性指标:GINI系数p(j|t)是节点t中样本输出变量取第j类的归一化概率异质性最小时,Gini系数为0;异质性最大时,Gini系数为1-1/k异质性下降指标:使上式达到最大的组限应为当前最佳分割点kjtjptG12)|(1)(ijtiptjptG)|()|()()()()()(llrrtGNNtGNNtGtGCART:生长算法(分类树)分类型输入变量:形成2个超类(2叉树)多分类型输入变量:合并为超类同上,应使两组的异质性总和达到最小,异质性下降最快Twoing策略:找到使两个超类差异足够大的合并点sOrdered策略:适用于定序型输入变量,只有两个连续的别类才可合并成超类2|)|()|(|),(jrlrltjptjppptsCART:生长算法(回归树)异质性指标:方差异质性下降指标:•从分组变量的众多取值中找到最佳分割点:同上NiitytyNtR12))()((11)()()()()(llrrtRNNtRNNtRtRCART:剪枝算法预修剪策略决策树最大深度父节点和子节点所包含的最少样本量或比例树节点中输出变量的最小异质性减少量后修剪策略根据一定的规则,剪去决策树中的那些不具有一般代表性的叶节点或子树CART依次给出所有可能子树,从中挑选一棵如何得到这些子树?挑选标准是什么?CART:剪枝算法最小代价复杂性剪枝法(MinimalCostComplexityPruning,MCCP)目标:得到恰当的树,具有一定的预测精度,且复杂程度恰当代价(误差)和复杂度之间的权衡是必要的为复杂度系数基于最小代价复杂性原则等于0时怎样?很大时怎样?|~|)()(TTRTR•{t}的代价复杂度•{t}的子树Tt的代价复杂度•判断能否剪掉一个中间节点{t}下的子树Tt)(})({tRtR|~|)()(tttTTRTR)(})({tTRtR保留子树,此时:1|~|)()(ttTTRtRa1|~|)()(ttTTRtRa1|~|)()(ttTTRtRa剪掉子树剪掉子树越小且小于剪掉确定可算,关键是CART:剪枝算法是一个不断调整过程从0到’的过程中:此时应剪掉子树Tt)(})({tTRtR)(})({tTRtR)(})({tRtR|~|)()(tttTTRTR剪枝过程:产生子树序列T1,T2,T3,…,Tk。T1为最大树,Tk只包含根节点初始为0,无枝可剪增大找到小于的所有子树中最小值对应的子树,剪掉,计算剪枝后树的代价复杂度值在当前值下判断是否仍有小于的子树,有则依从小到大顺序剪掉,并计算代价复杂度;否则,继续增大,直到得到Tk随着值增大,得到子树序列。它们的复杂度依次降低,但代价复杂度的变化情况并不确定1|~|)()(ttTTRtRCART:剪枝算法剪枝过程选择k个子树中代价复杂度最低的子树,也可以允许考虑误差项'))(1)(())((NTRTRTRSEkkk))(()(min)(kkkoptTRSEmTRTRCART:剪枝算法放大因子代价复杂度最小子树在测试样本集上的预测误差的误差CART应用示例以Telephone.sav为例,目标:找到影响客户流失的重要因素分类回归树的交互建模可以使决策树的实际含义更贴近业务交互建模中的模型评价交互建模中分类树的评价风险评价和收益评价风险评价:模型误差效益评价收益(Gains):模型对数据规律提炼的能力利润(Profit):财务角度反映模型价值角度:每条推理规则、决策树整体效益评价:收益评价(单个节点)收益:对具有某类特征的数据,输入和输出变量取值规律的提炼的能力针对用户关心的“目标”类别。例:流失yes收益评价指标【收益:n】:节点中样本属目标类别的样本量【响应(%)】:节点中样本属目标类别的样本量占本节点样本的百分比(置信程度)【收益(%)】:节点中样本属目标类别的样本量占目标类别总样本的百分比(适用广泛性)效益评价:收益评价(单个节点)响应%和收益%:意味追求高响应%吗?低响应%和低收益%的规则,不理想例:甲壳虫人群100人,90人购买,10不购买IF年轻富婆THNE买10人,响应%=100%(高),收益%=10/90(低)90人,响应%=70%(中低),收益%=63/90(高)高响应%和低收益%的规则,可能是没有意义的低响应%和高收益%的规则,可能是值得的效益评价:收益评价(单个节点)响应%和收益%:意味追求高响应%吗?高响应%和高收益%的规则,可能并没有太多价值效益评价:收益评价(单个节点)收益评价指标【指数(%)】:节点的响应(%)是同类别样本占总样本比例的百分之几倍,称为提升度(lift)(价值))|(/)|(populationclassPsampleclassPlifttt效益评价:利润评价(单个节点)总体利润:正利润和负利润(针对输出变量所有类别计算)定义单位利润利润评价指标【利润:】:节点的平均利润【投资回报率】:总利润/总投资【指数(%)】:节点的投资回报率是总投资回报率的倍数kiiijjpNN1)(1效益评价(整体)累计收益图:横坐标分位点,纵坐标累计收益(%)累计响应图:横坐标分位点,纵坐标累积响应(%)累计提升图:横坐标分位点,纵坐标累计提升度累计利润图:横坐标分位点,纵坐标累积利润累计投资回报率图:横坐标分位点,纵坐标累积ROI模型的对比分析选择通用指标评价:如误差、收益率、提升度等Analysis节点:用于评价单个模型区分预测置信度和倾向性得分。通常倾向性得分高于0.5,则可判断其预测类别为Yes。决策树中仅根据预测置信度无法判断预测类别在逻辑回归中,一般置信水平越高,预测正确率会越高,但通常不分析置信水平和预测正确率的关系,原因是分析结果是一个模型决策树得到是模型集合,为评价哪些模型更好,应分析置信水平和预测正确率的关系模型的对比分析Analysis节点:给出各种情况下的置信水平预测正确(错误)的规则的平均置信度置信度到达怎样水平时,预测正确率将达到怎样的程度Analysis节点:用于不同模型的对比评价不同模型的收益对比(Evaluation节点)决策树说明决策树算法在处理不同类型数据时的优势和劣势数值型的优势和劣势不受数量级的影响忽略分布特征分类型的优势和劣势建树效率高类别较多时,树太茂盛容易处理“混合类型”的输入变量
本文标题:Clementine-第五讲
链接地址:https://www.777doc.com/doc-3463236 .html