您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 招聘面试 > Clementine-第三讲
Clementine的数据精简主要内容数据精简包括以下方面:第一,从压缩样本入手(前章)第二,从压缩变量取值入手,通过减少变量取值个数,提高建模效率。主要指变量值的分箱处理。(本章)第三,从压缩变量个数入手,通过减少变量维度,提高建模效率。主要借助统计方法降维,或依据相关性进行特征选择。(本章)变量值的离散化处理特征选择变量值的离散化处理前提:数值型变量在较低数量级上的取值差异,看作可被忽略的小的随机波动目的提高数据挖掘中海量数据的处理效率并非所有数据挖掘方法都支持对数值型变量的分析方法:无指导的数据分箱有指导的数据分箱变量值的离散化处理无指导的数据分箱:以Students.xls为例组距分组分位数分组拓展:在指定组数的前提下,依据各组变量值总和近似的原则进行分组例:2,3,5,6,7,12,分成3组(2,3,5)、(6,7)、(12)单变量值分组:例:2,3,5,6,6,7,12,秩分组结果1,2,3,4.5,4.5,6,7均值-标准差分组如果经分箱处理的变量将作为输入变量,不恰当的分组可能后会导致学习时的“先天不足”变量值的离散化处理有指导的数据分箱:应考虑分组结果对其他变量的影响,分组在输出变量“指导”下进行变量值的离散化处理Clementine提供的方法基于最短描述长度原则的熵分组MDLP(MinimumDescriptionLengthPrinciple)如果分组后的输入变量对输出变量取值的解释能力显著提高,则分组有意义核心指标:信息熵和信息增益有指导的数据分箱:信息熵•信息熵(Entropy):平均信息量的测度指标,用于定类型变量取值不确定性的测度•样本集合S中,具有k个类别的输出变量C,设其取第i个类别的概率为,Ent(S)定义为:•采用以2为底的对数符合信息量的计量单位bit•例如:N=2x二进制位数:[log2N]+1),(SCPi)),((log),()(12SCPSCPSEntikii有指导的数据分箱:信息熵如果:,则熵为0,表示变量C取值的平均不确定性最小如果:,则熵,平均不确定性最大信息熵Ent(S)值越大,变量取值的平均不确定性越大,信息量越大)(0),(,1),(ijSCPSCPji),...,2,1(1kikPik1log2)),((log),()(12SCPSCPSEntikii•信息增益(Gains):输入变量A,组限值T,将样本集合S被划分为S1和S2。Ent(A,T;S)为:•变量A的组限值T带来的信息增益Gains(A,T;S):)(||||)(||||);,(2211SEntSSSEntSSSTAEnt有指导的数据分箱:信息增益);,()();,(STAEntSEntSTAGains9402.0145log145149log149)),((log),()(2212SCPSCPSEntikii8609.0))32(log32)31(log31(143))113(log113)118(log118(1411)(||||)(||||);,(22222211SEntSSSEntSSSTAEnt0.07930.8909-0.9402);,()();,(STAEntSEntSTAGainsT=80.5•MDL最初是数据压缩的评价标准•为提供数据存储和传送的效率,数据的压缩处理是必要的•数据压缩的思路:•数据的编码原则•编码方案的选择策略有指导的数据分箱:MDLP•在分箱处理中:•分组“收益”应大于“代价”(MDL总长度)•以Students.xls为例,目标:有指导的数据分箱NSTANNSTAGains);,()1(log);,(2有指导的数据分箱:MDLP特征选择(FeatureSelection)特征选择:是从众多的输入变量中,找出对输出变量分类预测有意义的重要变量方法:第一,从变量本身考察第二,从输入变量与输出变量相关性角度考察从变量本身考察某数值型变量的变异系数小于某个标准值某数值型变量的标准差小于某个标准值对某分类型变量,计算各个类别值的比例。如果最大值大于某个标准值对某分类型变量,计算其类别值个数。如果类别值个数占样本的比例,大于某个标准值某变量中缺失值所占的比例大于某个标准值特征选择(FeatureSelection)从变量与输出变量相关性角度考察输入变量为数值型,输出变量为数值型输入变量为数值型,输出变量为分类型输入变量为分类型,输出变量为数值型输入变量为分类型,输出变量为分类型单个变量的逐一考察,而非多变量以Telephone.sav为例,做特征选择特征选择(FeatureSelection)
本文标题:Clementine-第三讲
链接地址:https://www.777doc.com/doc-3463233 .html