您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > DM-分类决策树(信达永道项目数据分析事务所)
DM公开课之分类与决策树By:wjs信达永道项目数据分析师事务所微博:目录1.概念2.算法3.模型4.Cle实现1概念概念分类定义分类预备知识解决分类的一般方法分类是确定对象属于哪个预定义的目标类常见应用:垃圾邮件检测肿瘤良性恶性判断&药物组合效果分析个人信用等级判断金融债券评级系统(财务报表提供的信息)特点:根据数据某些属性,估计一个特定属性的值预备知识绪论分类定义分类预备知识解决分类的一般方法分类任务就是通过学习得到一个目标函数每个属性集x映射到一个预先定义的类标号y目标函数也叫做分类模型1.2.3.用途描述性建模:解释性的工具,用于区分不同类中的对象。预测性建模:用于预测未知记录的类标号目的分类VS预测分类:预测分类标号,根据训练数据和类标号,构建模型分类现有数据,并且用来分类新数据。预测:构造和使用模型评价无标号样本类,或评估给定样本可能具有的属性值或者值区间。相同点:1都需要构建模型2都用模型来估计未知值(预测中主要为回归模型,包括线性、多元、非线性回归等)不同点:1分类主要用来预测类标号2预测主要用来估计连续值绪论分类定义分类预备知识解决分类的一般方法绪论分类定义分类预备知识解决分类的一般方法分类VS聚类分类:模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到规则进行分类聚类:每个训练样本的类编号是未知的,要学习的类集合或者数量也可能是事先未知的。通过一系列的度量,观察来建立数据中的类编号或进行聚类概念分类定义分类预备知识解决分类的一般方法分类算法输入属性集模型类标号完善模型与算法研究方法准确率研究思路算法2算法分类算法使用一种学习算法确定分类模型较好拟合输入数据中属性集与输出数据类标号的联系。很好的拟合输入数据/正确地预测未知样本的类标号1.2.3.目的泛化能力,即建立起能够准确地预测未知样本类标号的模型。算法算法=规则!分类算法步骤第一步:建立模型算法分类算法步骤第二步:用模型进行分类决策树模型神经网络模型SVM模型NaiveBayesclassifier….选择分类算法1.算法模型越简单越好2.内存占用与速度3.简单模型约束强测试是否违背约束探索性数据分析Bagged决策树线性判别分析算法约束度算法复杂度算法算法分类准备(预处理)数据清理:消除或减少噪声,处理空缺值,从而减少学习时的混乱。相关性分析:数据中的有些属性可能与当前任务不相关,也有些属性可能是冗余的,删除这些属性可以加快学习步骤,使得学习结果更精确。数据变换:可以将数据概化到较高层概念,或者将数据归一化。决策树3Clementine具体案例决策树功能强大且相当被受欢迎的分类和预测工具。每一个路径代表一个规则。模型正确和模型明确度之间的选择。把由不同成份形成的母体分成较小且较具同质性的组群。决策树决策树决策树根节点(rootnode)子节点(childnode)叶节点(leafnode)ABinaryDecisionTree路径代表一个规则决策树分类评分估计多种新式决策树•第一个问题的答案决定了下一个问题。•谨慎选择问题,短短几次询问就可以将后来的资料正确分类。•目的:选择出在依变数之中能做出最佳区别的测试法。•不同的叶节点可能组成同一个类别,虽然每一个叶节点是由不同原因而组成的。•例子:蔬菜水果决策树分类评分估计多种新式•补充资料。•允许记录分类从很可能到最没可能成为被要求的种类的成员。•知道A实际答覆的可能性。•Backfitting法:叶节点分类比例来产生一个分数可能性。决策树决策树分类评分估计多种新式•「回归树」是使用数值依变数所建立。•决策树中选取的分隔是为了降低子节点的变异。•决策树较适合用来估计离散的变数。•回归式和类神经网路较适合用来估计连续的变数。决策树决策树分类评分估计多种新式•二元决策树(Binarytree)。•三元决策树(Ternarytree)。•混合式的决策树。决策树决策树算法决策树熵,指数据中的不稳定性、突发性或随机性的程度的度量。决策树分裂的基本原则是,数据集分裂成若干子集后,要使得每个子集中的数据尽可能“纯”,即子集的熵尽可能小。123年龄≥4040H(D)H(D1)H(D2)信息增益演算:将数据集D分裂为D1、D2的信息增益Gain(D,年龄)=H(D)-[P(D1)*H(D1)+P(D2)*H(D2)]H表示熵,P(D1)表示D中样本被划分为D1的概率,按照这个方法测定每个属性的信息增益,选择增益最大的属性作为分裂属性。ID3算法即根据此方法得来。ID3C4.5C5.0增加“增益比例”等未公开,主要对大数据集决策树算法常用的算法有CHAID、CART、ID3、C4.5、Quest和C5.0。(自查文献)建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。此我们只需要把切分看成是把一组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同。这个切分的过程也可称为数据的“纯化”。然而决策树的这种明确性可能带来误导。比如,决策树每个节点对应分割的定义都是非常明确毫不含糊的,但在实际生活中这种明确可能带来麻烦(凭什么说年收入¥40,001的人具有较小的信用风险而¥40,000的人就没有)。决策树决策树决策树修剪•••决策树不断分支,对训练集资料的预测效果也会不断改善,最后很可能会overfit训练集资料。导致不稳定性而无法做准确的预测。解决对策:修剪决策树,以避免overfit发生。修剪方式:CART修剪演算法C5演算法Stability-BasedPruning目的决策树修剪决策树为了使得到的决策树所蕴含的规则具有普遍意义,必须防止训练过度,同时也减少了训练的时间。因此我们需要有一种方法能让我们在适当的时候停止树的生长。常用的方法是设定决策树的最大高度(层数)来限制树的生长。还有一种方法是设定每个节点必须包含的最少记录数,当节点中记录的个数小于这个数值时就停止分割。与设置停止增长条件相对应的是在树建立好之后对其进行修剪。先允许树尽量生长,然后再把树修剪到较小的尺寸,当然在修剪的同时要求尽量保持决策树的准确度尽量不要下降太多。解释决策树整合(ensemble)••••Baggingdecisiontrees:anearlyensemblemethod,buildsmultipledecisiontreesbyrepeatedlyresamplingtrainingdatawithreplacement,andvotingthetreesforaconsensuspredictionARandomForestclassifierusesanumberofdecisiontrees,inordertoimprovetheclassificationrate.BoostedTreescanbeusedforregression-typeandclassification-typeproblemsRotationforest-inwhicheverydecisiontreeistrainedbyfirst算法决策树applyingprincipalcomponentanalysis(PCA)onarandomsubsetoftheinputfeatures.决策树应用决策树••••••从大数据中选出重要变量在工业流程中,预测某些重要变量的未来状态在推广系统中,建立用户集群分析历史性事件以便预测未来一批大量的自变量如何和某些预测的未来结果结合应用于相关规则中,找出连续性模式,产生衍生变量丰富资料用途决策树案例&Cle操作基于C5.0算法下,某银行的信贷案例:背景:通过对X银行的信贷记录进行数据挖掘,构建决策树并形成规则,为该银行的信贷服务提供决策支持。目标是要找出银行批准或否决贷款人的信用申请的标准。数据源包含690个样本,16个属性。鉴于保密原因,属性名称用A1,A2……A16表示,其中A16为类标号属性,有两个取值:“+”和“-”,分别表示申请通过和申请被否决。*原始数据文件案例背景建模结果评估构建决策树模型:决策树案例&Cle操作首先对数据进行清洗,得到样本653个。选择一半样本出来,作为训练数据集,用于构建决策树模型。剩下一半样本作为测试数据集,用生成的决策树进行预测,以评估决策树的性能。对训练样本添加C5.0节点,该节点使用C5.0算法生成决策树或者规则集,根据能够带来最大信息增益的字段拆分样本。通过数据审核可以看出,不同属性下,存在样本的缺失值与不可识别的“?”,过滤该类样本案例背景建模结果评估决策树案例&Cle操作在C5.0的属性设置界面,可以轻松设置模型的参数,包括修剪严重性和子分支的最小记录。鉴于该案例为银行信贷,误分类对银行产生的损失较大,因此需要在成本分析中指定不同类型预测错误之间相对重要性。本案例中,对银行而言,拒绝“好”的客户和接受“坏”的客户这两种错误造成的损失并不相等。接受“坏”的客户,银行遭受的违约风险通常更大。为此,假设接受“坏”客户的成本是拒绝“好”客户成本的2倍,如上图中的设置。案例背景建模结果评估决策树案例&Cle操作对测试样本进行预测结果的分析,从结果中可知,91.14%的测试样本预测值和实际相符。28个预测错误的样本中,实际值为“+”的被预测为“-”的样本有19个,反之为9个。对预测类别“+”和“-”的绩效评价统计量分别为1.266和0.22。模型整体较好。案例背景建模结果评估决策树案例&Cle操作结果:如上图所示,为模型的树形结果图,可以看出每条路径(即规则)下,用户被分类为“+”和“-”的可能性。该案例中,将被判断为“+”的高概率规则作为银行是否允许客户贷款的重要参考标准。案例背景建模结果评估DM小结之数据预处理DM过程中,80%时间在预处理数据上!通常有以下4个方面:案例背景建模结果评估数据清洗数据转换数据集成数据归约缺失值处理噪声数据处理数据不一致处理多源合并数据泛化规范化属性构造数据立方体聚集属性子集选择维度规约数值规约离散化和概念分层企业微博:信达永道项目数据分析师事务所个人微博:半尘weiwei谢谢!信达永道项目数据分析师事务所
本文标题:DM-分类决策树(信达永道项目数据分析事务所)
链接地址:https://www.777doc.com/doc-752309 .html