您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 浙江大学王灿《数据挖掘》课程PPT_分类和预测
分类和预测分类VS.预测分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的模型分类:预测类对象的分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型比如预测空缺值,或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断分类和预测---示例分类银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)我们需要构造一个分类器来预测类属编号,比如预测顾客属类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析数据分类——一个两步过程(1)第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”来构造分类器。训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类训练元组:训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提供数据分类——一个两步过程(2)第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分拟合”的情况第一步——建立模型训练数据集NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3no分类算法IFrank=‘professor’ORyears6THENtenured=‘yes’分类规则第二步——用模型进行分类分类规则测试集NAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes未知数据(Jeff,Professor,4)Tenured?监督学习VS.无监督学习监督学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程数据预测也是一个两步的过程,类似于前面描述的数据分类对于预测,没有“类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称“预测属性”E.g.银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X)其中X是输入;y是输出,是一个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集准备分类和预测的数据通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声,处理空缺值,从而减少学习时的混乱相关分析数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确数据变换与归约数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例[0.0,1.0](ANN和设计距离的度量方法中常用)可以将数据概化到较高层概念比较分类方法使用下列标准比较分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建分类器或预测器的能力可解释性:学习模型提供的理解和洞察的层次用决策树归纳分类(1)什么是决策树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点存放一个类编号age?student?creditrating?noyesfairexcellentyouthseniornonoyesyesyesMiddleaged决策树:Buys_computer用决策树归纳分类(2)使用决策树分类给定一个类标号未知的元组X,在决策树上测试元组的属性值,跟踪一条由根到叶节点的路径,叶节点存放该元组的类预测。决策树容易转换为分类规则决策树的生成由两个阶段组成决策树构建使用属性选择度量来选择将元组最好的划分为不同的类的属性递归的通过选定的属性,来划分样本(必须是离散值)树剪枝决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性决策树归纳策略(1)输入数据划分D是训练元组和对应类标号的集合attribute_list,候选属性的集合Attribute_selection_method,指定选择属性的启发性过程算法步骤1.树以代表训练样本的单个节点(N)开始2.如果样本都在同一个类,则该节点成为树叶,并用该类标记3.否则,算法调用Attribute_selection_method,选择能够最好的将样本分类的属性;确定“分裂准则”,指出“分裂点”或“分裂子集”。决策树归纳策略(2)4.对测试属性每个已知的值,创建一个分支,并以此划分元组5.算法使用同样的过程,递归的形成每个划分上的元组决策树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现6.递归划分步骤停止的条件划分D(在N节点提供)的所有元组属于同一类没有剩余属性可以用来进一步划分元组——使用多数表决没有剩余的样本给定分支没有元组,则以D中多数类创建一个树叶属性选择度量属性选择度量是一种选择分裂准则,将给定类标号的训练元组最好的进行划分的方法理想情况,每个划分都是“纯”的,即落在给定划分内的元组都属于相同的类属性选择度量又称为分裂准则常用的属性选择度量信息增益增益率Gini指标信息增益(1)S是一个训练样本的集合,该样本中每个集合的类编号已知。每个样本为一个元组。有个属性用来判定某个训练样本的类编号假设S中有m个类,总共s个训练样本,每个类Ci有si个样本(i=1,2,3...m),那么任意一个样本属于类Ci的概率是si/s,那么用来分类一个给定样本的期望信息是:sssssssInfoimiim2121log),...,,(信息增益(2)一个有v个值的属性A{a1,a2,...,av}可以将S分成v个子集{S1,S2,...,Sv},其中Sj包含S中属性A上的值为aj的样本。假设Sj包含类Ci的sij个样本。根据A的这种划分的期望信息称为A的熵A上该划分的获得的信息增益定义为:具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算S中样本的每个属性的信息增益,来得到一个属性的相关性的排序。),...,(...)(111mjjvjmjjssIsssAE)(),...,,()(21AEsssIAGainmageincomestudentcredit_ratingbuys_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentno判定归纳树算法示例(1)对于上述数据,可以略过步骤1,2步骤3,计算基于熵的度量——信息增益,作为样本划分的根据Gain(age)=0.246Gain(income)=0.029Gain(student)=0.151Gain(credit_rating)=0.048然后,对测试属性每个已知的值,创建一个分支,并以此划分样本,得到第一次划分判定归纳树算法示例(2)判定归纳树算法示例(3)age?overcaststudent?creditrating?noyesfairexcellentyouthseniornonoyesyesyesMiddleaged防止分类中的过分适应产生的决策树会出现过分适应数据的问题由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常对新样本的判定很不精确防止过分适应的两种方法先剪枝:通过提前停止树的构造——如果在一个节点划分样本将导致低于预定义临界值的分裂(e.g.使用信息增益度量)选择一个合适的临界值往往很困难后剪枝:由“完全生长”的树剪去分枝——对于树中的每个非树叶节点,计算该节点上的子树被剪枝可能出现的期望错误率使用一个独立的测试集来评估每颗树的准确率,就能得到具有最小期望错误率的决策树由决策树提取分类规则可以提取决策树表示的知识,并以IF-THEN形式的分类规则表示对从根到树叶的每条路径创建一个规则沿着给定路径上的每个属性-值对形成规则前件(IF部分)的一个合取项叶节点包含类预测,形成规则后件(THEN部分)IF-THEN规则易于理解,尤其树很大时示例:IFage=“youth”ANDstudent=“no”THENbuys_computer=“no”IFage=“youth”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“middle_aged”THENbuys_computer=“yes”IFage=“senior”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“senior”ANDcredit_rating=“fair”THENbuys_computer=“no”可伸缩性与决策归纳树分类挖掘是一个在统计学和机器学习的领域也被广为研究的问题,并提出了很多算法,但是这些算法都是内存驻留的可伸缩性问题:要求以合理的速度对数以百万计的样本和数以百计的属性的进行分类挖掘由大型数据库构造决策树首先将样本划分为子集,每个子集可以放在内存中然后由每个自己构造一颗决策树输出的分类法将每个子集的分类法组合在一起(其他方法包括SLIQ,SPRINT,RainForest等等)贝叶斯分类贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。)()()|()|(DPhPhDPDhP后向传播分类后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。优点预测精度总的来说较高健壮性好,训练样本中包含错误时也可正常工作输出可能是离散值、连续值或者是离散或量化属性的向量值对目标进行分类较快缺点训练(学习)时间长蕴涵在学习的权中的符号含义很难理解很难根专业领域知识相整合SVM—支持向量机使用一种非线性的映射,将原训练数据映射到较高的维一个数据被认为是p维向量,数据在这个p维向量空间中被分为两类;SVM的目的是找到一个p-1维的超平面,来划分p维向量空
本文标题:浙江大学王灿《数据挖掘》课程PPT_分类和预测
链接地址:https://www.777doc.com/doc-3557747 .html