您好,欢迎访问三七文档
第5章数据分类教师:郭荣熙数据仓库与数据挖掘第5章目录引例12分类问题概述决策树3支持向量机4近邻分类方法5小结65.1引例分类是指把数据样本映射到一个事先定义的分类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分类的定义分类问题使用的数据集格式:5.1引例分类问题使用的数据格式描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性;而类别属性必须是离散型属性。连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的,例如属性“age”。离散型属性是指该属性的取值是不连续的,例如属性“salary”和“class”。分类问题使用的数据集格式5.1引例第5章目录引例12分类问题概述决策树3支持向量机4近邻分类方法5小结65.2分类问题概述5.2.1分类的过程5.2.2分类的评价准则5.2.1分类的过程获取数据:输入数据、对数据进行量化。预处理:去除噪声数据、对空缺值进行处理,数据集成或者变换。分类器设计:划分数据集、分类器构造、分类器测试。分类决策:对未知类标号的数据样本进行分类。5.2.2分类的评价准则精确度:代表测试集中被正确分类的数据样本所占的比例查全率:表示在本类样本中被正确分类的样本所占的比例查准率:表示被分类为该类的样本中,真正属于该类的样本所占的比例5.2.2分类的评价准则5.2.2分类的评价准则F-measure:是查全率和查准率的组合表达式β是可以调节的,通常取值为1几何均值:是各个类别的查全率的平方根第5章目录引例12分类问题概述决策树3支持向量机4近邻分类方法5小结65.3决策树5.3.1决策树的基本概念5.3.2决策树算法ID35.3.3ID3算法应用举例5.3.4决策树算法C4.55.3.5SQLServer2005中的决策树应用5.3.6决策树剪枝5.3决策树决策树的优点:进行分类器设计时,决策树分类方法所需时间相对较少决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式可以将决策树中到达每个叶节点的路径转换为IF-THEN形式的分类规则,这种形式更有利于理解5.3.1决策树的基本概念适用于离散值属性、连续值属性采用自顶向下的递归方式产生一个类似于流程图的树结构在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝5.3.1决策树的基本概念5.3.1决策属性的基本概念5.3.2决策树算法ID3ID3只能处理离散型描述属性;在选择根节点和各个内部节点上的分枝属性时,采用信息增益作为度量标准,选择具有最高信息增益的描述属性作为分枝属性。假设nj是数据集X中属于类别Cj的样本数量,则各类别的先验概率为P(Cj)=nj/total,j=1,2,...,m。对于数据集X,计算期望信息计算描述属性Af划分数据集X所得的熵假设Af有q个不同取值,将X划分为q个子集{X1,X2,...,Xq}假设Ns表示Xs中的样本数量,Njs表示Xs中属于类别Cj的样本数量5.3.2决策树算法ID3由描述属性Af划分数据集X所得的熵为计算Af划分数据集时的信息增益ID3算法举例:P114~1165.3.4决策树算分C4.5C4.5算法使用信息增益比来选择分枝属性,克服了ID3算法使用信息增益时偏向于取值较多的属性的不足。C4.5既可以处理离散型描述属性,也可以处理连续型描述属性对于连续值描述属性,C4.5将其转换为离散值属性在{A1c,A2c,...,Atotalc}中生成total-1个分割点第i个分割点的取值设置Vi=(Aic+A(i+1)c)/2每个分割点的取值设置Vi=(Aic+A(i+1)c)/2每个分割点将数据集划分为两个子集挑选最适合的分割点对连续属性离散化5.3.5SQLServer2005中的决策树应用创建AnalysisServices项目创建数据源创建数据源视图创建决策树挖掘结构设置决策树挖掘结构的相关参数建立决策树挖掘模型查看挖掘结果5.3.6决策树剪枝决策树剪枝过程视图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性先剪枝方法:在生成决策树的过程中对树进行剪枝后剪枝方法:在生成决策树之后对树进行剪枝第5章目录引例12分类问题概述决策树3支持向量机4近邻分类方法5小结65.4支持向量机支持向量机的分类示意图为:5.4支持向量机支持向量机使分类间隔最大可以转化为如下的约束优化问题求解约束优化问题,可以得到支持向量机的最优分类函数对于未知类标号的数据样本,可以使用最优分类函数对其进行分类第5章目录引例12分类问题概述决策树3支持向量机4近邻分类方法5小结65.5近邻分类方法近邻分类方法是基于实例的分类方法不需要事先进行分类器的设计直接使用训练集对未知类标号的数据样本进行分类最近邻分类、K-近邻分类5.5近邻分类方法第5章目录引例12分类问题概述决策树3支持向量机4近邻分类方法5小结65.6小结分类问题首先从训练集中得到分类模型,之后对未知类标号的数据样本进行分类。决策树算法采用自顶向下的递归方式产生一个类似于流程图的树结构。决策树算法ID3选择分枝属性的标准是信息增益,并且只能处理描述属性为离散型的数据集;C4.5选择分枝属性的标准是信息增益比,既可以处理离散型描述属性,也可以处理连续型属性。支持向量机将原始特征空间中的非线性分类问题变换为高维特征空间中的线性分类问题,从而在新的空间中求取最优分类超平面。
本文标题:第5章 数据分类
链接地址:https://www.777doc.com/doc-3787672 .html