第五章：分类8

数据挖掘第五章：分类本章内容5.1分类的定义与基本问题5.2分类的性能评测5.3决策树5.4贝叶斯分类5.5k-nearestneighbor(k-NN)算法5.6其它分类问题基本要求：掌握分类的定义、模型、评价指标等问题，掌握决策树、贝叶斯分类中的典型分类方法5.1分类的定义与基本问题分类预测分类的类标签基于训练数据和类标签构造一个模型，并分类新数据数值预测：建连续值函数/模型,预测未知/缺失值典型应用信用卡/贷款审批:医疗诊断:肿瘤是癌或良性？欺诈检测:交易欺诈?网页分类5.1分类的定义与基本问题有监督学习(supervisedlearning)监督：训练数据(观察，测量等)都带有标签，指示数据的类别根据训练集分类新数据无监督学习(unsupervisedlearning)训练集的类别(标签)未知给定一个观察，测量等的集合，目标是建立数据中存在的数据的类或簇5.1分类的定义与基本问题Supervisedy=F(x):truefunctionD:labeledtrainingsetD:{xi,F(xi)}Learn:G(x):modeltrainedtopredictlabelsDGoal:E[(F(x)-G(x))2]0Welldefinedcriteria:Accuracy,RMSE,...UnsupervisedGenerator:truemodelD:unlabeleddatasampleD:{xi}Learn??????????Goal:??????????Welldefinedcriteria:??????????5.1分类的定义与基本问题分类:一个两步的过程模型构建:描述一组预先定义的类•假定每个元组/样本属于一个类,由类标签属性设定•用于构建模型的元组集合称为训练集trainingset•模型可以表示为分类规则,决策树,数学公式模型使用:分类将来/未知对象•估计模型的准确率：比较测试样本的已知标签/由模型预测(得到)标签•测试集：独立于训练集的样本(避免过分拟合overfitting?)•准确率：测试样本集中模型正确预测/分类的样本的比率•如果准确率合时，使用模型来分类标签为未知的样本基本假设：I.I.D假设。Dataareindependentandidenticallydistributed。词袋模型与股票收益率5.1分类的定义与基本问题学习阶段：利用分类算法通过分析训练数据集来构造分类模型AgeCarTypeRisk20CombiHigh18SportsHigh40SportsHigh50FamilyLow35MinivanLow30CombiHigh32FamilyLow40CombiLowtrainingdataClassificationalgorithmClassifier(model)ifage31orCarType=SportsthenRisk=High5.1分类的定义与基本问题测试阶段：利用检验数据评估分类模型的准确率，如果准确率可以接受，则可用于新数据的分类AgeCarTypeRisk27SportsHigh34FamilyLow66FamilyHigh44SportsHighTestdataClassifier(model)RiskHighLowLowHigh5.1分类的定义与基本问题AgeCarTypeRisk27Sports34Minivan55Family34SportsNewdataClassifier(model)RiskHighLowLowHigh分类阶段：利用模型预测新数据的类标签类标签未知应用举例1：文本分类BOW模型应用举例2：不良内容识别利用皮肤（文理）、姿态等特征应用举例3：语义关系识别DataStructureGraphComputeralgorithmSearchalgorithmBinarysearchBeamsearchBest-firstsearch……SortingalgorithmComparisonsortCountingsortFlashsort……In-placealgorithm……TreeUndirectedgraphRegulargraphCompletegraph……DirectedgraphWeightedgraphPlanargraphHypergraph……B-TreeBinaryTreeMVPTree……TrieHeapT-treeR-TreeDirectedacyclicgraph……TransposegraphBinaryheap……2-3heap……应用举例4：学习依赖关系三角形的定义三角形内角和定理内角和的定义外角和的定义三角形外角和定理学习依赖关系知识单元：具有独立知识表达的最小知识对象需要研究如何从文本中自动挖掘出知识单元之间的学习依赖关系。主要挑战标注瓶颈特征选择（短文本、语义鸿沟…）非平衡多标签分类多类分类多层分类本章内容5.1分类的定义与基本问题5.2分类的性能评测5.3决策树5.4贝叶斯分类5.5k-nearestneighbor(k-NN)算法5.7其它分类问题5.2分类的性能评测评价指标:怎样度量准确率?估计分类器准确率的方法:Holdoutmethod,randomsubsampling交叉验证Cross-validation自助法BootstrapComparingclassifiers:置信区间Confidenceintervals代价效益分析(Cost-benefitanalysis)和ROC曲线5.2分类的性能评测Holdoutmethod给定数据随机分成两个部分•训练集(e.g.,2/3)用于模型构造,测试集(e.g.,1/3)用于正确率估计DivideDintoD1andD2UseD1toconstructtheclassifierdThenestimateR(d,D2)tocalculatetheestimatedmisclassificationerrorofd•Unbiasedandefficient,butremovesD2fromtrainingdatasetD随机抽样:avariationofholdout•重复holdoutk次,accuracy=所有正确率的平均值5.2分类的性能评测Cross-validation(k-fold,k=10最常用)随机分割数据为k互不相交的子集,每一个大小近似相等在i-th迭代中,使用Di为测试集其他的为训练集步骤：1.ConstructclassifierdfromD2.PartitionDintoVdatasetsD1,…,DV3.ConstructclassifierdiusingD\Di4.CalculatetheestimatedmisclassificationerrorR(di,Di)ofdiusingtestsampleDi5.Finalmisclassificationestimate:Weightedcombinationofindividualmisclassificationerrors5.2分类的性能评测dd1d2d35.2分类的性能评测混淆矩阵ConfusionMatrix:感兴趣的类定为“正类”，对应的为“负类”正样本/负样本Actualclass\PredictedclassC1¬C1C1TruePositives(TP)FalseNegatives(FN)¬C1FalsePositives(FP)TrueNegatives(TN)Actualclass\Predictedclassbuy_computer=yesbuy_computer=noTotalbuy_computer=yes6954467000buy_computer=no41225883000Total73662634100005.5分类的性能评测准确度,误差率分类器准确度,or识别率:测试元组被正确识别的比例Accuracy=(TP+TN)/All误差率:1–accuracy,or(FP+FN)/AllClassImbalanceProblem类分布不平衡问题:Oneclassmayberare,e.g.fraud,orHIV-positiveA\PC¬CCTPFNP¬CFPTNNP’N’All5.5分类的性能评测PrecisionandRecall,andF-measuresPrecision:精度–被分类器标记为正类的样本中实际上属于“正类”的比例Recall:召回率–what%ofpositivetuplesdidtheclassifierlabelaspositive?精度和召回率逆关系Fmeasure(F1orF-score):精度和召回的调和平均值•Fß:精确度和召回率的加权量•assignsßtimesasmuchweighttorecallastoprecision5.2分类的性能评测分类器评价指标:例子真实类\预测类cancer=yescancer=noTotalRecognition(%)cancer=yes9021030030.00cancer=no1409560970098.56Total230977010000Precision=?Recall=?Accuracy=?本章内容5.1分类的定义与基本问题5.2分类的性能评测5.3决策树5.4贝叶斯分类5.5k-nearestneighbor(k-NN)算法5.6其它分类问题5.2决策树ageincomestudent信誉购买计算机=30highnofairno=30highnoexcellentno31…40highnofairyes40mediumnofairyes40lowyesfairyes40lowyesexcellentno31…40lowyesexcellentyes=30mediumnofairno=30lowyesfairyes40mediumyesfairyes=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes40mediumnoexcellentnoage?overcaststudent?creditrating?=3040noyesyesyes31..40fairexcellentyesno决策树:通过把实例从根节点排列到叶子节点来分类实例叶子节点即为实例所属的分类树中节点是对某个属性的测试每一个后继分支对应于该属性的一个可能值。5.2决策树决策树:通过把实例从根节点排列到叶子节点来分类实例叶子节点即为实例所属的分类树中节点是对某个属性的测试每一个后继分支对应于该属性的一个可能值。5.2决策树决策树:通过把实例从根节点排列到叶子节点来分类实例5.2决策树决策树基本算法(贪婪算法)自顶向下、递归、分治的构建方式•开始，所有的训练样本位于根节点•属性是分类属性(若是连续值,事先离散化)•基于选择的属性，样本被递归地分割•基于启发式/统计测来选择测试属性(例如信息增益)终止划分的条件一个给定节点的所有样本属于一个类别没有属性剩下用于进一步划分–运用多数投票来标记此节点没有样本剩下5.2决策树MakeTree(TrainingDataD){Partition(D)}Partition(DataS){if(allpointsinDareinthesameclass)thenreturnforeachattributeAdoevaluatesplitsonattributeA;usebestsplitfoundtopartitionSintoS1andS2Partition(S1)Partition(S2)}5.2决策树属性选择度量分裂规则，决定给定节点上的样

第五章：分类8

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

保定市水资办信息化建议书

房地产卖点分析

佳兆业集团批量精装修工程施工作业指引

汽车发动机习题

SystemVerilogAssertions(SVA)简介_信息与通信_工程

参考使用酒店

××太阳能热水器有限公司记录表格-doc55

【企业文化讲堂：没有文化的企业是“愚蠢”的企业】（DOC 53页）

很多人模式经营项目计划草案

经理人员能力考核表（DOC 1页）

相关文档

相关搜索