您好,欢迎访问三七文档
聚类1第六章聚类分析(教材第七章)教学目的和要求:通过本章的学习,要求学生加深理解和掌握聚类分析方法,并灵活运用SAS过程步进行案例分析。教学重点:系统聚类法教学难点:确定类的个数教学方法:教师讲授为主,学生课堂实验为辅教学主要内容:1、系统聚类法应用;2、动态聚类法应用;3、SASClUSTER过程、TREE过程及输出结果的分析;4、判别分析与聚类分析的区别聚类2第六章聚类分析聚类分析是研究对样品或指标进行分类的一种多元统计分析方法.•对样品的聚类称为Q型聚类.•对指标(变量)的聚类称为R型聚类.可利用的SAS过程步:•CLUSTER过程(系统聚类过程)•FASTCLUS过程(快速聚类过程)•MODECLUS过程(非参数聚类过程)•VARCLUS过程(变量聚类过程)•TREE过程(画树状图过程)•ACECLUS过程(数据的预处理过程)聚类3聚类分析与判别分析的主要差别:已知条件不同。判别分析事先有类,并具有来自不同类的若干样品。聚类分析只有待分类的若干样品及其指标值分析目的不同。判别分析目的是将一些待判的样品归入已知的类中,而聚类分析事先并没有类,目的正是根据样品的数据特征确定分类数目、建立一种分类规则,并按规则对样品给出合理的分类.分析方法不同。判别分析根据已知样品建立判别函数和判别准则,并据此对待判样品进行分类。聚类分析是根据样品或指标之间的“相似”程度直接对样品或指标进行分类。分析结果不同。判别分析的结果是把待判样品归入某一类.聚类分析是把样品或指标分成事先并没有的类.聚类4聚类过程涉及到的两个问题:•选定聚类方法.不同的聚类方法,得到的聚类结果往往不同.1.系统聚类法(最常用的聚类方法).2.调优法.3.最优分割法.4.模糊聚类法.5.图论聚类法.6.聚类预报法.•类数的确定.1.通过临界值来确定类的个数.(根据聚类图及经验和应用目的研究者主观上给定的数)2.根据样品的散点图直观地确定类的个数.3.根据样本统计量R2,伪F统计量,半偏R2统计量,伪t2统计量等确定类的个数.聚类5确定分类个数的准则(Bemirmen—1972年)A:各类重心之间距离必须很大B:确定的类中,各类所包含的元素都不要太多C:类的个数必须符合实用目的D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类.唯一正确的分类方法?没有!聚类6CLUSTER过程主要功能1.提供11种Q型系统聚类方法.2.样品数据可以是原始坐标型,也可以是距离型,还可以是属性数据.3.提供用于确定类的个数的统计量,用户可根据这些统计量值的变化来确定类的个数.4.聚类分析输出的数据集可以用于画谱系聚类图.(聚类图可以为确定类的个数提供直观的依据)聚类7CLUSTER过程提供的11种Q型系统聚类方法名:1.Average(类平均法)2.Centroid(重心法)3.Complete(最长距离法)4.Density(密度估计法)5.EML(最大似然谱系聚类法)6.Flexible(可变类平均法)7.Mcquitty(McQuitty相似分析方法)8.Median(中间距离法)9.Single(最短距离法)10.Twostage(两阶段密度估计法)11.Ward(Ward法或离差平方和法)聚类8CLUSTER过程的一般形式Procclustermethod=系统聚类方法名选项;var用于分析的数值型变量;id要代替观测号的变量名;其它语句;Run;选项:Data=数据集名Outtree=数据集名(生成纪录聚类过程的输出数据集,作为Tree过程输入数据集)Pseudo输出伪F统计量和伪t2统计量Rsqare输出R2和半偏R2STD对变量进行标准化聚类9TREE过程主要功能•用由CLUSTER过程或VARCLUS过程产生的数据集来画树状图;•根据用户的要求输出各个观测所属类别的输出集.几个术语:树根—包含全体对象的类树枝—至少含有两个对象但不是全体对象的类树叶—聚类的每个对象节点—如果类B和类C合并为A(或者类A分裂为类B和类C),称类A是类B和类C的节点,一般地,树根、树枝和树叶都是节点父辈子辈—若类B和类C合并为类A,称类A是类B和类C的父辈,而类B和类C是类A的子辈.根是没有父辈的节点,叶是没有子辈的节点二元树—如果每一类至多有两个子辈,这个树称为二元树.CLUSTER过程总是生成二元树聚类10TREE过程的一般格式Proctree选项;name识别每个观测代表的节的变量名;copy列出复制到out=数据集中的变量名;id在树状图中识别个体的变量名;其它语句;Run;选项Data=数据集名HORIZONTAL树状图的取向为水平方向GRAPHICS画出高分辨率的图Out=输出数据集名其中有新变量Cluster(类号)和Clusname(类名)N=整数规定在OUT=的数据集中所希望的类个数聚类11案例7.1我国16个地区(Diqu)农民1982年支出情况的分类在文件nong82.txt中有抽样调查的汇总资料,数据是反映每人平均生活消费支出情况的六个指标:食品(X1),衣着(X2),燃料(X3),住房(X4),生活用品及其他(X5),文化生活服务支出(X6).试用以下几个系统聚类方法对16个地区支出情况进行分类.1.用类平均法.对数据作标准化变换,输出伪F、伪t2、R2及偏R2统计量,并画出谱系聚类图(观测号用地区名来替换).2.用中间距离法.对数据作标准化变换,输出伪F、伪t2、R2及偏R2统计量,并画出谱系聚类图(观测号用地区名来替换).3.用Ward法.对数据作标准化变换,输出伪F、伪t2、R2及偏R2统计量.综合以上两个方法指定类的个数,画出谱系聚类图,并输出包含新变量Cluster和Clusname以及原变量X1-X6的数据集(打印此数据集,并查看有哪些变量).4.用Ward法对16个地区的分类结果打印输出(观测号用地区名来替换),并按类别计算6个指标的均值,并比较.5.在文件nong04.txt中有2004年汇总资料。用Ward法分类后比较两年的用Ward法分类结果,有哪些变化?聚类121.用类平均法.对数据作标准化变换,输出伪F、伪t2、R2及偏R2统计量,并画出谱系聚类图(观测号用地区名来替换).datanong82;infile'E:timeseries\data\nong82.txt'firstobs=2;inputdiqu$X1-X6@@;run;procclusterdata=nong82method=avestdpseudorsqareouttree=Anong82;varx1-x6;iddiqu;run;proctreedata=Anong82horizontalgraphics;title'method=ave';run;程序说明:method=ave类平均法Std标准化变换Pseudo伪F、伪t2统计量RsqareR2及偏R2统计量iddiqu;观测号用地区名来替换聚类136个聚类变量的特征值信息AverageLinkageClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13.509942.102210.5849900.5849921.407730.842610.2346220.8196130.565130.192640.0941880.9138040.372480.266810.0620810.9758850.105680.066640.0176130.9934960.03904.0.0065061.00000Thedatahavebeenstandardizedtomean0andvariance1Root-Mean-SquareTotal-SampleStandardDeviation=1Root-Mean-SquareDistanceBetweenObservations=3.464102聚类14类平均聚类法的并类过程及统计量NormalizedRMSNCL-ClustersJoined-FREQSPRSQRSQPSFPSt2DistanceTie15安徽福建20.0023800.99762029.93.0.18896314河北河南20.0051860.99243420.18.0.27890813CL14山西30.0064290.98600417.611.240.30294612江苏CL1530.0088750.97712915.543.730.32980411CL13内蒙40.0104830.96664614.491.810.36587810天津山东20.0090490.95759815.06.0.3684189CL12江西40.0126190.94497915.032.240.3928438CL10浙江30.0181210.92685814.482.000.4876437黑龙江CL950.0225710.90428714.172.840.5063286辽宁吉林20.0178860.88640115.61.0.5179675CL8CL650.0470900.83931114.363.140.6552174CL5CL7100.1366340.7026779.457.890.7859953CL4CL11140.2005680.5021096.568.090.8799682北京上海20.0546310.44747911.34.0.9052391CL2CL3160.4474790.000000.11.341.545755聚类15依据统计量确定类数:•R2(RSQ)越大越分开.通常随着分类个数NCL减少,R2逐渐减少,而当某步的R2值突然下降较多,则前一步的聚类效果较好.因为从NCL=4到NCL=3和从NCL=2到NCL=1时下降较多,所以分4类或2类较合适.•半偏R2(SPRSQ)越大越分开.某步的半偏R2值越大说明前一步的聚类效果较好.在NCL=1,3,4时,半偏R2值最大,分2类,4类或5类较合适.•伪F(PSF)统计量.伪F值越大的步聚类效果越好.NCL=2,5,6时,伪F值较大,分2类,5类或6类较合适.•伪t2(PSt2)统计量.某步的伪t2值越大说明前一步的聚类效果较好.NCL=1,3,4时,伪t2值较大,分2类,4类或5类较合适.归纳以上结果:分成4类或5类比较好。聚类16类平均聚类法的谱系聚类图根据谱系聚类图考虑的话,分4类或5类较合适.聚类172.用中间距离法.对数据作标准化变换,输出伪F、伪t2、R2及偏R2统计量,并画出谱系聚类图(观测号用地区名来替换).procclusterdata=nong82method=medstdpseudorsqareouttree=Mnong82;varx1-x6;iddiqu;run;proctreedata=Mnong82horizontalgraphics;title'method=ave';run;聚类18中间距离法的谱系聚类图聚类19聚类203.用Ward法.对数据作标准化变换,输出伪F、伪t2、R2及偏R2统计量.综合以上两个方法指定类的个数,画出谱系聚类图,并输出包含新变量Cluster和Clusname以及原变量diqu和X1-X6的数据集(打印此数据集,并查看有哪些变量).procclusterdata=nong82method=Wardstdpseudorsqareouttree=Wnong82;varx1-x6;iddiqu;run;proctreedata=Wnong82N=5horizontalgraphicsOUT=TWnong82;copydiquX1-X6;title'method=Ward';run;procprintdata=TWnong82;run;程序说明:N=5指定类个数OUT=Twnong82输出新变量Cluster和ClusnamecopyX1-X6;在输出数据集Twnong82中包含变量di
本文标题:第六章聚类分析
链接地址:https://www.777doc.com/doc-5012556 .html