您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 聚类分析的SPSS实现.
用SPSS作聚类分析以经济效益数据为例,用聚类分析法对各省市作分类(见spssex-4/全国各省市经济效益数据)以城镇居民消费资料为例,用聚类分析法对各省市作分类(见spssex-4/城镇居民消费支出资料)SPSS中的聚类分析Spss中的聚类功能常用的有两种:快速聚类(迭代过程):K-MeansCluster系统聚类:HierarchicalCluster一、HierarchicalCluster聚类系统聚类由两种方法:分解法和凝聚法。系统聚类的功能:即可进行样品的聚类,也可进行变量的聚类。系统聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。系统聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。系统聚类见(一)聚类方法见(二)各种距离和相似系数Method聚类方法标准化变换亲疏关系指标(一)聚类方法1.Between-groupslinkage类间平均法两类距离为两类元素两两之间平均平方距离2.Within-groupslinkage类内平均法两类距离为合并后类中可能元素两两之间平均平方距离3.Nearestneighbor最短距离法4.Furthestneighbor最长距离法5.Centroidclustering重心法(欧式距离)6.Medianclustering中间距离法(欧式距离)7.WardMethod离差平方法(欧式距离)1.squaredeuclideandistance平方欧式距离2.euclideandistance欧式距离3.cosine夹角余弦(R型)4.pearsoncorrelation皮尔逊相关系数(R)5.chebychev切比雪夫距离iyxyxdii2,iyxyxdii2,yxMaxyxdiii,(二)各种距离和相似系数(亲疏关系指标)6.block绝对值距离7.minkowski明考斯基8.customizediiiqyxyxdq1,iiiqyxyxdr1,iyxyxdii,Statistics聚类进度表相似矩阵样品或变量的分类情况AgglomerationSchedule38.4660041415.82400109161.583007351.6041096122.05400117132.5220099113.03930134104.1360010374.24546124144.9248212265.4600514347.14291013397.52012714239.6151113151212.7340140Stage123456789101112131415Cluster1Cluster2ClusterCombinedCoefficientsCluster1Cluster2StageClusterFirstAppearsNextStage凝聚状态表的第一列表示聚类分析的第几步;第二列、第三列表示本步聚类中哪两个样本或小类聚成一类;第四列是相应的样本距离或小类距离;第五列、第六列表明本步聚类中,参与聚类的是样本还是小类。0表示样本,数字n(非0)表示由第n步聚类产生的小类参与本步聚类;第七列表示本步聚类的结果将在下面聚类的第几步中用到。Plot树状结构图冰柱图冰柱的方向NumberofclustersCaseX7X5X4X3X6X8X2X11XXXXXXXXXXXXXXX2XXXXXXXXXXXXXX3XXXXXXXXXXXXX4XXXXXXXXXXXX5XXXXXXXXXXX6XXXXXXXXXX7XXXXXXXXXVerticalIcicle67冰柱图因其样子非常象冬天房顶垂下的冰柱得名,它以图形的方式显示层次聚类分析结果,一般从冰柱图的最后一行开始观察,第一列表示类数。两样品之间的“х”表示将其两边的样品(类)联结起来聚成新类。应用举例:4-1首先对表4-1中的原始数据进行标准化变换处理,经过运算使数据标准化得到表4-2,使它的每列数据的平均值为0,方差为1,这样表4-1中5列具有不同量纲、不同数量级的数据不同地区数据求出欧氏距离。就能放在一起比较;其次用表4-2中经过标准化处理后的30个表4-1表4-2K-MeansCluster聚类K-MeansCluster原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。K-MeansCluster聚类过程由Analyze——Classify——K-MeansCluster将个变量放入Variable;输入最后聚类的个数;例饮料数据(spssex/drink.sav)•16种饮料的热量、咖啡因、钠及价格四种变量快速聚类选项读写凝聚点人为固定分类数ANOVA表,初始凝聚点等快速聚类法的聚类数由用户指定,分类是唯一的。1.分类数:如希望聚成K类2.聚类方法:method:iterateandclussify(聚类分析的clussifyonly(聚类分析过程类中心3.聚类中心:centers4.迭代次数:iterate5.保存分类结果:save每一步都重新计算新的类中心点)点始终为初始类中心点,仅作一次迭代)InitialClusterCenters207.20146.7095.90.003.304.30.004.2015.509.708.5013.102.801.801.302.20CALORIECAFFEINESODIUMPRICE1234ClusterInitialClusterCenter:快速聚类的初始类中心点(本例由系统自行指定四个类的初始类中心点)指定聚成四类IterationHistorya5.06512.53212.27525.901.0005.2131.3974.127.0005.6315.725.000.000.000.000.000Iteration12341234ChangeinClusterCentersConvergenceachievedduetonoorsmallchangeinclustercenters.Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis4.Theminimumdistancebetweeninitialcentersis50.998.a.IterationHistory:快速聚类的迭代步骤在迭代过程中,完成第一次迭代后形成的四个新类中心点距初始类中心点的欧氏距离分别为5.065、12.532、12.275、25.901。第四次迭代后形成的四个新类中心点几乎与上次确定的中心点没有差别。经过四次迭代,快速聚类完成。FinalClusterCenters203.10123.5578.7029.731.653.273.384.4813.058.6010.139.473.153.402.282.78CALORIECAFFEINESODIUMPRICE1234Cluster快速聚类的最终类中心点ClusterMembership15.06548.00037.83448.23122.115310.469223.254321.417317.63015.065420.637413.57249.011429.96225.200216.893CaseNumber12345678910111213141516ClusterDistanceNumberofCasesineachCluster2.0004.0004.0006.00016.000.0001234ClusterValidMissingNumberofCasesineachCluster:快速聚类的最终结果快速聚类的类成员情况各样本距其所在的类中心的欧氏距离各类中的成员数
本文标题:聚类分析的SPSS实现.
链接地址:https://www.777doc.com/doc-2047105 .html