您好,欢迎访问三七文档
第2章2.1聚类分析概述2.2相似性度量2.3系统聚类2.4K-Means聚类3聚类分析是多元分析的主要方法之一,主要用来对大量的样品或变量进行分类。同一类别内的个体具有尽可能高的同质性。类别之间应具有尽可能高的异质性。聚类的实质根据样品(变量)间的亲疏关系将样品(变量)分为类,相近的归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。聚类分析的一般规则亲疏关系的判别:相似性与距离(不相似性)将相似性较大的点或距离较小的点归为同一类将相似性较小的点或距离较大的点归为不同类根据分类的对象样品/记录聚类(clusteringforcases/individuals)指标/变量聚类(clusteringforvariables)k连续变量和分类变量在聚类时常用的测量方式不同。连续变量一般采用欧氏平方距离分类变量一般用卡方作为距离指标多数传统聚类方法只能使用其中单一各类的变量进行分析数据中如果同时有这两类变量,可考虑只采用连续变量进行分析;或者将分类变量转换成虚拟变量的形式,按照连续变量进行分析区域发展水平:根据经济及社会发展水平把全国各地市(县)分类产品市场细分:按照消费者的需求特征分成不同的细分市场客户分类:银行根据贷款者的收入水平、抵押状况、信用记录对信息,对贷款者的资信分类并给予相应的贷款额度根据分类的方法:系统/层次聚类(hierarchicalclustering)开始将样品/指标各视为一类,根据类与类之间的距离/相似程度,将最相似的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,每合并一次就减少一类,不断重复,直到所有样本/指标都合并为一类。快速/K-均值/动态聚类(k-meansclustering)开始按照一定方法选取一批聚类的中心,让样品向最近的聚心凝聚,然后按最近距离原则不断修改不合理分类,直到合理为止。聚类分析过程基本上与分布理论和显著性检验无关,一般不从样本推断总体。聚类分析可通过将众多个体聚集成几个类别而简化数据,可作为其他多元统计的预备过程。聚类分析主要用于探索性的研究,最终的解需要研究者的主观判断和后续分析。聚类分析的解完全依赖于所选择的聚类变量,增删变量对于聚类解会产生实质性影响。11在聚类分析技术的发展过程中,形成了很多种测度相似性的方法,主要分为三类:相关测度距离测度关联测度应用最广泛的相关测度是皮尔逊相关系数(Pearsoncorrelation),聚类分析中用它来测量案例之间的相似程度。案例变量x1x2x3X4x5125364287788368697432344523232原始数据相关测度更大程度上反映了案例在聚类变量上变化模式的相似性,变量值大小的差异对其影响不大,也被称为形状测度。相关测度的缺点在于忽视了变量值大小的差异,高度相关的两个样本提供的信息可能相差甚远。聚类分析的大部分应用中更重视变量值大小的差异,而不是值的变化模式,以此相关测度在聚类分析中的应用并不普遍。案例123420.0030.970.1440.190.760.1850.87-0.170.91-0.22相关测度:相关系数样品间的亲疏关系通常用距离描述Block距离欧式距离明氏距离切比雪夫距离马氏距离兰氏距离距离的定义:距离测度的出发点是把每个案例看成是m维空间中(m为变量个数)的一个点。在m维空间中定义点与点的距离,距离越近的点,相似程度越高,越可能归为一类。dij满足下列条件dij≥0dii=0dij=djidij≤dik+dkj两样品p个指标值绝对差的总和pkjkikijxxd1)1(21122222211])([)()()(pkjkikjpipjijiijxxxxxxxxd两样品p个指标值之差平方和的平方根x1x2①②x12x22x2x21x21-x2x22-x12212222112121)()(xxxxd欧式距离是最广泛使用的距离指标。jkikpkijxxd1max)(两样品p个指标值绝对差的最大值pkqqjkikijxxd11][111(1)2()maxpijikjkkijikjkkpqdxxqqdxx当,,为绝对距离;当,即为欧氏距离;当,,称为切比雪夫(Chebychey)距离两样品p个指标值绝对差的q次幂总和的q次方根各指标同等对待(权数相同),不能反映各指标变异程度上的差异距离的大小与各指标的观测单位有关,有时会出现不合理结果没有考虑指标之间的相关性当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据计算距离。阵维随机向量的协方差矩为其中p)()(1'2jijiijdXXXX马氏距离既排除了各指标间相关性的干扰,并不受各指标量纲的影响。和相关测度不同,距离测度更侧重于变量值的大小,不考虑案例在聚类上的变化模式,认为靠得近的案例为相似案例案例123428.7237.212.8343.749.909.3854.242.7510.862.83距离测度:欧式距离按照距离越近,相似度越高的原则,2和3归为一类,1、4、5归为一类。关联测度用于度量聚类变量为分类变量的相似性。简单匹配系数对于二分类变量,关联测度是要估计研究对象在回答这些问题时的一致程度。简单匹配系数是两个案例在所有聚类变量上答案相同的情况出现的频率。雅科比系数(Jaccard’sCoefficient)对简单匹配系数的改进,同样适用于二分类变量案例2案例1101ab0cd简单匹配系数可表示为:𝑺=𝒂+𝒅𝒂+𝒃+𝒄+𝒅雅科比系数可表示为:𝑺=𝒂𝒂+𝒃+𝒄对于定距或定比变量:欧氏距离(Euclidean)欧氏平方距离(SquaredEuclidean)变量矢量的余弦(Cosine)皮尔逊相关距离(Pearson)切比雪夫距离(Chebychev)绝对距离(Block)明氏距离(Minkowski)设定距离(Customized,距离是一个绝对幂的度量,即变量绝对值的第p次幂值和的第r次根)28系统聚类也叫谱系聚类,一般用于待分类的个体(变量)数比较小的情况。可分为聚集法和分割法。聚集法:把每一个案各看成一类,将最“靠近”(距离最小或相似系数最大)的点首先聚类,然后逐步合并,直到合为一大类分割法:把所有个案看成一类,然后把最不相似的分为两类,直到把每个个案都分成一类聚集法比分割法更常用。聚集法与分割法图示类与类间的距离最长距离最短距离重心距离最近邻元素也叫最短距离法。类与类之间的距离是两类间两两样品间的最短距离。最远邻元素也叫最长距离法。类与类之间的距离是两类间两两样品间的最长距离。中位数聚类法计算两类之间所有配对观测的距离,取距离的中位数代表类的距离。最短距离法易造成链接聚合,形成一个大类。最长距离法会加大合并后的类与其他类的距离。两种方法都只用到部分观测,受极端值影响大。不常用组间联接法在计算距离时只考虑两类之间样品之间距离的平均组内联接法在计算距离时把两组所有样品之间的距离都考虑在内。组间联接与组内联接都属于平均距离法,聚类时用到了全部的观测点,是常用的系统聚类方法。质心聚类法类与类间的距离用各自重心间的欧式距离表示。离差平方和法(Ward法)其分类思想和方差分析类似。即在分类的过程中,使类内元素间的变差平方和尽可能小,而类间元素的变差平方和尽可能大。质心聚类法对类别有较好的代表性,但并未充分利用各样本的信息。离差平方和法的分类效果较好,常用。数据“国民经济数据.sav”选取了2002年中国31个省市的国民经济数据,要求运用系统聚类方法对地区差异进行研究。(一)数据的初步分析(变量的描述统计)描述统计结果表明变量之间存在很大的量纲差异,聚类分析前首先应对数据进行标准化处理。(二)层次聚类分析1、分析——分类——系统聚类选入要聚类的变量标签变量,通常为定类变量聚类方式(二)层次聚类分析1、分析——分类——系统聚类聚类方法:本例采用离差平方和法距离测量方法:本例采用欧氏平方距离将变量标准化输出聚类方案结果(二)层次聚类分析分析——分类——系统聚类绘制选项卡:用于输出树状图和冰柱图保存选项卡:用于保存聚类数为3-8类情况下各省市所属的类。表1:聚类过程聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集213(河北)17(湖北).1110022312(安徽).2461015357.407004---------------------241228.4120026254532.928211927261941.666240282742854.441252029281268.972262230293487.7572327303013150.000282903此时代表3、17两条记录组成的类别,因此第2步是3、17、12三条纪录合并第1步:3、17两条纪录合并。聚类过程的步骤号表1:聚类过程聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集213(河北)17(湖北).1110022312(安徽).2461015357.407004---------------------241228.4120026254532.928211927261941.666240282742854.441252029281268.972262230293487.7572327303013150.00028290表示参与合并的类别在第几步中第一次出现。0表示该记录第一次出现在聚类过程中。纪录1在第24步中第一次出现。纪录9在本步(第26步)第一次出现。表示在这一步中合并的类别,下一次将在第几步中与其他类合并。记录1和记录2将在第26步中参与合并。表1:聚类过程聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集213(河北)17(湖北).1110022312(安徽).2461015357.407004---------------------241228.4120026254532.928211927261941.666240282742854.441252029281268.972262230293487.7572327303013150.00028290聚类系数表示被合并类别间的距离大小聚类系数可以根据该系数的变化来判断数据应该被分成多少类。当两个相邻步骤系数变化远大于前面相邻步骤变化时,便可以大致确定从统计意义上讲,应该将聚类过程进行到那里的类别数是较为合适的。第25步和第26步之间系数差距出现大的变化。从而可以大致认为聚类过程结束于第26步是合理的。群集成员案例8群集7群集6群集5群集4群集3群集1:北京1111112:天津2111113:河北3222224:山西4333335:内蒙古5433336:辽宁5433337:吉林54333312:安徽32222213:福建76544114:江西43333315:山东32222216:河南32222217:湖北32222218:湖南32222219:广东76544120:广西54333329:青海87653330:宁夏87653331:新疆876533表2聚类方案图1冰柱图纵轴表示分类的个数如果选择五类,则高度小于5个4个冰柱将记录分成五类。横轴表示各类别之间的相对距离大小。图2:树状图划分类别:从右往左,竖线断开。分成三类分类数的确定确定分类数是聚类分析迄今尚未完全解决的问题之一。实际中主要根据研究的目的和需要,选择合适的分类数图2:树状图分成六类如果分成五类,北京、天津和上海在聚类过程中首先合并,可归为一类。Demirmen曾提出了根据树状结构图来分类的准则:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。各类所包含的元素都不要过分地多。分类的数目应该符合使用目的。若采用几种不同的聚类方法处理,则在各自的聚类
本文标题:第2章 聚类分析
链接地址:https://www.777doc.com/doc-4296553 .html