您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第九章-SPSS的聚类分析
第九章SPSS的聚类分析聚类分析概述•概念:–聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.–例如:细分市场、消费行为划分•聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.聚类分析概述编号购物环境服务质量A7368B6669C8482D9188E9490•两类:(AB)(CDE)三类:(AB)(C)(DE)依据平均得分的差距,差距较小的为一类.分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.•亲疏远程度的衡量指标–相似性:数据间相似程度的度量–距离:数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类•定距型个体间的距离:把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据•欧氏距离(EUCLID)•平方欧氏距离(SEUCLID)kiiiyxyxEUCLID12)(),(聚类分析概述•个体距离矩阵定距型个体间的距离聚类分析概述ProximityMatrix.0008.06217.80426.90730.4148.062.00025.45634.65538.21017.80425.456.0009.22012.80626.90734.6559.220.0003.60630.41438.21012.8063.606.000Case1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦EuclideanDistanceThisisadissimilaritymatrix品质型个体间的距离姓名授课方式上机时间选某门课程张三111李四110王五001聚类分析概述•品质型个体间的距离–简单匹配(simplematching)系数:适用二值变量。dcbacbjid),(•个体j•个体i•10•1ab•0cd•a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数•特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。聚类分析概述品质型个体间的距离简单匹配(simplematching)系数:适用二值变量。•姓名授课方式上机时间选某门课程•张三111•李四110•王五001•(张三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3•(张三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3•张三距李四近聚类分析概述•品质型个体间的距离–根据临床表现研究病人是否有类似的病•姓名性别发烧咳嗽检查1检查2检查3检查4•张三男101000•李四女101010•王五男110000•……..聚类分析概述•品质型个体间的距离–雅科比(Jaccard)系数:适用二值变量cbacbjiJ),(•个体j•个体i•10•1ab•0cd•a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数•特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化聚类分析概述品质型个体间的距离雅科比(Jaccard)系数:适用二值变量•姓名授课方式上机时间选某门课程•张三1(0)1(0)1(0)•李四1(0)1(0)0(1)•王五0(1)0(1)1(0)•(张三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3•(张三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)•(张三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3•(张三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)•聚类分析概述•品质型个体间的距离–Jaccard系数举例:根据临床表现研究病人是否有类似的病•姓名性别发烧咳嗽检查1检查2检查3检查4•张三男101000•李四女101010•王五男110000•……..33.010210),(李四张三d67.010111),(王五张三d75.021121),(王五李四d•结论:张三和李四最有可能得类似的病;李四和王五不太有可能聚类分析概述品质型个体间的距离–卡方距离:计数变量•聚类分析概述姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计171293812.4)5.4)5.45(6)66(5.8)5.88()5.4)5.44(6)66(5.8)5.89((222222•说明–聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如:样本的欧氏距离元万元(1,2)26500081.623(1,3)218000193.700(2,3)47000254.897样本号社科活动人员数(人)研究与发展年投入经费(元)研究与发展课题数(项)1410438000019233617300002134902200008聚类分析概述聚类分析概述说明聚类分析中的变量选择问题–变量应和聚类分析的目标密切相关(如;学校科研能力的评价。如:科研经费项目获奖人数办学性质)–聚类结果仅是所选定变量所具数据特点的反应.–变量之间不应具有高度相关性,否则相当于给这些变量进行了加权聚类分析包括:个案聚类和变量聚类两种。聚类分析包括:分层聚类和快速聚类分层聚类•思路:聚类过程具有一定的层次性•以合并(凝聚)的方式聚类(SPSS采用)–首先,每个个体自成一类–其次,将最“亲密”的个体聚成一小类–然后,将最“亲密”的小类或个体再聚成一类–重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止–可见,随着聚类的进行,类内的“亲密”性在逐渐减低分层聚类•思路•以分解的方式聚类–首先,所有个体都属于一类–其次,将大类中最“疏远”的小类或个体分离出去–然后,分别将小类中最“疏远”的小类或个体再分离出去–重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止–可见,随着聚类的进行,类内的亲密性在逐渐增强分层聚类•“亲疏”程度的衡量对象–个体间距离–个体和小类间、小类和小类间的距离分层聚类•个体和小类、类和类间的距离–最短距离法(nearestneighbor):•两类间的距离定义为两类中距离最近的两个个案之间的距离–最长距离法(furthestneighbor):•两类间的距离定义为两类中距离最远的两个个案之间的距离–平均链锁法(within-groupslinkage)•两类之间的距离定义为两类个案之间距离的平均值。包括:•组间平均链锁法(between-groupslinkage):只考虑两类间个案的距离•组内平均链锁法(With-groupslinage):考虑所有个案间的距离分层聚类•基本操作步骤1.基本操作A.菜单选项:analyze-classify-hierachicalclusterB.选择参与聚类分析的变量入variables框C.选择一字符型变量作为个案的标记变量(labelcases)D.选择个案聚类还是变量聚类分层聚类•基本操作步骤2.选择距离计算方法(method选项)•clustermethod:计算类间距离的方法•measure:计算样本距离的方法•transformvalues:对数据进行标准化处理–byvariable:以变量为单位标准化,适于个案聚类–bycase:对个案为单位标准化,适于变量聚类分层聚类•进一步的工作1.数据输出(statistics选项)•agglomerationschedule:凝聚状态表(默认)•distancematrix:样本的距离矩阵•clustermembership:类成员–none:不输出类成员(默认)–singlesolution:聚成n类时各样本的归属–rangeofsolutions:聚成m~n类时各样本的归属(mn总样本数)分层聚类•进一步的工作2.图形输出(plot选项)•dendrogram:树型图•icicle:冰柱图–allcluster:聚类的每一步均在冰柱图中体现–specifiedrangeofclusters:将聚类的第n1类开始到第n2类结束,间隔n3类的聚类分析过程在冰柱图中体现•orientation:冰柱图的方向–vertical:纵向;–horizontal:横向分层聚类•进一步的工作3.结果保存(save选项)•singlesolution:生成一新变量存储在聚成n类时各样本属于哪一类(cluN_M:N为聚类数,M为第几次做的)•rangeofsolutions:生成若干个变量分别存放聚成n~m类时各样本的归属情况分层聚类•聚类数目的确定–聚类数目确定尚无统一标准,一般原则:•各类所包含的元素都不应过多•分类数目应符合分析的目的–分层聚类中可以将类间距离作为确定类数目的辅助工具•SPSS中,聚类过程中,类间距离呈增加趋势•类间距离小,类的相似性大;距离大,相似性小•绘制碎石图(X轴为类距离,Y轴为类数)K-means快速聚类(一)出发点•希望:–克服分层聚类在大样本时产生的困难,提高聚类效率•做法:–通过用户事先指定聚类数目的方式提高效率–因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解K-means快速聚类(二)思路1.指定最后要聚成K类2.用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中心3.系统按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去,形成一个新的k类,完成一次迭代4.重新计算k个类的类中心(计算每类各变量的均值,以均值点作为类中心)5.重复3步和4步,直到达到指定的迭代次数或达到终止迭代的条件K-means快速聚类(二)思路SPSS中两个判断聚类是否结束的条件,满足其中一个即可结束聚类过程.–达到指定迭代次数(maximumiteration),默认10次。–收敛标准(convergence),默认0.02,即:本次迭代产生的任意新类,各中心位置变化较小.其中最大的变化率小于2%.K-means快速聚类(三)基本操作步骤A.菜单选项:analyze-classify-kmeansclusterB.选定参加快速聚类分析的变量到variables框C.确定快速聚类的类数(numberofclusters).类数应小于个案总数D.选择聚类方法(method):默认iterateandclassify,即:在聚类的每一步都重新计算新的类中心E.确定聚类终止条件(iterate)K-means快速聚类(四)其他1.保存快速聚类的结果(save)–clustermembership:将各个案所属类的类号保存到qcl_1变量中–distancefromclustercenter:将各样本距所属类中心的距离保存到qcl_2变量中.K-means快速聚类(四)其他2.输出选项(option)–initialclustercenters:输出初始类中心点–ANOVAtable:输出各类的方差分析表–clusterinformationforeachcase:输出每个样本的分类结果和距离K-means快速聚类(四)其他3.userunningmeans项:–选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关.–不选中:表示完成了所有个案的依次分配后再计算类中心.省时.K-means快速聚类(四)其他4.用户指定类中心(center)–readinitialfrom:若不指定则系统自动确定初始类中心。指定则从某.sav文件中读入初始类中心数据(应设一个名为Cluster_的变量名)。–Writefinalas:在分析的
本文标题:第九章-SPSS的聚类分析
链接地址:https://www.777doc.com/doc-4620418 .html