您好,欢迎访问三七文档
距离54321053142第7章聚类分析(ClusterAnalysis)聚类分析是根据研究对象的特性,对样本或变量进行定量分类的一种多元统计方法。主要内容7.1聚类分析概述7.2分类统计量7.3系统聚类法7.4用SPSS进行聚类分析聚类的目的根据已知数据,计算各观察个体或变量之间亲疏关系的统计量。在没有先验知识的情况下自动进行分类的方法,聚类分析根据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。聚类分析的应用例子不同地区城镇居民收入和消费状况的分类研究。区域经济及社会发展水平的分析及全国区域经济综合评价市场营销中按照消费者的特征对消费者分类,按照产品特征对产品分类,从而进行市场分层、建立目标市场为多种动物群体——昆虫、哺乳动物和爬行动物的区分建立生物分类学动物界——节肢动物门——昆虫纲——膜翅目——细腰亚目——蜜蜂科——蜜蜂学号数学计算机00173680026669003848200491880059490两类:(001002)(003004005)三类:(001002)(003)(004005)例如上述分类的原则:依据学生成绩的差距,差距较小的为一类分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.7.1聚类分析概述聚类分析是根据对象的特性对其进行定量分类的一种多元统计方法,是从数值分类学中分离出的一种科学的分类法。常用的聚类方法有系统聚类法、模糊聚类法、动态聚类法、有序样本聚类法、分解法、加入法等等。聚类分析概述聚类分析是将数据中的观测值或变量按相似度加以归类在各个类别内这些类不是事先给定的而是直接根据数据的特征确定的聚类的原则是“组(类)内同质,组(类)间差异”类别内部的“差异”尽可能小而类别之间的“差异”尽可能大聚类分析特点1.聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考2.严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体一般不涉及统计量分布,也不需显著性检验3.聚类分析更象是一种建立假设的方法,而对相关假设的检验还需要借助其他统计方法聚类分析注意聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解聚类分析的分类在实际问题中,收集n个样品,对每一个样品测量p个指标:Q型聚类根据p个指标值对n个样品进行分类如,根据多项经济指标(指标)对不同的地区(样品)进行分类R型聚类根据n个样品对p个指标进行分类根据不同地区的样本数据对多个经济指标进行分类两者没有本质区别,实践中人们更感兴趣的通常是Q型聚类聚类分析的基本步骤(1)选择描述事物对象的变量(指标)。(2)建立样品数据资料矩阵。(3)确定数据是否要标准化。(4)确定表示对象距离或相似程度的统计量。(5)选择适当的聚类方法,进行聚类。分层聚类(一)思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用)首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低——一旦个案(变量)被聚为一类,以后分类结果不会改变分层聚类(一)思路以分解的方式聚类首先,所有个体都属于一类其次,将大类中最“疏远”的小类或个体分离出去然后,分别将小类中最“疏远”的小类或个体再分离出去重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止可见,随着聚类的进行,类内的亲密性在逐渐增强X186420-2-4-6X286420-2-4-6212019181716151413121110987654321X186420-2-4-6X286420-2-4-62120191817161514131211109876543211ijdX186420-2-4-6X286420-2-4-62120191817161514131211109876543212ijdX186420-2-4-6X286420-2-4-62120191817161514131211109876543212ijd7.2分类统计量变量分类间隔尺度变量:指标用连续的实值变量表示,如长度、重量、时间有序尺度变量:用该指标度量时无数量表示,只表示次序,如产品质量的等级;名义尺度变量:该指标只代表某些分类或属性,不代表大小和次序,如性别。本章重点介绍间隔尺度变量的聚类分析方法数据分类(计量尺度):分类数据、顺序数据和数值型数据m个指标X1,X2,X3,…,Xm,数据资料矩阵为1111mnnmxxxxX1,…,Xm1nm个指标n次观测数据资料矩阵为消除各个变量所用量纲的影响,以保证各变量在分析中处于同等地位,对数据资料矩阵做标准化处理11njijixxn211()1njijjisxxn'(1,2,,;1,2,,)ijjijjxxxinjms变换后各指标均值为0,标准差为1。距离和相似系数距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。根据样本间距离的远近将样本进行划分。以dij表示第i个样品与第j个样品之间的距离,作为p维空间中两点距离,要满足:dij≥0,对一切i,jdij=0,当第i个样品与第j个样品p个指标都相同dij=dji,对一切i,jdij≤dik+dkj,对一切i,j,k距离是用来描述样品间亲疏程度的分类统计量.11[]mqqijikjkkdxxq=1时,绝对值距离1mijikjkkdxxq=2时,欧氏(Euclidean)距离21()mijikjkkdxx闵氏距离适用于一般p维欧氏空间。缺点是没有考虑变量之间的相关性。闵氏(Minkowski)距离二维空间欧式距离21()()()TijijijdMxxsxx11()()1nijkiikjjksxxxxns=(sij)ixjx分别为第i号样品和第j号样品各指标的均值马氏距离适用于衡量来自正态总体的样品点之间接近程度的距离;优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲.缺点:需要计算协方差阵(有可能是奇异阵),实际使用效果不是很好马氏(Mahalanobis)距离切比雪夫距离(CHEBYCHEV)||),(iiyxMaxyxC以cij表示第i个指标与第j个指标之间的相似系数,要满足:|cij|≤1,对一切i,jcij=+1,当且仅当xi=αxjcij=cji,对一切i,j指标的相似系数与指标间的距离的关系221ijijdc相似系数是用来描述指标间亲疏程度的分类统计量。相似系数12211()()()()ntiitjjtijnntiitjjttxxxxrxxxx两个变量相似系数的绝对值越接近于1,说明这两个变量的关系越密切,性质越接近。相似系数绝对值大的变量归为一类,相似系数绝对值小的变量归属于不同的类。Pearson相关系数2)夹角余弦12211cosntitjtijijnntitjttxxCxx若将第i个变量的n个观测值(x1i,x2i,…,xni)T和第j个变量的n个观测值(x1j,x2j,…,xnj)T看成n维空间中的两个向量,则正好是这两个向量的夹角余弦。若夹角余弦越大,则夹角越小,则两个变量越相似。CBAθ’θ夹角余弦与相关系数示意图0xixj),(jixx相关系数是对数据做标准化处理后的夹角余弦1.用距离作为亲疏程度的度量值时,距离越小,样品之间的关联性越大;用相似系数作为亲疏程度的度量值时,相似系数的绝对值越大,意味着指标之间的关联性越大。2.有时样品之间也可以用相似系数来描述它们的亲疏程度,变量之间也可以用距离来描述它们的亲疏程度。3.聚类分析时到底选择哪一种分类统计量,有时并无最优或唯一选择,通常也可尝试性地多选择几个不同的度量值进行聚类,通过比较分析确定。几点说明:应注意的问题(1)在聚类分析中,应根据不同的目的选用不同的指标,例如选拔运动员所用的指标(身体形态、身体素质、心理素质、生理功能等)与分课外活动小组所选用的指标不相同,对啤酒按价格分类与按成分分类所用的指标也不相同。一般来说,选择哪些变量应该具有一定的理论支持,但在实践中往往缺乏这样强有力的理论基础,一般根据实际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的特征,在不同研究对象上的值具有明显差异,变量之间不应该高度相关。选变量时并不是加入的变量越多,得到的结果越客观。有时,加入一两个不合适的变量就会使分类结果大相径庭。变量之间高度相关相当于加权有两种处理方法:(1)首先进行变量聚类,从每类中选一代表性变量,再进行样品聚类;(2)进行主成分分析或因子分析,降维,使之成为不相关的新变量,再进行样品聚类。(2)标准化问题指标选用的度量单位将直接影响聚类分析的结果。例如将高度的单位由米改为英寸,或者将重量单位由千克改为磅,可能产生非常不同的聚类结构。一般来说,所用度量单位越小,变量的值域就越大,对聚类结果的影响也越大。为了避免对变量单位选择的依赖,数据应当标准化。数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准化。7.3系统聚类法系统聚类法的聚类效果一方面取决于分类统计量的选择,另一方面还取决于类间距离的定义。系统聚类分析方法主要有:最短距离法、最长距离法、中间距离法、重心法、类平均法、类间平均连接法、类内平均连接法和离差平方和法。一.类与类之间的距离1.最短距离法(Nearestneighbor)2.最长距离法(Furthestneighbor)3.中间距离法(Centroidclustering)4.类平均法(Medianclustering)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估计法(ExactMaximumLikelihood——EML)10.密度估计(densitylinkage)11.两阶段密度估计法(two-stagedensitylinkage)考虑类Gp与类Gq之间的距离,并假设类Gp中共有f个元素(样品或统计量),类Gq中共有f’个元素。用和表示两个类的重心(即类均值)。pxqx1.最短距离法(Nearestneighbor)DN(p,q)=min{djk∣j∈Gp,k∈Gq}两类间的距离定义为两类中距离最近的两个个案之间的距离最短距离示意图DpqGpGqA*B**C*D例(最短距离法)设随机抽取5个样品,每个样品只测了一个指标,分别是1,2,3.5,7,9.样品间距离(采用绝对值距离,建立D(0))G1={x1}G2={x2}G3={x3}G4={x4}G5={x5}G1G2G3G4G50102.51.50653.50875.520例(最短距离法)由D(0)中非对角线最小元素为1:G1与G2合并成一个新类,记为G6={x1,x2};计算新类与其他类的距离,得距离阵D(1).D(1)G6G3G4G5G6G3G4G501.5053.5075.520D(2)G7G4G5G7G4G503.505.520由D1中非对角线最小元素为1.5:将G3
本文标题:第7章 聚类分析
链接地址:https://www.777doc.com/doc-3681335 .html