您好,欢迎访问三七文档
聚类分析主要内容:一、聚类分析的基本概念和对象类型二、距离和相似系数三、分层(系统)聚类分析法及基本步骤–欧氏距离(Euclideandistance)–平方欧氏距离(SquaredEuclideandistance)–Block距离(Blockdistance)(绝对值)–Chebychev距离(Chebychevdistance)(切比雪–马氏距离(Minkovskidistance)–最常用的是平方欧氏距离聚类分析是定量研究分类问题的一种多元统计方法。所谓类,就是指相似元素的集合聚类分析的研究目的把相似的东西归成类,根据相似的程度将研究目标进行分类。§1什么是聚类分析ClusterAnalysis聚类分析的研究对象R型分析----对变量进行分类(相似系数)Q型分析----对样品进行分类(距离)聚类分析研究的主要内容如何度量事物之间的相似性?怎样构造聚类的具体方法以达到分类的目的?分类统计量数据分类(计量尺度):分类数据、顺序数据和数值型数据一.数据资料矩阵的标准化处理变量分类间隔尺度变量有序尺度变量名义尺度变量本章重点介绍间隔尺度变量的聚类分析方法m个指标X1,X2,X3,…,Xm,数据资料矩阵为1111mnnmxxxxX1,…,Xm1nm个指标n次观测距离和数量次序§2距离和相似系数例对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我们的问题是如何来选择样品间相似性的测度指标,如何将相似的类连接起来?一、相似性的测度距离:将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数:测度变量之间的亲疏程度§2距离和相似系数距离是用来描述样品间亲疏程度的分类统计量.2、常用的距离kplkjlilijxxd11)||(pljlilijxxd1明氏距离特别地,当k=1时,即为绝对值距离(1)明氏距离ixjxijd令表示样品与的距离npnnppxxxxxxxxx212222111211设原始数据为•二.距离和相似系数•1.距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。根据样本间距离的远近将样本进行划分。•聚类分析中常用的距离公式:•1)闵氏(Minkowski)距离11[]mqqijikjkkdxxq=1时,绝对值距离1mijikjkkdxxq=2时,欧氏(Euclidean)距离21()mijikjkkdxx闵氏距离适用于一般p维欧氏空间。缺点是没有考虑变量之间的相关性。距离是用来描述样品间亲疏程度的分类统计量.二维空间欧式距离•2)马氏(Mahalanobis)距离21()()()TijijijdMxxsxx11()()1nijkiikjjksxxxxns=(sij)ixjx分别为第i号样品和第j号样品各指标的均值马氏距离适用于衡量来自正态总体的样品点之间接近程度的距离;优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲.1)Pearson相关系数12211()()()()ntiitjjtijnntiitjjttxxxxrxxxx两个变量相似系数的绝对值越接近于1,说明这两个变量的关系越密切,性质越接近。相似系数绝对值大的变量归为一类,相似系数绝对值小的变量归属于不同的类。2.相似系数相似系数是用来描述指标间亲疏程度的分类统计量。正好是这两个向量的夹角余弦。若夹角余弦越大,则夹角越小,则两个变量越相似。相关系数实际上是对数据做标准化处理后的夹角余弦。2)夹角余弦12211cosntitjtijijnntitjttxxCxx若将第i个变量的n个观测值(x1i,x2i,…,xni)T和第j个变量的n个观测值(x1j,x2j,…,xnj)T看成n维空间中的两个向量,则CBAθ’θ1.用距离作为亲疏程度的度量值时,距离越小,样品之间的关联性越大;用相似系数作为亲疏程度的度量值时,相似系数的绝对值越大,意味着指标之间的关联性越大。2.有时样品之间也可以用相似系数来描述它们的亲疏程度,变量之间也可以用距离来描述它们的亲疏程度。3.聚类分析时到底选择哪一种分类统计量,有时并无最优或唯一选择,通常也可尝试性地多选择几个不同的度量值进行聚类,通过比较分析确定。几点说明:123452018104471055325.236.328.911.5171x2x3x3124224)(lllxxd222)5.113.36()510()418(欧氏距离切比雪夫距离lllxxd423124max8.245.113.3624d计算明考夫斯基距离有以下两个缺点:①明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。②明氏距离的定义没有考虑各个变量之间相关性的影响。年龄收入家庭人口数甲3030001乙4032003222)31()32003000()4030(d(2)标准化的欧氏距离npnnppxxxxxxxxx212222111211设原始数据为ijd22222221111...ppjpipjijisxxsxxsxx222222211111...11jppippjijixxsxxsxxspllljlilsxx12pppnpnnppppppppSxxSxxSxxSxxSxxSxxSxxSxxSxx222211112222221112112221211111(3)马氏距离由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:ijd21221112211,,,pjpijijipjpijijixxxxxxSxxxxxx=211jijixxSxx马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响二、变量间相似系数的算法yyxxxyninikikjijkiknijijjkssxxxxxxxxr2111221变量jx和kx的相关系数:2111221niniikijniikijjkxxxxc(2)夹角余弦(1)相关系数系统聚类法直观,易懂。快速聚类法(动态聚类法)快速,动态。有序聚类法保序(时间顺序或大小顺序)。各种聚类方法§3系统聚类法系统聚类法的基本思想先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。系统聚类法的基本步骤:1.计算n个样品两两间的距离,记作D=。2.构造n个类,每个类只包含一个样品。3.合并距离最近的两类为一新类。4.计算新类与各当前类的距离。5.重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.画聚类谱系图。7.决定类的个数和类。ijdijd1.最短距离法2.最长距离法3.中间距离法4.重心法5.类平均法6.离差平方和法(Ward法)系统聚类方法:上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。定义类p与q之间的距离为两类最近样品的距离,即ijqjpipqdd,minxq1•xp2•xq2•xp1•pqdxq3•一、最短距离法qrprkrddd,min设类p与q合并成一个新类,记为k,则k与任一类r的距离是pqkr例最短距离法设抽取5个样品,每个样品观察2个指标,:您每月大约喝多少瓶啤酒,:您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。1x2x12345201810447105531x2x②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.322ijdnnijdD)(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,245d2.合并距离最小的两类为新类,按顺序定为第6类。5,4⑥=87.1465.15,87.14min,min524262ddd6,min534363ddd12.1649.16,12.16min,min514161ddd3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③3.610.216.129.4314.87643.9,min231373ddd87.14,min261676ddd6.312d2,1为最小,⑦=⑥⑦③⑥69.4314.874、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。43.9,min673787ddd636d6,3为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。观察此图,我们可以把5个样品分为3类,2,135,4、、。43.966.328,76,32,15,4dddd•••x11•x21••••12d二、最长距离法定义类p与q之间的距离为两类最远样品的距离,即ijqjpipqdd,max设类p与q合并成一个新类,记为k,则k与任一类r的距离是pqkrqrprkrddd,max②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.322ijdnnijdD)(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,245d2.合并距离最小的两类为新类,按顺序定为第6类。5,4⑥=例最长距离法65.1565.15,87.14max,max524262ddd32.6,max534363ddd49.1649.16,12.16max,max514161ddd3、计算新类⑥与各当前类的距离,得距离矩阵如下:②③⑥①②③3.610.216.499.4315.656.322.10,max231373ddd49.16,max261676ddd6.312d2,1为最小,⑦=⑥⑦③⑥6.3210.216.494、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。49.16,max673787ddd32.636d6,3为最小,⑧=5、6、按聚类的过程画聚类谱系图45⑥⑨⑧并类距离312⑦7、决定类的个数与类。观察此图,我们可以把5个样品分为3类,2,135,4、、。49.1632.66.328,76,32,15,4dddd三、中间距离法定义类与类之间的距离既不采用两类之间最近的距离,也不采用两类之间最远的距离,而是采用介于两者之间的距离,故称为中间距离法。••krd•rpqk2222412121pqqrprkrdddd②③④⑤①②③④131042602728922124536404ijdnnijdD)(1
本文标题:多元统计-聚类分析
链接地址:https://www.777doc.com/doc-5514283 .html