您好,欢迎访问三七文档
第4章系统聚类分析(共两次课)(HierarchicalClusterAnalysis)主要内容(参见书87面-)聚类分析概述聚类要素的数据处理距离和相似系数的计算常用系统聚类法环境应用一、聚类分析概述引例1:书89面例4.1.-问题:6个站点可否按其指标的相似性进行分类?如何综合考虑5个指标?表1某地区9个农业区的7项经济指标数据区代号人均耕地X1/(hm2·人-1)劳均耕地X2/(hm2·个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kg·hm-2)人均粮食x6/(kg·人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17引例2:可否对9个农业区进行分类?聚类分析的概念:聚类分析就是按照事物间的相似性进行科学的区分或分类的过程。聚类对象:聚类所针对的对象聚类要素:聚类所考虑的因素二、聚类要素的数据处理在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。要素聚类对象假设有m个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用表3.4.1给出。(主要省略号的记号)mi21mnmjmminijiinjnjxxxxxxxxxxxxxxxx2121222221111211njxxxx21表3.4.1聚类对象与要素数据在聚类分析中,常用的聚类要素(变量)的数据处理方法有如下几种:①总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即这种标准化方法所得到的新数据满足),,2,1;,,2,1(1njmixxxmiijijij(3.4.1)miijnjx1),,2,1(1②标准差标准化,即由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有),,2,1;,,2,1(njmisxxxjjijij(3.4.2)1)(101121mijijjmiijjxxmsxmx③极大值标准化,即经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。④极差的标准化,即经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。),,2,1;,,2,1(}{maxnjmixxxijiijij(3.4.3)),,2,1;,,2,1(minmaxminnjmixxxxxijiijiijiijij(3.4.4)例题:通过Excel对某地区9个农业区的7项指标进行标准化处理(见Excel文件“聚类分析例子.xls)极差标准化区代号X1X2X3X4X5X6X7G10.91310.0730.1530.18310.143G210.86600.00200.2360G30.20.1480.0680.4370.4390.0790.071G40.4330.37900.1320.1780.1269E-04G50.0250.0341110.4691G60.0290.0330.6060.6890.6540.1340.595G7000.9040.8120.8350.1290.997G80.9080.5320.0698E-040.0960.4270.087G90.3830.2550.03500.15400.004三(1)“聚类对象”之间的距离及其计算常见的“距离”有①绝对值距离(下面公式中的i=1应为k=1)②欧氏距离③明科夫斯基距离),,2,1,(1mjixxdnijkikij(1)),,2,1,()(12mjixxdnkjkikij(2)),,2,1,(11mjixxdpnkpjkikij(3)④切比雪夫距离。当明科夫斯基距时,有实例中9个农业区之间的绝对值距离矩阵如下),,2,1,(maxmjixxdjkikkij(4)040.132.306.384.451.020.166.162.2003.596.314.529.124.288.032.1007.183.006.493.253.579.5078.199.286.146.472.4077.464.302.686.5023.147.119.2070.210.3052.10)(99ijdD(5)p聚类分析不仅可以对“样本”分类,也可以对“变量分类”(例如书113面的第3题)。在此情况下分类的依据是“相似性系数”而不是“距离”。两种常用的相似系数(书97面):(1)夹角余弦(2)相关系数三(2)变量之间相似系数的计算nkjknkiknkjkikjiijxxxxXX12121),cos()cos(nkjijknkiiknkjjkiikjiijxxxxxxxxXXr12121)()())((),cov(四(1)、直接聚类法原理及步骤(书100面)(1)将每个对象或样本看做1类,共m类,记为G1,G2,…,Gm(2)定义并计算样本之间的两两“距离”,得到第1个距离矩阵D0(3)合并距离最近的两类为一新类,其它的样本暂不合并这样可得到共m-1类。(4)对新得到的分类重复步骤(2)&(3),直至将全部样本分为1类为止。第二次课四(1)、直接聚类法原理及步骤(书100面)(5)绘系统聚类树形图。(6)选取距离临界值,根据树形图确定分类个数和分类结构例题:某地区的9个农业区的聚类分析。极差标准化矩阵如下(书101面,程序HCA_Example3.m)0.912510.0730.1530.18310.14310.866200.00200.23600.20.1480.0680.4370.4390.0790.0710.43330.379400.1320.1780.1269E-040.0250.0341110.46910.02920.03290.6060.6890.6540.1340.595000.9040.8120.8350.1290.9970.90830.53180.0698E-040.0960.4270.0870.38330.25550.03500.15400.004例题:某地区的9个农业区的聚类分析。绝对值距离矩阵如下(书102面,程序HCA_Example3.m)01.5303.12.6902.221.471.220D=5.836.043.664.7904.714.451.872.991.805.785.522.934.050.851.0701.340.872.241.35.173.965.0302.631.661.190.494.863.064.121.480聚类分析步骤如下(书102-104面):(1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.49为最小者,故将第4区与第9区并为一类,得到一个新的共8类的暂时分类结果;(2)按新的分类结果重新计算距离矩阵(见103面),发现d57=0.85最小,故将第5区与第7区并为一类,得到一个新的共7类的暂时分类结果;(3)按上面的方法依此类推。图3.4.1直接聚类谱系图聚类谱系图(树形图)说明(1)聚类谱系图显示的是一个一般的分类结构,不是一个特定的分类结果。(2)用户可设定“距离临界值”并根据设定的临界值进行分类。例如,如设定距离临界值”在1.78-3.10之间,则9个农业区可分为3大类,即{G1,G2,G8},{G3,G4,G9},{G5,G6,G7}(3)“距离临界值”的选取没有一个严格的标准,一般取距离跨度较大的两个值中间的值。四(2)、最短距离聚类法最短距离聚类法,是在原来的m×m距离矩阵找出“距离最小”的两个分类对象Gp和Gq,并将其归并为一新类Gr,然后按“距离最短”计算公式计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出距离最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。),(},min{qpkdddqkpkrk例题:用最短距离聚类法对某地区的9个农业区进行聚类分析(注意此距离矩阵跟我们书上计算的略有出入,估计是数据标准化后进行四舍五入后造成的)。040.132.306.384.451.020.166.162.2003.596.314.529.124.288.032.1007.183.006.493.253.579.5078.199.286.146.472.4077.464.302.686.5023.147.119.2070.210.3052.10)(99ijdD回忆前面的直接聚类法(1)在9×9阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10={G4,G9}。按照最短距离公式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的8×8阶距离矩阵如下:029.132.399.277.420.147.119.2003.596.314.524.288.032.1007.183.093.253.579.5078.186.146.472.4064.302.686.5070.210.3052.10108765321108765321GGGGGGGGGGGGGGGG在上一步骤中所得到的8×8阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。按照最短距离公式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的7×7阶距离矩阵032.303.507.193.253.579.5029.199.220.147.119.2096.324.288.032.1086.146.472.4070.210.3052.10111086321111086321GGGGGGGGGGGGGG图3.4.2最短距离聚类谱系图依此类推,经过9个步骤后可以得到最短距离聚类谱系图。结果与前面的直接聚类法一致四(3)、最远距离聚类法“最远距离聚类法”与“最短距离聚类法”的区别在于计算原来的类与新类之间的距离时
本文标题:系统聚类分析
链接地址:https://www.777doc.com/doc-3676383 .html