您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 聚类分析(2)系统聚类法
§5.4系统聚类法系统聚类法是目前国内外使用最多的一种聚类法,属于聚合法。有关它的研究极为丰富。系统聚类法的分类统计量一般采用距离系数统计量,其基本步骤为:1.每个样品为一类,计算各样品之间的距离系数;2.把距离最小的两类合并为一类;3.计算新的类间的距离;4.重复2、3步一直到合并为一类为止。由于在分类的过程中,类与类间的距离可以有不同的定义,所以系统聚类法又可细分为常用的八种方法,它们是最短距离法、最长距离法、中间距离法、可变法、重心法、类平均法、可变类平均法、离差平方和法。类3类2类1距离的概念§5.4.1最短距离法设有个样品,用表示样品与样品之间的距离(),用表示类。定义类与类之间的距离为两类最近样品的距离,用表示与的距离,则(5.12)当时,规定分类的原则是:类与类之间的距离最近的两类合并。最短距离法就是以式(5.12)进行分类,其聚类步骤如下:nijdiXjXji,n,,2,1,,21GGpqDpGqG}{minijGjGipqdDqpqp0pqD1.确定样品之间的距离计算公式,计算出个样品中的两两之间的距离,得对称阵:开始每个样品自成一类,所以。n),,2,1,(njidij)0(DnnnnnnndddddddddD000)0(3212232111312pqpqdD2.选择中最小的非零元素,设为,则将与合并成一个新类,记为(5.13)3.计算新类与其他类、)的距离:(5.14)将中第,行及第,列用式(5.13)并成一个新行新列,新行新列对应于,所得的矩阵记为。)0(D)(pqpqDdpGqG},{qprGGGrGptGt(q},min{}min,minmin{}{minqtptijGjGiijGjGiijGjGirtDDdddDtqtptr)0(DppqqrG)1(D4.对重复上述对的2、3两步作法,得,如此下去,直到所有的元素并为一类为止。在实际分类过程中分类的结果,为了直观明了,一般常用谱系图给出分类结果。)0(D)1(D)2(D§5.4.2谱系图的形成当计算出了距离矩阵或相关矩阵后,为了比较直观地看出样本或变量间的关系,我们常用谱系图来表示分类结果。作谱系图的方法目前有两种:一种是一次计算形成法,另一种是逐步计算形成法。下面我们给大家介绍一次计算形成法构成谱系图的规则。首先计算出n个样品(或变量)的距离系数(相似系数),找出最小值(或者是最大值,比如相关系数),然后选出次小值(或次大值),按以下原则归并:1.若两个样品(或变量)在已形成的组中未出现过,则形成新组。2.若两个样品(或变量)中有一个是在已分好的组中出现过,则另一个就加入到该组中。3.若两个样品(或变量)都在同一组中,则不连接。4.若两个样品(或变量)都在已分好的两组中,则把两组连接成新一组。如此反复进行,直到所有样品都归为一大类为止。例5.1在某地区有七个矽卡岩体,对七个岩体的三个元素Cu、W、Mo作分析得原始数据表(见表5.1)。现对这七个样品进行分类。表5.1岩体元素568380587998102Cu2.99093.20442.83922.53152.58972.96003.1184W0.311110.53480.5969045260.30103.04802.8395Mo0.53240.77180.71640.48930.27351.49971.9850(一)对数据标准化处理应用式(5.3)得表5.2。表5.2岩体元素568380587998102Cu0.6827l0.457200.08640.63670.8721W0.00370.08510.10740.0552010.9341Mo0.15130.29110.25880.128100.71641(二)计算距离系数阵用计算得表5.3。表5.3岩体5683805879981025600.20540.15580.39540.35310.66180.73098300.2647058590.55560.61900.63838000.27640.26830.58820.68025800.09320.74070.87167900.77800.90759800.2170102(三)开始聚类聚类工作是根据距离矩阵出发,按下面三步反复进行:1.从表5.3中选出最小者,划为同一类,填入综合表5.14。2.将58、79号两岩体各元素含量合并(求平均值),则得到比原来表5.2少一个岩体的正规化数值,见表5.4。表5.4岩体元素56838058、7998102Cu0.682710.45720.04320.63670.8721W0.0370.08510.10740.027610.9241Mo0.15130.29110.25880.06300.716413.根据表5.4重新计算各样品距离系数矩阵,得表5.5。表5.5岩体56838058、79981025600.20540.15580.37280.66180.73098300.26470.56870.61900.63838000.26810.58820.680258、7900.75810.88859800.21701020注意这里只需计算合并后的58、79号与其他各岩体距离,其余岩体距离不变,照表5.3抄。4.重复第1步,由表5.5选出最小者d56,80=0.1558填入综合表5.14中。5.重复第2步将表5.4中56、80号两岩体的数据合并,得表5.6。6.重复第3步,计算距离函数得表5.7。7.重复第1步,从表5.7中选出最小者d98,102=0.2170填入综合表5.14中。表5.6岩体元素56、808358、7998102Cu0.569910.4320.63670.8721W0.05550.08510.27610.9241Mo0.20500.29110.06300.71641表5.7岩体56、808358、799810256、8000.25350.31520.62120.70178300.56870.61900.638358、7900.75810.88859800.217010208.重复第2步,将表5.6中98、102号两岩体数据合并得表5.8。9.重复第3步,计算距离函数得表5.9。10.重复第1步,从表5.9中挑出最小者d55、80、83=0.2535填入综合表5.14中。11.重复第2步,将表5.8中56、80号和83号两列数据合并(加权平均)得表5.10。12.重复第3步,计算距离函数得表5.11。表5.8岩体元素56、808358、7998、102Cu0.5699l0.04320.7544W0.05550.08510.02760.9620Mo0.20500.29110.06300.8582表5.9岩体56、808358、7998、10256、8000.25350.31520.65378300.56870.619358、7900.818798、1020表5.10岩体元素56、80、8358、7998、102Cu0.71320.04320.7544W0.06530.02760.9620Mo0.2337006300.8582表5.11岩体56、80、8358、7998、10256、80.8300.39930.630958、7900819798、102013.重复第1步,从表5.11中挑出最小者d56、80、83、58、79=0.3993填入综合表5.14中。14.重复第2步,将表5.10中56、80、83号和58、79号两列数据以加权合并得表5.12。15.重复第3步,计算距离函数得表5.13。16.将0.7332填入综合表5.14中,然后根据综合表5.14,作谱系图,如图5.1所示。表5.12岩体元素56、80、83、58、7998、102Cu0.44520.7544W0.05020.9620Mo0.16540.8582表5.13岩体56、80、83、58、7998、10256、80、83、58、7900.733298、1020表5.14连接顺序连接岩体距离函数158790.0932256800.15583981020.2170456、80830.3535556、80、8358、790.3993656、80、83、58、7098、1020.7332图5.1(四)综合分析评价解释从分类结果看,58号与79号岩体,98号和102号岩体,80号与56号岩体分别构成一类。从谱系图看出,若从d=0.5为界,则可把这些岩体划分成两类:一类为含矿矽卡岩;另一类为不含矿矽卡岩。在d=0.3水平上,则可将这七个岩体划分为三类:58号与79号为铜矿化矽卡岩;98号与102号为多金属型矽卡岩;而56号与83号和80号同属于含铜矿矽卡岩。这种分类不仅与地质情况相吻合,并且与判别分析结果完全一致。因此,这种分类是可信的。
本文标题:聚类分析(2)系统聚类法
链接地址:https://www.777doc.com/doc-5723896 .html