您好,欢迎访问三七文档
浙江万里学院数据分析主讲:黄剑第六章:聚类分析聚类分析的基本思想及意义聚类分析是研究分类问题的多元数据分析方法聚类分析是数值分类学的一分支在经济学中有广泛的应用背景城镇居民收入分析产品质量指标等等2聚类分析的基本思想及意义聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。3聚类分析的基本思想及意义多元数据形成数据矩阵,在这个数据矩阵中,共有n个样品(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。412,,,nxxx12pxxx12jnxxxx11211112222212jnjnppjpnpxxxxxxxxxxxx指标样品聚类分析与判别分析的区别和联系聚类分析一般寻求客观的分类方法。在进行聚类之前,对总体到底有几类类型并不知道(究竟分几类较为合适需从计算中探索调整)。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本基础上,对当前的新样本判定它们属于哪个总体。联系:例如当我们对研究的多元数据的特征不熟悉,就要先进行聚类分析,才能考虑判别分析问题。5聚类分析的方法重点介绍谱系聚类法快速聚类法6样品间的相似性度量-距离设有n个样品的多元观测数据:每个样品可看成p元空间的一个点,n个样品组成p元空间的n个点。我们用各点之间的距离来衡量各种样品之间的相似程度(或靠近程度)。712(,,,),1,2,,.Tiiiipxxxxin样品间的相似性度量-距离设是样品之间的距离,一般要求它满足下列条件:在聚类分析中,有些距离不满足3),我们在广义的角度上仍称它为距离。1)(,)0,(,)0;2)(,)(,);3)(,)(,)(,).ijijijijjiijjkkjdxxdxxxxdxxdxxdxxdxxdxx且当且仅当=8(,)ijdxx,ijxx聚类分析中的常用距离欧式距离令,形成一个距离矩阵其中。91221(,)().(6.1)pijikjxkdxxxx(,)ijijddxx()ijppDdijjidd1212121200,(6.2)0nnnndddddd例6.1为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费规律,需要利用调查资料对这5个省分类。指标变量共8个,含义如下:x1:人均粮食支出,x2:人均副食支出,x3:人均烟酒茶支出,x4:人均其他副食支出,x5:人均衣着商品支出,x5:人均日用品支出,x7:人均燃料支出,x8:人均非商品支出。数据资料示于表6.2。将每个省份的数据看成一个样品,计算样品之间的欧式距离矩阵。10例6.1表6.21991年5省城镇居民月均消费(单位:元/人)x1x2x3x4x5x6x7x8辽宁7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.8111指标省份例6.1解以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5个省(样品)。计算每两个样品之间的欧式距离如12,,1,2,3,4,5.ijdij221221122222332122[(7.907.68)(39.7750.37)(13.2914.87)]11.67,[(7.689.42)(50.3727.93)(14.879.76)]24.63,dddd例6.1从而得到距离矩阵如下:(因是对称矩阵,故只用下三角部分表示)。D中各元素数值的大小,反映了5个省消费水平的接近程度。13011.670,13.8024.63013.1224.062.20012.8023.643.512.210D聚类分析中的常用距离绝对距离Minkowski距离其中。当时分别是欧式距离、绝对距离。Minkowski距离又称距离,距离即欧式距离,距离即绝对距离。141(,).(6.3)pijikjkkdxxxx11(,),(6.4)pmmijikjxkdxxxx1m2,1mmL2L1L聚类分析中的常用距离Chebyshev距离Chebyshev距离是Minkowski距离当时的极限。151(,)max.(6.5)ijikjkkpdxxxxm聚类分析中的常用距离以上距离与各变量指标的量纲有关,为消除量纲的影响,有时应先对数据进行标准化,然后用标准化数据计算距离。标准化数据其中16*,1,2,,;1,2,,.(6.6)kikikkxxxinkps221111,().1nnkkikkikiixxsxxnn聚类分析中的常用距离方差加权距离对标准化数据计算欧式距离时,即是方差加权距离。1712221()(,).(6.7)pikjkijkkxxdxxs*ikx聚类分析中的常用距离马氏距离其中是由样品算得的协方差矩阵:其中18112(,)[()()](6.8)TijijijdxxxxSxxS12,,,nxxx11()()1nTiiiSxxxxn11.niixxn样品间的相似性度量-距离Q型聚类:样品聚类在SAS系统中,采用欧式距离聚类或先将数据标准化,再计算欧式距离进行聚类。(实际上就是采用了方差加权距离)19变量间的相似性度量-相似系数当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相似性程度(或关联性程度)。一般的,若表示变量之间的相似系数,应满足:20c,xx1)11;2)1(0);3).cccxcxccc且当且仅当变量间的相似性度量-相似系数相关系数设由样品算得协方差矩阵S与相关矩阵R。设则变量的相关系数为2112,,,nxxx(),(),ijppijppSsRr,xx12211()(),(6.9)()()niiinniiiixxxxsrssxxxx变量间的相似性度量-相似系数是变量的观测值与的观测值间的相关系数。22rx12(,,,)Tnxxxx12(,,,)Tnxxx变量间的相似性度量-相似系数夹角余弦设变量的观测值各为与其夹角余弦为23,xx12(,,,)Tnxxx12(,,,)Tnxxx12211(6.10)niiinniiiixxcxx例6.2设为两个二态变量(设只取0,1两个值),其观测值向量和(注意分量只由0,1构成)可总结为下列联表形式:求(1)的相关系数;(2)的夹角余弦。10边和1aba+b0cdc+d边和a+cc+dn=a+b+c+d24,xx,xx,xxrc12(,,,)Tnxxxx12(,,,)Tnxxxxxx例6.2解(1)注意:2511,nniiiiiiabxnxacxnx111111111111()()()()()()nnaaaiiiiiiiinnnnaaiiiiiiiinnnnaaiiiiiiiinaaaiiinaiiixxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxnxxnxnxxabxxnxxa()()()()acnabcdaabacadbcnn例6.2又26222111122112212()22()()()nnnnaaaiiiiiiinnaaiiiinaiixxxxxxxnxxxxnxababcdabnn例6.2同理因此2721()()()niiacbdxxn()()()()adbcrabcdacbd例6.2(2)因为所以2822111,,nnniiiiiiixxaxabxac()()acabac变量间的相似性度量-相似系数变量聚类通常称为R型聚类。在R型聚类中,相似矩阵是出发点。相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵,Spearman相关矩阵。291212121211(6.11)1ppppccccCcc变量间的相似性度量-相似系数有时变量之间也可以用距离来描述它们的接近程度。距离和相似系数之间可以相互转化。设是一个距离,则是相似系数,若是相似系数,则可令或或30ijdijd1(6.12)1ijijcd21,(6.13)ijijdc1,(6.14)ijijdc1,(6.15)ijijdc谱系聚类法谱系聚类法是目前应用很广泛的一种聚类方法。谱系聚类法的思想重点讨论:Q型聚类问题。关键:定义类与类的距离31类间距离以分别表示样品,以简记与的距离分别表示两个类,设它们分别含有个样品。若类中有样品,则其均值称为类的重心。32,ij,ijxxijdij(,)ijdxx,pqGG,pqnnpG12,,,pnxxx11pnpiipxxnpG类间距离由于类的形式和形状多种多样,所以类与类之间的距离有多种定义与计算方法。下面我们介绍类间距离的定义。类与之间的距离记为。(1)最短距离即用两类中样品之间的距离最短者作为两类距离。33pGqGpqD,min,(6.16)pqpqijiGjGDd类间距离(2)最长距离即用两类中样品之间的距离最长者作为两类距离。(3)类平均距离即用两类中所有两两样品之间的距离平均作为两类之间的距离。类平均距离还可用下列方式定义:34,max,(6.17)pqpqijiGjGDd1,(6.18)pqpqijiGjGpqDdnn221,(6.19)pqpqijiGjGpqDdnn类间距离(4)重心距离其中分别是的重心。这是用两类的重心之间的距离作为两类距离。(5)离差平方和距离对重心法而言,。35(,),(6.20)pqpqDdxx,pqxx,pqGG2()().(6.21)pqTpqpqpqpqnnDxxxxnn2()()TpqpqpqDxxxx类间距离的递推公式按照谱系聚类法的思想,先将样品聚合成小类,再逐步扩大为大类。设类由类合并所得,则包含个样品。问题:由与其他类的距离计算与的距离建立类间距离的递推公式36rG,pqGGrGrpqnnn,pqGG(,)kGkpq(,)kGkpqrG类间距离的递推公式类间距离的递推方式(1)最短距离事实上37min{,}.(6.22)rkpkqkDDD,,,minmin{min,min}min{,}.rkpkqkrkijiGjGijijiGjGiGjGpkqkDdddDD类间距离的递推公式类间距离的递推方式(2)最长距离事实上38max{,}.(6.23)rkpkqkDDD,,,maxmax{max,max}max{,}.rkpkqkrkijiGjGijijiGjGiGjGpkqkDdddDD类间距离的递推公式类间距离的递推方式(3)类平均距离事实上39.(6
本文标题:数据分析-第六章
链接地址:https://www.777doc.com/doc-3681848 .html