您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 多元统计分析第九章_聚类分析
聚类分析引言俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。聚类分析给人们提供了丰富多彩的分类方法,大致可归为:⑴系统聚类法:首先,将n个样品看成n类,然后将性质最接近的两类合并成一个新类,得到1n类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。⑵动态聚类法(调优法):首先对n个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K类为止。这种方法适用于有序样品的分类问题,故称为有序样品聚类法.⑷模糊聚类法:该方法多用于定性变量的分类.利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据和多态数据具有明显的分类效果.⑸图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法.⑹聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析或判别分析.但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。本书主要介绍⑴~⑷聚类分析不仅可以对样品进行分类,也可以对变量进行分类。对样品的分类称为Q型聚类分析,对变量进行分类称为R型聚类分析。聚类分析的历史还很短,它的方法很粗糙,理论上还不完善,但由于能解决许多实际问题,所以很受人们重视,同回归分析、判别分析一起被称为多元分析的三大实用分析方法。聚类统计量在对样品(或变量)进行分类时,样品(或变量)之间的相似性是如何度量的呢?这一节中,我们介绍三种相似性度量—距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如某产品分为一等品、二等品、三等品等,文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如性别分为男、女,职业分为工人、教师、干部、农民等。下面我们主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。9.2.1距离1.数据矩阵设ijx为第i个样品的第j个指标,数据矩阵如下表表9.1数据矩阵变量样品1x2x…px12n11x12x…px121x22x…px21nx2nx…npx在上表中,每个样品有p个变量,故每个样品都可以看成是pR中的一个点,n个样品就是pR中的n个点。在pR中需定义某种距离,第i个样品与第j个样品之间的距离记为ijd,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所定义的距离ijd一般应满足如下四个条件:⑴0ijd,对一切ji,;且0),(jixxd当且仅当jixx⑵jiijdd,对一切ji,;⑶kjikijddd,对一切kji,,2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基(Minkowski)距离qpkqjkikijxxqd11][)(这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:1)当1q时,pkjkikijxxd1)1(称为绝对值距离,常被形象地称为“城市街区”距离;2)当2q时,2112][)2(pkjkikijxxd,称为欧氏距离,这是聚类分析中最常用的距离;3)当q时,jkikpkijxxd1max)(,称为切比雪夫距离。)(qdij在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方面它没有考虑指标间的相关性。当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:令jjijijsxxx其中niijjxnx11为第j个变量的样本均值,nijijjxxns12)(11为第j个变量的样本方差。⑵兰氏(Lance和Williams)距离当0ijx(;,,2,1nipj,,2,1)时,第i个样品与第j个样品间的兰氏距离为pkjkikjkikijxxxxLd1)(这个距离与各变量的单位无关,但没有考虑指标间的相关性。⑶马氏距离(Mahalanobis)距离第i个样品与第j个样品间的马氏距离为)()'()(1jijiijxxSxxMd其中)',,,(21ipiiixxxx,),,(21jpjjjxxxx,S为样品协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。⑷斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为pkplkljliljkikijrxxxxpd12112]))((1[其中klr是变量kx与变量lx间的相关系数。当p个变量互不相关时,pddijij)2(,即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。3.定性变量的距离下例只是对名义尺度变量的一种距离定义。例9.1.1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(1x)取值为男和女;外语语种(2x)取值为英、日和俄;专业(3x)取值为统计、会计和金融;职业(4x)取值为教师和非教师;居住处(5x)取值为校内和校外;学历(6x)取值为本科和本科以下。现有两名学员:1x(男,英,统计,非教师,校外,本科)ˊ2x(女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为1m,不配合的变量数为2m,则它们之间的距离可定义为21212mmmd按此定义本例中1x与2x之间的距离为32。当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。9.2.2.匹配系数定义9.2.1第i个样品与第j个样品的匹配系数定义为pkkijZS1,其中jkikjkikkxxxxZ当当,0,1显然匹配系数越大,说明两样品越相似。例9.2.1对购买家具的顾客作聚类分析。有以下三个变量:1x:喜欢的式样,老式记为1,新式记为2;2x:喜欢的图案,素式记为1,格子式记为2,花式记为3;3x:喜欢的颜色,蓝色记为1,黄色记为2,红色记为3,绿色记为4。下面列出表9.2四位顾客(样品)的观测值变量样品1x2x3x1234131122233223解各样品为名义尺度变量,其取值仅代表不同状况、类别,无大小次序关系,故采用匹配系数作为聚类统计量,由定义得311111S,100112S,101013S,000014S322S,023S,101024S333S,234S,344S注:⑴对ji,,ijS为非负整数;⑵ijS越大,表明样品越相似;按ijS由大到小,可将样品逐步聚类。⑶上述匹配系数的计算没有考虑到各个变量取值个数的多寡而一视同仁。在上例中,式样1x只取两个值1和2,图案2x取三个值(1,2,3),颜色3x取四个值(1,2,3,4).故}1}1{}1{321xPxPxP即}{}{}{332211jijijixxPxxPxxP这样,ijS的大小主要由1x控制,而2x与3x的作用不适当地被削弱了。为了解决这一问题,引进对指标加权的匹配系数:pkkkijxvS1其中kv是指标kx的权数,等于kx可能取值的个数。对上例,求得各加权匹配系数为:911S,204031212S,3013013S,014S,922S,023S,3013024S,933S,614031234S,944S.聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。9.2.3相似系数设ijc表示ix与jx的相似系数,它一般应满足如下三个条件:⑴1ijc,对一切ji,;⑵1ijc,当且仅当存在常数a和b,使得baxxji;⑶jiijcc,对一切ji,.最常用的相似系数有以下两种:1.夹角余弦变量ix与jx的夹角余弦定义为2112121][)1(nkkjnkkinkkjkiijxxxxc它是nR中变量ix的观测向量'21),,,(niiixxx与变量jx的观测向量'21),,,(njjjxxx之间夹角ij的余弦函数,即ijijccos)1(.2.相关系数变量ix与jx的相关系数为nknkjkjikinkjkjikiijxxxxxxxxc1211221]})([])({[))(()2(其中nkkiixx1,nkkjjxx1注:⑴)2(ijc实际上是将数据标准化后的交角余弦。⑵变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间相似程度就越高;反之,则越低。⑶聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。⑷变量之间常借助于相似系数来定义距离,如令221ijijcd⑸一般来说,同一批数据采用不同的相似性度量,会得到不同的分析结果。在进行聚类分析时,应根据实际情况选取合适的相似性度量,如在经济变量分析中,常用相关系数来描述变量间的相似程度。系统聚类法基本思想首先将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并成一类。系统聚类的方法设ijd表示样品i与样品j之间的距离,,,21GG表示类,KLD表示KG与LG的距离。⑴最短距离法1)最短距离定义},min{LKijKLGjGidD即类与类之间的距离KLD为
本文标题:多元统计分析第九章_聚类分析
链接地址:https://www.777doc.com/doc-3092994 .html