您好,欢迎访问三七文档
聚类分析ClusterAnalysis流行病与卫生统计学系物以类聚,人以群分类:相似物体的集合•在医学研究中经常会遇到分类的问题,例如:o在解剖学研究中,希望能依据骨骼的形状、大小等特征将人类从猿到人分为几个不同的阶段;o在临床诊治中,希望能根据耳朵的特征,把正常耳朵划分为几个类别,为临床修复耳缺损时参考;o在卫生管理学中,希望能根据医院的诊治水平、工作效率等众多指标将医院分成几个类别;o在营养学研究中,如何能根据各种运动的耗糖量和耗能量将十几种运动按耗糖量和耗能量进行分类,使营养学家既能对运动员适当的补充能量,又不增加体重。分类问题•问题的本质是希望找到一种合理的方法将一批研究对象按其所属特性分门别类。•统计学上用于解决分类问题的主要方法:•聚类分析:把总体中性质相近的归为一类,把性质不相近的归为其他类。•判别分析:已知总体分类,判别样本属于总体中的哪一类。多元统计三大方法•聚类•判别•回归聚类分析的方向:•聚类分析(clusteranalysis)是将样品个体或指标变量按其具有的特性进行分类的一种统计分析方法。o对样品进行聚类,称为样品(Q型)聚类分析。其目的是将分类不明确的样品按性质相似程度分成若干组,从而发现同类样品的共性和不同类样品间的差异。o对指标进行聚类,称为指标(R型)聚类分析。其目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标(主成分分析?因子分析?)。•在医生医疗质量研究中,有n个医生参加医疗质量评比,每一个医生有k个医疗质量指标被记录。利用聚类分析可以将n个医生按其医疗质量的优劣分成几类,或者把k个医疗质量指标按反映的问题侧重点不同分成几类。•在冠心病研究中,观察n个病人的k个观察指标,并利用聚类分析方法分析这n个病人各自属于哪一类别,相似的病人可以采取相似的治疗措施;同时也能将k个指标分类,找出说明病人病情不同方面的指标类,帮助医生更好地全面了解病人病情。例如:问题:如何刻画样品/(指标)变量间的亲疏关系或相似程度?•基本思想:寻找一种能客观反应事物之间亲疏关系或合理评价事物性质相似程度的统计量,然后根据这种统计量和规定的分类准则把事物进行分类。第一节聚类分析的基本思想•聚类分析的任务:o寻找合理的度量事物相似性的统计量;o寻找合理的分类方法。第二节聚类分析的统计量数据从几何学角度看,上面表中的每一行或每一列都表示了空间中的一个点或一个向量。1、描述两个样品之间的相似程度:距离令Xi=(xi1…xit…xik)是第i个样本观察值,Xj=(xj1…xjt…xjk)是第j个样本观察值,那么,样本Xi和Xj之间的欧氏距离是:*距离越小,说明两个样本的性质越相似。*它的取值大小受量纲影响,不稳定。因此,一般使用标准化的距离公式。(见书233)令Xs=(x1s…xis…xns)是第s个指标变量,Xt=(x1t…xit…xnt)是第t个指标变量,那么,指标变量Xs和Xt之间的相关系数是:2、描述两个指标变量之间的相似程度:相似系数*相关系数越大,说明两个指标变量的性质越相似。*这是一个无量纲统计量。令类A和类B中各有a和b个样品,D(i,j)为类A中第i个样本与类B中第j个样本之间的距离;假设D(A,B)为类A和类B之间的距离,那么,常用的几种类间距离定义的方法是:3、度量类与类之间的距离:类间距离1)最短距离法,类间距离等于两类中距离最小的一对样本之间的距离,即,D(A,B)=min{D(i,j)}。2)最长距离法,类间距离等于两类中距离最大的一对样本之间的距离,即,D(A,B)=max{D(i,j)}。3)重心距离法,类间距离等于两类的重心之间的距离,即,D(A,B)=d(Xa,Xb),其中Xa和Xb分别是类A和类B的重心,即类内所有样品的均值坐标。4)平均距离法,类间距离等于两类中所有样品对之间距离的平均值,即,D(A,B)={sumD(i,j)}/(ab)。5)中间距离法,类间距离等于两类中所有样本对之间距离的中间值,即,D(A,B)=median{D(i,j)}。*类间距离越小,说明两个类内的样品性质越相似。4、度量类与类之间的相似系数:类间相似系数令类A和类B中各有a和b个指标变量,Za和Zb分别是由类A和类B中所有指标变量的线性组合构成的新变量(称为类成分),例如:Za=a1X1+a2X2Zb=b1X3+b2X4+b3X5且它们的组合系数使得这两个新变量具有最大的方差,则称Za和Zb之间的相关系数为类A和类B之间的相关系数。*类间相似系数越大,说明两个类内的指标变量性质越相似。•系统聚类法:o适用于样本量较少的样本聚类(proccluster);o适用于指标聚类(procvarclus)。•逐步聚类法(procfastclus):o适用于样本量较大(100-100,00)的样本聚类;o对于样本量较小的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。第三节聚类分析的方法一、用系统聚类法聚类指标的步骤1.确定类内指标总体变异至少被类成分所解释的比例p,一般取p70%;2.把所有指标看成一类,计算类内指标的总体变异被类成分所解释的比例,如果被类成分所解释的比例大于或等于p,则聚类停止;否则,3.将这个类分解成两个类,原则是使得每一类内的指标总体变异尽可能多地被该类的类成分所解释,且类间相关系数达到最小,如果所有的被解释比例都大于或等于p,则聚类停止;否则,4.对比例最小的一类再继续进行分解;5.重复以上步骤,直到所有类的类内指标总体变异被类成分所解释的比例都大于或等于p为止。例1、为了进行体质研究,湖北省青少年体质研究所从17岁男生中随机地抽取了100人,测量了8个形态指标,它们是体重(x1),肩宽(x2),骨盆宽(x3),小腿长(x4),胸围(x5),大腿围(x6),上臂围(x7)和身高(x8)。这8个指标变量的相关系数矩阵列在下表中。试用聚类分析法分析这8个形态指标。datad1(type=corr);infilecardsmissover;input_name_$2.x1-x8;_type_=‘corr’;if_n_=1then_type_='N';else_type_='Corr';labelx1='weight'x2='widthofshoulder'x3='widthofbasinbone'x4='lenthofleg'x5='circumferenceofchest'x6='circumferenceofleg'x7='circumferenceofarm'x8='height';cards;n100x11.0000x20.62681.0000……x70.60170.23370.0142-.04200.71010.64251.0000x80.68330.50440.49940.81600.41500.26770.00461.0000run;procvarclusdata=d1outtree=tree(将分析结果存入tree数据集)proportion=75;(要求每一类的类内指标变量的总变异至少75%被类成分解释)varx1-x8;run;proctreedata=tree(用上程序输出的数据集tree来绘制树状图)horizontal(树状图为水平树状图)space=1;id_name_;run;SAS程序ObliquePrincipalComponentClusterAnalysis①100ObservationsPROPORTION=0.758VariablesMAXEIGEN=0②Clustersummaryfor1cluster(s)ClusterVariationProportionSecondClusterMembersVariationExplainedExplainedEigenvalue-------------------------------------------------------------------------188.000004.214950.52691.7304Totalvariationexplained=4.214954Proportion=0.5269Cluster1willbesplit.③Clustersummaryfor2cluster(s)ClusterVariationProportionSecondClusterMembersVariationExplainedExplainedEigenvalue-------------------------------------------------------------------------144.000002.499510.62490.9623244.000003.082340.77060.4193Totalvariationexplained=5.58185Proportion=0.6977Cluster1willbesplit.④Clustersummaryfor3cluster(s)ClusterVariationProportionSecondClusterMembersVariationExplainedExplainedEigenvalue-------------------------------------------------------------------------122.000001.816000.90800.1840244.000003.082340.77060.4193322.000001.592200.79610.4078Totalvariationexplained=6.490537Proportion=0.8113SAS输出结果⑤R-squaredwith------------------OwnNext1-R**2VariableClusterClosestRatioCluster1------------------------------X40.90800.09490.1016lenthoflagX80.90800.31640.1346heightCluster2------------------------------X10.82020.40750.3034weightX50.82370.25830.2377circumferenceofchestX60.73880.08060.2841circumferenceoflagX70.69960.01930.3063circumferenceofarmCluster3------------------------------X20.79610.25660.2743widthofshoulderX30.79610.13940.2369widthofbasinboneSAS输出结果NumberofClusters12345678+----------+----------+----------+----------+----------+----------+----------+NX4XXXXXXXXXXXXXXXXXXXXXXX.......................................................aXXXXXXXXXXXXXXXXXXXXXXXmX8XXXXXXXXXXXXXXXXXXXXXXX.......................................................eXXXXXXXXXXXXX2XXXXXXXXXXXXXXXXXXXXXXX.......................................................oXXXXXXXXXXXXXXXXXXXXXXXfX3XXXXXXXXXXXXXXXXXXXXXXX................................
本文标题:67聚类分析
链接地址:https://www.777doc.com/doc-4217346 .html