您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 医学统计学第十九章 聚类分析
2020/2/27医学统计学第十九章聚类分析(ClusteringAnalysis)2020/2/27医学统计学Content•Similaritycoefficient•Hierarchicalclusteringanalysis•Dynamicclusteringanalysis•Orderedsampleclusteringanalysis2020/2/27医学统计学判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。2020/2/27医学统计学聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。2020/2/27医学统计学无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similaritycoefficient)的定义。2020/2/27医学统计学第一节相似系数1.R型(指标)聚类的相似系数X1,X2,…,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数:绝对值越大表明两变量间相似程度越高。同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。22()()(19-1)()()iijjijiijjXXXXrXXXX2020/2/27医学统计学2.Q型(样品)聚类常用相似系数将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。(1)欧氏距离:欧氏距离(Euclideandistance)(2)绝对距离:绝对距离(Manhattandistance)(3)Minkowski距离:绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。2()(19-3)ijijdXX||(19-4)ijijdXX||(19-5)qqijijdXX2020/2/27医学统计学(4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobisdistance)的计算公式为其中向量。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。(19-6)ijd1XSX1122(,,,)ijijimjmXXXXXXX2020/2/27医学统计学第二节系统聚类系统聚类(hierarchicalclusteringanalysis)是将相似的样品或变量归类的最常用方法,聚类过程如下:1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品(或变量)被并为一类。2020/2/27医学统计学一、类间相似系数的计算系统聚类的每一步都要计算类间相似系数,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。2020/2/27医学统计学当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。1.最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2.最小相似系数法类间相似系数计算公式为3.重心法(仅用于样品聚类)用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为,,Min(),19-7Max(),pqpqpqijiGjGpqijiGjGDdrr样品聚类()指标聚类,,Max(),19-8Min(),pqpqpqijiGjGpqijiGjGDdrr样品聚类()指标聚类(19-9)pqpqDdXX2020/2/27医学统计学4.类平均法(仅用于样品聚类)对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。221(19-10)pqijpqDdnn2020/2/27医学统计学5.离差平方和法又称Ward法,仅用于样品聚类。此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。2020/2/27医学统计学例19-1测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。732.0174.0234.0055.0099.0852.0432321)0(XXXXXXR2020/2/27医学统计学聚类过程如下:(1)各个指标独自成一类G1={X1},G2={X2},G3={X3},G4={X4},共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类合并成G5={X1,X2},形成3类。计算G5与G3、G4间的类间相似系数G3,G4,G5的类间相似矩阵351323Max(,)Max(0.099,0.055)0.099rrr451424Max(,)Max(0.234,0.174)0.234rrr234.0099.0732.05443)1(GGGGR2020/2/27医学统计学(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并成G6={G3,G4},形成两类。计算G6与G5间的类间相似系数。(4)最终将G5,G6合并成G7={G5,G6},所有指标形成一大类。563545Max(,)Max(0.099,0.234)0.234rrr2020/2/27医学统计学根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:{X1,X2},{X3,X4},即长度指标归为一类,围度指标归为另一类。图19-14个指标聚类系统聚类图身高下肢长腰围胸围图19-14个指标聚类的系统聚类图0.0850.7320.2342020/2/27医学统计学例19-2今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。表19-14个运动项目的测定值运动项目名称能耗X1(焦耳/分、m2)糖耗X2(%)负重下蹲G127.89261.421.3150.688引体向上G223.47556.830.1740.088俯卧撑G318.92445.13-1.001-1.441仰卧起坐G420.91361.25-0.4880.6652020/2/27医学统计学本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化,分别是Xi的样本均数与标准差。变换后的数据列在表19-1的,列。,iiiiiiXXXXSS、1X2X2020/2/27医学统计学聚类过程如下:(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得同样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵22221211211222()()(1.3150.174)(0.6880.088)1.289dXXXX22221311311232()()(1.3151.001)(0.6881.441)3.145dXXXX168.2878.0803.1928.1145.3289.1432321)0(GGGGGGD2020/2/27医学统计学(2)G2,G4间距离最小,将G2,G4并成一新类G5={G2,G4}。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离G1,G3,G5的距离矩阵(3)G1,G5间距离最小,将G1,G5并成一新类G6={G1,G5}。计算G6与G3之间的距离(4)最终将G1,G6合并成G7={G1,G6},所有指标形成一大类。168.2803.1145.35331)1(GGGGD361335Max(,)Max(3.145,2.168)3.145ddd351323Max(,)Max(0.099,0.055)0.099rrr451424Max(,)Max(0.234,0.174)0.234rrr2020/2/27医学统计学根据聚类过程,绘制出系统聚类图(见图19-2)。结合系统聚类图和专业知识认为分成两类较好:{G1,G2,G4},{G3}。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大,训练时应提高膳食标准。2020/2/27医学统计学图19-24个运动项目样品聚类的系统聚类图0.8783.1451.8032020/2/27医学统计学聚类实例分析相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外,还必须结合专业知识。2020/2/27医学统计学例19-3调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3,其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。2020/2/27医学统计学表19-3沥青工和焦炉工的生物标志物检测及聚类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结果14625521381.680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890
本文标题:医学统计学第十九章 聚类分析
链接地址:https://www.777doc.com/doc-4042433 .html