您好,欢迎访问三七文档
聚类分析引言相似性度量系统聚类K-均值聚类聚类分析的SPSS实现引言俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。这里要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。饮料数据16种饮料的热量、咖啡因、钠及价格四种变量哪些少数民族的生存状况更接近?民族原始数据标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59朝鲜族7.4467.14蒙古族8.1165.48维吾尔族10.2158.88藏族9.5159.24哈萨克族9.8160.47*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。聚类分析需要解决的一个问题如何衡量样本点之间的距离或相似程度?距离相似系数常用的距离的计算方法设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义。当变量的测量值相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。常用的距离的计算方法欧氏距离(Euclidean)平方欧氏距离SquaredEuclidean切比雪夫距离(Chebychev)2)(jkikxx2)(jkikxx||maxjkikxx闵柯夫斯基距离按q的取值不同可以包括多种距离计算方法。例如:1/1()()pqqijikjkkdqXX(1)绝对距离(1q):1(1)pijikjkkdXX(2)欧氏距离(2q):21/21(2)()pijikjkkdXX相似系数的计算方法变量间的相似性可以从它们的方向趋同性或“相关性”进行考察,“夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。(1)夹角余弦两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然,∣cosij∣1。12211cos()()pikjkkijppikjkkkXXXX相似系数的计算方法(2)Pearson相关系数Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为显然也有,∣rij∣1。12211()()()()pikijkjkijppikijkjkkXXXXrXXXX系统聚类法(分层聚类)hierarchicalcluster开始时,有多少样本点就是多少类。第一步先把最近的两类(点)合并成一类;然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。需要解决的新问题:如何计算类与类之间的距离?最短距离法最长距离法重心法Ward法(离差平方和法)等等最短距离S1S3S2S4S5最长距离S1S3S4S5••11,xy22,xy重心法(Centroidclustering):均值点的距离离差平方和法(Ward法):合并离差平方和变动最小的两个类1,24,57,95.0)5.12()5.11(222)89()87(225.0)5.45()5.44(22红绿(1,2,7,9)44.75离差平方和增加44.75-2.5=42.25黄绿(4,5,7,9)14.75离差平方和增加14.75-2.5=12.25黄红(1,2,4,5)10离差平方和增加10-1=9故按该方法黄红首先连接。离差平方和法:合并离差平方和变动最小的两个类6个不同民族的聚类:民族原始数据标准化数据标化死亡率(‰)出生时期望寿命(岁)标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59-1.591.44朝鲜族7.4467.14-0.620.73蒙古族8.1165.48-0.220.38维吾尔族10.2158.881.03-0.99藏族9.5159.240.61-0.91哈萨克族9.8160.470.79-0.66各民族之间的欧氏距离满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110最短距离法:(1)首先合并G5、G6,再计算新类与其他类之间的距离。满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110(2)根据计算结果合并G4,G7G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.4060根据表中的结果合并G2,G3G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G8={S4,S5,S6}3.1731.9731.4480根据表中的数据合并G1,G9G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2080G8={S4,S5,S6}3.1731.4480最后合并成一类G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480聚类结果的谱系聚类图(最短距离法)藏族哈萨克族维吾尔族朝鲜族蒙古族满族0.3110.4060.5261.2081.448啤酒名热量钠含量酒精价格Budweiser144.0019.004.70.43Schlitz181.0019.004.90.43Ionenbrau157.0015.004.90.48Kronensourc170.007.005.20.73Heineken152.0011.005.00.77Old-milnaukee145.0023.004.60.26Aucsberger175.0024.005.50.40Strchsbohemi149.0027.004.70.42Miller-lite99.0010.004.30.43Sudeiser-lich113.006.003.70.44Coors140.0016.004.60.44Coorslicht102.0015.004.10.46Michelos135.0011.004.20.50Secrs150.0019.004.70.76Kkirin149.006.005.00.79Pabst68.0015.002.30.36Hamms136.0019.004.40.43Heilemans144.0024.004.90.43Olympia72.006.002.90.46Schlite97.007.004.20.47SPSS系统聚类的实现和结果分析:相关软件操作选择分析-分类-系统聚类把热量、钠含量、酒精、价格选入变量框;把啤酒名选入“标注个案”框。选择“绘制”,选中“树状图”;方法设定在聚类方法框中选择需要的方法;在度量标准框中选择距离的计算方法;在“标准化”框中选择Z得分。输出结果:聚类表这一步合并了1和17这一步合并了第9和12。但这里9代表第8步中形成的类,12代表第9步中形成的类。依此类推可知这一步合并之后的新类包括出9,20,10,12,13。冰柱图从图中可以读出所有的分类结果。图中标出的是分5类的情况。聚类树形图(SPSS18.0)图形反映了类间的距离和聚类过程。最短距离法的聚类结果按照不同的聚类方法可能得到完全不同的聚类结果。选择各类较为均衡、易于解释的方法。SPSS结果分析K-均值聚类系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。k-均值聚类(k-meanscluster)可以避免上述问题,适用于样本点很多的情况,但要求你先确定要分多少类。K-均值聚类的步骤先确定k个点为“凝聚点”(SPSS软件自动确定);也就是说,把这k个点作为k类中每一类的凝聚点。然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。K-均值聚类的SPSS操作分析分类K-均值聚类,设置好相应的选项。主要是设置好分类的数量。6个民族的k-均值聚类结果(3类)判别分析引言距离判别法Fisher判别法Bayes判别法判别分析的SPSS实现引言在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据已知类别的资料确定一种判别方法,判定一个新的样品归属哪一类。例如,某医院有患有肺炎、肝炎、冠心病、糖尿病等的病人的资料,记录了患者若干项指标数据。现在想利用现有的这些资料找出一种方法,以便根据新的病人的指标数据判定其患有哪种病。判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。判别分析和聚类分析主要不同点是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别分析的基本原理根据已掌握的每个类别的若干样本的数据信息,建立判别公式和判别准则。当遇到新的样本点时,根据总结出来的判别公式和判别准则,即能判别该样本点所属的类别。判别分析方法的分类两个总体判别分析和多总体判别分析常用的判别分析方法距离判别法(马氏距离)Fisher判别法Bayes判别法1.距离判别法的思想两个总体的距离判别问题:设两个总体G1和G2,对于一个新的样品X,要判断它来自哪个总体。方法:按就近原则归类。求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。根据上述准则可以推导出一个判别函数W,把待判样品的值代入判别函数,根据计算结果是否大于0得出判别结论。2.Fisher判别法借助方差分析的思想构造一个线性判别函数:确定判别函数系数时要求使得总体之间区别最大,而使每个总体内部的离差平方和最小。从几何的角度看,判别函数就是p维向量X在某种方向上的投
本文标题:聚类分析和判别分析
链接地址:https://www.777doc.com/doc-1728239 .html