您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 聚类分析及其应用实例
聚类分析及其应用实例Outlines聚类的思想常用的聚类方法实例分析:层次聚类1.聚类的思想Oh?1.聚类的思想Oh!1.聚类的思想聚类(clustering)是对物理的或抽象的对象集合分组的过程即把“性质相似”或“相互关系密切”的样品或指标聚在一起。同一个类内样本之间彼此相似,不同类间的样本足够不相似。寻找数据中潜在的自然分组结构或感兴趣的关系。samecolor!基本原理:将随机现象归类的统计学方法;分类R型聚类:指标聚类,目的是指标降维从而选择有代表性的指标;Pearson、Spearman系数Q型聚类:样本聚类,目的是找出样品间的共性;欧氏距离、绝对距离、马氏距离及明氏距离等。逐步聚类法---用于对大样本的样品间聚类K-均值聚类方法系统聚类法---用于对小样本的样品间聚类及对指标聚类。层次聚类模糊聚类法---建立在模糊数学基础上,适用于小样本分割聚类法---适用于对指标聚类……2常用的聚类分析方法3.实例分析:层次聚类算法凝聚的方法(自底向上)『常用』思想:一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件。分裂的方法(自顶向下)思想:一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件a,b,c,d,ec,d,ed,ea,bedcba第4步第3步第2步第1步第0步凝聚的(AGENS)第0步第1步第2步第3步第4步分裂的(DIANA)定义:对给定的数据进行层次的分解X1:Gibbon(长臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2凝聚的层次聚类示意图Oh?常用的聚类统计量距离函数----用于对样品的聚类欧式距离:两点之间的直线距离马氏距离:数据的协方差距离切比雪夫距离:两个向量之间的最大距离曼哈顿距离:运动物体走过的实际距离。。。。。。相似系数----常用于对变量的聚类Pearson相关系数:两个连续变量间呈线性相关Spearman相关系数:利用两变量的秩次大小作线性相关分析Kendall等级相关系数,。。。X1:Gibbon(长臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2凝聚的层次聚类示意图C3C4常用的类间距离最短距离最长距离类平均距离几何平均距离离差平方和法最短距离(singlelinkage):Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。GpGq},|min{qpijpqGjGidDGGppGGqq最长距离(completelinkage):Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。},|max{qpijpqGjGidDGGppGGqq类平均距离(averagelinkage):Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。qptitjijqppqGjGidttDpq,111GGppGGqq几何中心距离(centroidlinkage):用Gp和Gq两类几何中心的距离为两个类之间的距离。qptiqiqqtipippqppqXtXXtXXXdD1)()(1)()()()(11,用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间的距离用Dpq表示。ClusterPClusterQClusterMGGppGGqq离差平方和法(wardmethod):各元素到类中心的欧式距离之和。qpM2凝聚的层次聚类法举例已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之间的距离矩阵(经过数据变换处理)。X(1):Gibbon(长臂猿);X(2):Symphalangus(合趾猿);X(3):Human(人);X(4):Gorilla(大猩猩);X(5):Chimpanzee(黑猩猩)构造:样本间距离——欧氏距离;类间距离——最短距离;X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0步骤15个物种各自构成1类,得到5类,有:初始分类G(1)={X(i)}(i=1,2,3,4,5)初始类别数目m=5初始类间距离矩阵D(1)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)X3X4X1X5X2X(3)X(4)X(5)C(4)X(3)01.53.5X(4)02X(5)0C(4)0步骤2由D(1)知,合并X(1)和X(2)为新类C(4)={X(1),X(2)},有:新的G(2)={X(3),X(4),X(5),C(4)}新的类别数目m=4新的类间距离矩阵D(2)D(2)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)C(4)X1X3X4X5X2C42.546步骤3由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3),X(4)},有:新的G(3)={X(5),C(4),C(3)}新的类别数目m=3新的类间距离矩阵D(3)X(5)C(4)C(3)X(5)06C(4)0C(3)0D(3)X1X3X4X5X2C4X(3)X(4)X(5)C(4)X(3)01.53.52.5X(4)024X(5)06C(4)0C3C32.52步骤4由D(3)知,合并X(5)和C(3)为一新类C(2)={X(5),C(3)},有:新的G(4)={C(4),C(2)}新的类别数目m=2新的类间距离矩阵D(4)C(4)C(2)C(4)0C(2)0D(4)C4C3X3X4X5X2X1X(5)C(4)C(3)X(5)062C(4)02.5C(3)0D(3)C2C22.5C4步骤5由D(4)知,最后合并C(4)和C(2)为一新类C(1)={C(4),C(2)},有:新的G(5)={C(4),C(2)}新的类别数目m=1新的类间距离矩阵D(5)C(1)C(1)0D(5)C3X3X4X5X2C2X1C1C(4)C(2)C(4)02.5C(2)0C3X1:Gibbon(长臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)Human(人)Gorilla(大猩猩)Chimpanzee(黑猩猩)Symphalangus(合趾猿)Gibbon(长臂猿)X3X4X1X5X2X3X4X1X5X2C2C1C4步骤6画谱系聚类图凝聚的层次聚类算法算法性能:(1)简单,但遇到合并点选择困难的情况(2)一旦一组对象被合并,就不能撤销(3)算法复杂度大,不适合大数据集的计算聚类结果评价:(1)较高的类内相似度(2)较高的类间相异度
本文标题:聚类分析及其应用实例
链接地址:https://www.777doc.com/doc-8106081 .html