您好,欢迎访问三七文档
聚类和聚类分析指导老师:任俊玲成员:宋小舟金铭胡锐豪程亚兵目录1.聚类的概念2.聚类分析的原理3.聚类分析的分类4.距离和相似系数5.系统聚类分析6.快速聚类7.致谢什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物什么是聚类聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。聚类分析的原理聚类分析的基本原理:我们分析的样本或指标之间存在着程度不同的相似性(亲疏关系)。聚类分析法的分类Q型聚类分析是对样本进行分类处理的R型聚类分析是对变量(指标)进行分类处理的。R型聚类分析的特点(1)R型聚类分析不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。(2)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析。Q型聚类分析的特点(1)可以综合利用多个变量的信息对样本进行分类。(2)分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果。(3)聚类分析所得到的结果比传统的分类方法更细致,全面,合理。聚类分析的分类距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法:相似系数;另一种方法:距离;距离的定义方式绝对值距离欧氏(Euclidean)距离切比雪夫(Chebychev)距离明氏(Minkowski)距离1(1)pijikjkkdxx1221(2)pijikjkkdxx1()maxijikjkkpdxx11()qpqijikjkkdqxx相似系数夹角余弦Pearson相关系数指数相似系数12211()()()()nissittistnnissittiixxxxrxxxx221()13exp4pikjkijkkxxcps12211cosnisitistnnisitiixxxx系统聚类分析的原理于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样本(或指标)都聚合完毕把不同的类型一一划分出来,形成一个由小到大的分类系统,最后在把所有的样品(或指标)间的亲疏关系表示出来,这种方法称为系统聚类分析法把系统聚类的基本步骤1.构造n个类,每个类包含且只包含一个样品。2.计算n个样品两两间的距离,构成距离矩阵,记作D0。3.合并距离最近的两类为一新类。4.计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。5.画聚类图。6.决定类的个数,及各类包含的样品数,并对类作出解释。系统聚类(Hierarchicalclustering)最短距离法(singlelinkage)最长距离法(completelinkage)中间距离法(medianmethod)可变距离法(flexiblemedian)重心法(centroid)类平均法(average)可变类平均法(flexibleaverage)Ward最小方差法(Ward’sminimumvariance)类间距离S1S3S2S4S5最短距离(singlelinkage)最长距离(completelinkage)类间距离S1S3S4S5类间距离S1S3S2S4S5重心间距离(centroid)类间距离S1S3S2S4S5平均距离(average))(61235234225224215214212ddddddD类间距离S1S3S2S4S5最短距离例6个不同民族的标化死亡率与出生时的期望寿命各民族之间的欧氏距离(标准化资料)D0满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2020蒙古族G3={S3}1.7320.5320维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110D1G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2020G3={S3}1.7320.5320G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.4060D2G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5320G8={S4,S5,S6}3.1731.9731.4480D3G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2020G8={S4,S5,S6}3.1731.4480D4G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480例资料的谱系聚类图(最短距离法)藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4060.5321.2021.448例资料的谱系聚类图(最长距离法)藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4220.5261.7323.5708种系统聚类法所得聚类图快速聚类最终分类选凝聚点初始分类分类是否合理修改分类计算每个点的密度(半径=d)确定初始凝聚点,初始分类调整重心,修改分类谢谢
本文标题:聚类分析ppt
链接地址:https://www.777doc.com/doc-2047101 .html