您好,欢迎访问三七文档
第14章聚类分析StatisticalAnalysisSystem本章主要内容概述Cluster过程FastClus过程Tree过程StatisticalAnalysisSystem概述聚类分析(ClusterAnalysis)相关研究数理分类法(NumericalTaxonomy)Q分析法(Q-Analysis)分节法(Partitioning)拓扑法(Typology)自由原型识别法(UnsupervisedPatternRecognition)分类法(Classification)系统方法(Systematics)团摺法(Clumping)计程学(Taximetrics)分类描述学(Taxonorics)花序分类学(Botryology)形状分类学(Morphometrics)疾病描述学(Noxography)疾病分类学(Nosology)菊状分类学(Aciniformics)集群分类法(Agminatics)等StatisticalAnalysisSystem概述聚类分析是一组分类方法的统称,是研究各种事物和现象分类的统计方法,如土壤、作物品种分类等。聚类分析把相似的变量或观察个体归为一类,也称为一个集群(Cluster),而有较大差异的则归为不同的类别。具体地说,就是根据已知数据,计算各个观察个体或变量之间亲疏关系的统计量(距离或相关系数),再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等)合并观察个体或变量,使同一类内差别较小,类与类之间差别较大,最终分为若干类别。StatisticalAnalysisSystem概述一般我们把分类依据的条件称为指标或变量,而把要对其进行分类的对象称为样品。根据聚类对象(变量或观察个体)的不同,聚类分析可分为指标聚类(Clusteringforvariables)和样品聚类(Clusteringforindividuals)。聚类有多种方法:如系统聚类法(HierarchicalCluster,谱系聚类法)、相斥式聚类法(DisjointCluster、分离聚类法)、调优法、图论法等。StatisticalAnalysisSystem概述聚类方法——系统聚类法:首先,每一个样品分别作为独立的类别,计算各类别之间的距离,距离最近的两个类别形成一个新类别;然后,重新计算各类别之间的距离,再将距离最近的两个类别合并为一个新类别;如此反复,直到所有的类别合并到一个类别中。最后,将结果绘制成一张聚类树形图,直观地反映聚类过程。StatisticalAnalysisSystem概述聚类方法——相斥式聚类法:基于“上限-中心点-重心”原理。首先,将样品初步分为U类,作为聚类个数的“上限”,从中确定其“中心点”,作为迭代起点。然后,考察一个样品,将它移到最靠近的那个中心,形成“聚类”,并算出每一类的“重心”,再考察一个样品,将其移到另一类。若能减少样品对于各自中心的离差之和,则把此两类的中心同时移到新的重心,并且以重新计算的重心取代原来的重心。如此反复迭代,直到再也无法降低样品与重心离差之和为止,移动终止,形成各个聚类。StatisticalAnalysisSystem概述聚类依据:距离法,就是将每一样品看成m维空间的一个点,这样研究样品间的关系就可以变为研究m维空间中点与点间的关系,而点与点间的关系常用距离来表示。相似系数法,越相近的样品,它们的相似系数越接近1(或-1),而彼此无关的样品则相似系数接近0。这样就可以根据相似系数的值,把比较相似的样品归为一类,而把不相似的样品归为不同的类。StatisticalAnalysisSystem概述SAS中常用的聚类过程:Cluster过程FastClus过程VarClus过程Tree过程AceClus过程StatisticalAnalysisSystemCluster过程可使用11种距离中的任一种对SAS数据集中的观测(样品)进行系统聚类。输入数据可以是原始数值或观测之间的距离。若数据为原始数值,默认的距离计算方法为欧氏距离。如果要使用其他的距离计算方法,可以先调用Distance过程将数据转换为相应的距离数据,再调用Cluster过程进行分析。Cluster不太适合大样本数据聚类。StatisticalAnalysisSystemCluster过程语句格式:StatisticalAnalysisSystemCluster过程Cluster语句选项(部分):选项功能及用法OutTree将聚类分析结果输出到指定的SAS数据集,此数据集可由Tree过程绘制树状聚类图。若忽略此项,数据集将默认保存为“DATAn”。Method=指定类间距离的定义方法。Standard对变量进行标准化。Print=指定结果中显示聚类过程的层数。StatisticalAnalysisSystemCluster过程类间距离的定义方法(选项method=):关键字对应的方法MethodAverage或Ave类平均法、均连法、欧几里德平均距离法AveragelinkagemethodCentroid或Cen重心法ThecentroidmethodComplete或COM远邻法、最长距离法、臻连法CompletelinkagemethodSingle或Sin近邻法、最短距离法、单连法SinglelinkagemethodEml最大似然法MaximumlikelihoodmethodStatisticalAnalysisSystemCluster过程关键字对应的方法MethodDensity或Den密连法DensitylinkagemethodTwostage或Two双连法Two-stagedensitylinkagemethodFlexible或Fle弹性β法Theflexible-betamethodMcquitty或Mcq马氏法McQuitty’smethodMedian或Med中位数法Gower’smedianmethodWard或WarWard法,离差平方和法Ward’sminimum-variancemethodStatisticalAnalysisSystemFastClus过程利用K-平均数法(K-Means)对观测进行相斥式聚类分析。聚类依据同样是样品间的距离。默认情况下,以欧氏距离作为分类依据。适用于大样本数据分析,观测可多达10万个。FastClus分析结果不会产生树状聚类图,若要对大样本数据进行系统聚类,可先调用FastClus过程以确定样品的初始分类,再将输出结果交给Cluster过程进行聚类分析。StatisticalAnalysisSystemFastClus过程由于FastClus过程用到初始化的方法,使得它对样品中的离群值非常敏感,分析结果中离群值往往独占一个分类,所以FastClus过程可以当作一种有效的离群值检测工具来用。StatisticalAnalysisSystemTREE过程用来画聚类的分类图,此图称为树形图(Dendrogram)或现象图(Phenogram)。数据首先必须用CLUSTER过程或VARCLUS过程处理,然后将处理过后的数据送入TREE过程制图。TREE过程的结果是另一个SAS资料文件,其内容包括了集群的成员与成员所属的阶层(这样的结果只可从系统聚类获得!)。StatisticalAnalysisSystem样品聚类示例14a01(裴鑫德编著.多元统计分析及其应用.北京:北京农业大学出版社,1991,10第1版):观测14个玉米杂交种(含2个对照)的10项指标,得观测数据,对其进行聚类分析。数据文件SasData14a01.txt样品聚类可通过cluster过程、AceClus过程或FastClus过程来完成,但后两者往往用于大样本数据的聚类分析时对数据进行预处理,因此,一般情况下最终聚类结果均通过Cluster过程获得。聚类图则必须通过Tree过程完成。StatisticalAnalysisSystem样品聚类/*SasProg14a01.Sas*/datad14a01;infile'e:\sas\sasdata\sasdata14a01.txt';inputno$x1-x10;procclustermethod=averageouttree=d14a02;idno;varx1-x10;run;proctreedata=d14a02;run;StatisticalAnalysisSystem样品聚类StatisticalAnalysisSystem样品聚类结果解释:第一部分:相关矩阵的特征值(EigenvaluesoftheCovarianceMatrix)。各列依次为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差百分比(Proportion)、占总方差累计百分比(Cumulative)。下面两行是样本均方根标准差(Root-Mean-SquareTotal-SampleStandardDeviation)、样本间均方根距离(Root-Mean-SquareDistanceBetweenObservations)。StatisticalAnalysisSystem样品聚类结果解释:第二部分:聚类过程(ClusterHistory)。各列依次为类别数量(该新类别形成后类别的总数,NCL)、合并的类别(形成新类的样品或类别,--ClustersJoined---)、形成新类包含样品的数量(FREQ)、合并类别对之间的标准化均方根距离(NormRMSDist)、距离相等(同秩)的类别对数(Tie)。--ClustersJoined---:样品以相应的ID值或观测号(OBn)来标识,类别以CLn来标识。StatisticalAnalysisSystem样品聚类示例14b01(薛富波,张文彤,田晓燕编.SAS8.2统计应用教程.北京:兵器工业出版社、北京希望电子出版社,2004,8第1版):调查27名沥青工人和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数、染色体畸变细胞数等,试对27名工人进行聚类分析。数据文件SasData14b01.txtStatisticalAnalysisSystem样品聚类/*SasProg14b01.Sas*/datad14b01;infile'e:\Sas\Sasdata\Sasdata14b01.txt';inputno$ageyearssmkser_p21rat_p21p53sceaberrcell_ab;run;procclustermethod=average;idno;varageyearssmkser_p21rat_p21p53sceaberrcell_ab;run;proctreehorizontalheight=ncllines=(color=bluewidth=1dots);run;quit;StatisticalAnalysisSystem样品聚类从标准化均方根距离来判断聚类的合适数量。类别从两个变为一个时,标准化均方根距离增幅最大,从而判断此例中聚类的合适数量为两类。StatisticalAnalysisSystem样品聚类StatisticalAnalysisSystem概述VARCLUS过程:对变量作系统或相斥式聚类。IPFPHC过程:把一个交换流程图(TransactionFlow)的元素分类以便形成阶层式的集群,有关这个程序的指令请查阅SUGISupplementalLibraryUser‘sGuide(1983年版或最新版)。:OVERCLUS过程:从相似数据的矩阵中找出重叠式的集群。有关这个程序的指令请查阅SUGISupplementalLibraryUser‘sGuide(1983年版或最新版)。下列
本文标题:第14章聚类分析.
链接地址:https://www.777doc.com/doc-2153554 .html