您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第五章 聚类及判别分析
第五章聚类与判别分析(一)主要内容•聚类及判别分析•快速样本聚类•分层聚类•判别分析5.1聚类与判别概述•聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础科学。掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义。•聚类有两种基本的方法:快速样本聚类和分层聚类。•判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法。5.1聚类与判别概述5.1.1聚类分析•聚类分析(ClusterAnalysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。根据分类对象不同分为样品聚类和变量聚类。•样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。•变量聚类在统计学中有称为R型聚类。反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。5.1聚类与判别概述5.1.1聚类分析根据分类对象的不同,样品(观测量)聚类和变量聚类两种:•样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)•变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。5.1聚类与判别概述5.1.2判别分析•判别分析(Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家、植物学家对动物、植物如何分类的研究和某个动物、植物属于哪一类、哪一目、哪一纲的判断等。5.1聚类与判别概述5.1.3Classify的功能SPSS中进行聚类和判别分析的统计过程,是由菜单“Analyze”令“Classify’”导出的。选择“Classify’”,可以显示三个过程命令:(1)K-MeansCluster进行快速聚类过程。(2)HierarchicalCluster进行样本聚类和变量聚类过程。(3)Discriminant进行判别分析过程。5.2快速聚类5.2.1快速聚类的概念•K-MeansCluster执行快速样本聚类,使用k均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类;指定使聚类过程中止的判据,或迭代次数等。进行快速样本聚类首先要选择用于聚类分析的变量和类数。•参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但聚类数不能大于数据文件中的观测量数。5.2快速聚类5.2.1快速聚类的概念•如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是个点。K个事先指定的观测量就是k个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中;形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。•从上述分析过程可以看出,K-MeansCluster不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。5.2快速聚类5.2.1快速聚类的概念•例1为研究儿童生长发育的分期,调查1253名1个月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1个月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。5.2快速聚类5.2.1快速聚类的概念•例15.2快速聚类5.2.1快速聚类的概念•例1激活“Analyze”菜单选“Classify”中的“K-MeansCluster”项,弹出K-MeansClusterAnalysis对话框(如图所示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击向右的按钮使之进入Variables框;在NumberofClusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterateanddassify指先定初始类别中心点,而后按K-means算法作叠代分类;Classifyonly指仅按初始类别中心点分类,本例选用前一方法。5.2快速聚类5.2.1快速聚类的概念例1•表1、表2显示:首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。•表3对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.001,即聚类效果好。InitialClusterCenters11.035.473.58.3450.3019.309.85.4911.815.203.14.1811.2797.182.11.16身高(cm)体重(kg)胸围(cm)坐高(cm)1234ClusterFinalClusterCenters11.035.472.86.9150.3019.307.751.4711.815.202.09.4811.2797.182.11.66身高(cm)体重(kg)胸围(cm)坐高(cm)1234ClusterANOVA37.5813.36915101.785.000817.11631.35515603.259.00045.4093.28215161.115.0002932.1313.2361512434.259.000身高(cm)体重(kg)胸围(cm)坐高(cm)MeanSquaredfClusterMeanSquaredfErrorFSig.TheFtestsshouldbeusedonlyfordescriptivepurposesbecausetheclustershavebeenchosentomaximizethedifferencesamongcasesindifferentclusters.Theobservedsignificancelevelsarenotcorrectedforthisandthuscannotbeinterpretedastestsofthehypothesisthattheclustermeansareequal.5.2快速聚类5.2.1快速聚类的概念例1这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名QCLI存于原始数据文件中NumberofCasesineachCluster1.0001.0002.00015.00019.000.0001234ClusterValidMissing5.3分层聚类5.3分层聚类调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式。一是对研究对象本身进行分类,称为Q型举类;另一种是对研究对象的观察指标进行分类,称为R型聚类。变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。5.3分层聚类5.3分层聚类通常情况下,在聚类进行之前,Proximitice过程先根据反映各类特性的变量对原始数据进行预处理,即利用标准化方法对原始数据进行一次转换,并进行相似性测度或距离测度。然后Cluster过程根据转换后的数据进行聚类分析。在SPSSforWindowS中,分层聚类各方法都包含了Proximitice过程对数据的处理和Cluster过程对数据的分析。给出的统计量可以帮助用户确定最好的分类结果。Cluster过程可以通过Plot选择项给出两种统计图:Dendrogram树形图Icicle冰柱图。Cluster过程的输出项可以选择,还可以建立新变量,把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中。5.3分层聚类例2现在测定了29名儿童的X6血红蛋白(g/100ml)与微量元素X1钙、X2镁、X3铁、X4锰、X5铜(pg/100ml)测定结果如表所示。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济、快捷地评价儿童的营养状态。5.3分层聚类例2数据见表5.3分层聚类例2数据见表5.3分层聚类例2从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击向右的箭头按钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,选择Variables点击‘Statistics”按钮,弹出HierarchicalClusterAnalysis:Statistics对话框,选择Proximtymatrix,要求显示欧氏不相似系数平方矩阵5.3分层聚类例2点击“Plots”按钮弹出HierarchicalClusterAnal}sis:Plots对话框,选择Dendrogram项。点击“Method”按钮弹出HierarchicalClusterAnalysiS:Method对话框,系统提供了7种聚类方法供用户选择,本例选择类间平均链锁法(系统默认方法)。选择距离测量方法,系统提供了8种形式供用户选择,本例选用Pearsoncorrelation5.3分层聚类例2表1是数据处理的基本信息;表2是欧式不相似系数平方矩阵。CaseProcessingSummarya29100.0%0.0%29100.0%NPercentNPercentNPercentValidMissingTotalCasesCorrelationbetweenVectorsofValuesuseda.ProximityMatrix1.000.745.342.108.642.202.7451.000.635-.117.583.569.342.6351.000-.265.265.864.108-.117-.2651.000.293-.321.642.583.265.2931.000.246.202.569.864-.321.2461.000Case钙镁铁锰铜血红蛋白钙镁铁锰铜血红蛋白MatrixFileInput5.3分层聚类例2表3是聚类过程表,显示x3和x6先合并,之间的相关系数最大0.864;接着是x1和x2合并相关系数是0.745;依次类推;图1是聚类为5类的垂直冰柱图。AgglomerationSchedule36.86400412.74500315.61220413.37631514-.061400Stage12345Cluster1Cluster2ClusterCombinedCoefficientsCluster1Cluster2StageClusterFirstAppearsNextStage
本文标题:第五章 聚类及判别分析
链接地址:https://www.777doc.com/doc-3177580 .html