您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 中国人民大学六西格玛质量管理研究中心
2019/8/21中国人民大学六西格玛质量管理研究中心1多元统计分析何晓群中国人民大学出版社2019/8/21中国人民大学六西格玛质量管理研究中心2第三章聚类分析•§3.1聚类分析的思想•§3.2相似性度量•§3.3类和类的特征•§3.4系统聚类法•§3.5模糊聚类分析•§3.6K-均值聚类和有序样本聚类•§3.7计算步骤与上机实现•§3.8社会经济案例研究2019/8/21中国人民大学六西格玛质量管理研究中心3§3.7计算步骤与上机实践目录上页下页返回结束本书以SPSS15.0软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下:*分析所需要研究的问题,确定聚类分析所需要的多元变量;*选择对样品聚类还是对指标聚类;*选择合适的聚类方法;*选择所需的输出结果。我们将实现过程用逻辑框图表示为图3.8。2019/8/21中国人民大学六西格玛质量管理研究中心4§3.7计算步骤与上机实践目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心5§3.7计算步骤与上机实践§3.7.1系统聚类法目录上页下页返回结束3.7.1系统聚类法用SPSS软件自带的数据文件World95.sav来做一个实例分析。为了研究亚洲国家的经济发展水平和文化教育水平,以便于对亚洲国家进行分类研究,这里我们进行聚类分析(在World95.sav数据中筛选出亚洲国家,使用Data→SelectCases→Ifconditionissatisfied中选入region=3)。详细步骤如下:(1)打开数据。使用菜单中File→Open命令,然后选中要分析的数据World95.sav。2019/8/21中国人民大学六西格玛质量管理研究中心10§3.7.1系统聚类法目录上页下页返回结束(2)在菜单中的选项中选择Analyze→Classify命令,Classify命令下有两个聚类分析命令,一是K-meanscluster(K-均值聚类),二是Hierarchicalcluster(系统聚类法)。这里我们选择系统聚类法。(3)在系统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables(变量聚类或R型聚类)。这里我们选择对样品进行聚类。(4)Display下面有两个选项,分别是Statistics(统计量)、Plots(输出图形),我们可以选择所需要输出的统计量和图形。2019/8/21中国人民大学六西格玛质量管理研究中心12§3.7.1系统聚类法目录上页下页返回结束(5)在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomerationschedule(每一阶段聚类的结果),Proximitymatrix(样品间的相似性矩阵)。由Clustermembership可以指定聚类的个数,none选项不指定聚类个数,Singlesolution指定一个确定类的个数,Rangeofsolution指定类的个数的范围(如从分3类到分5类)。(b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal水平方向、Vertical垂直方向)。(c)在Method中,Cluster可以选择聚类方法,Measure中可以选择计算的距离。(d)在Save中,可以选择保存聚类结果。选好每个选项后,点“OK”就可以执行了。2019/8/21中国人民大学六西格玛质量管理研究中心17§3.7.1系统聚类法目录上页下页返回结束在这个数据文件中,我们选择的变量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(LabelCases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。这里我们将原始变量标准化(在Method选项下TransformValues的Standardize空白框内,选择ZScores),在Statistics选项中选择AgglomerationSchedule,聚类方法选择组内联结法(Within-grouplinkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下:2019/8/21中国人民大学六西格玛质量管理研究中心20§3.7.1系统聚类法目录上页下页返回结束输出结果中,表3.7表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它们最先聚为一类。2019/8/21中国人民大学六西格玛质量管理研究中心21接近度矩阵目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心22聚类冰柱图目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心23§3.7.1系统聚类法目录上页下页返回结束图3.12是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,HongKong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了,而China右边的列只有一个X,那么从Taiwan到China又被聚为一类,后面样品聚为另一类。表3-8组内连接法聚合表2019/8/21中国人民大学六西格玛质量管理研究中心25§3.7.1系统聚类法目录上页下页返回结束表3.8是反映每一阶段聚类的结果,Coefficients表示聚合系数,第2列和第3列表示聚合的类,比如第一阶段时(Stage=1)第2个样品——Bangladesh(孟加拉国)与第3个样品——Cambodia(柬埔寨)聚为一类,注意这时有16类(17-1=16)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。2019/8/21中国人民大学六西格玛质量管理研究中心26聚合系数曲线目录上页下页返回结束将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13.2019/8/21中国人民大学六西格玛质量管理研究中心27§3.7.1系统聚类法目录上页下页返回结束图3.13是聚合系数随分类数变化的曲线。由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类数也符合我们分类的目的。2019/8/21中国人民大学六西格玛质量管理研究中心28系统树状图目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心29图3.14树状聚类图,目录上页下页返回结束图3.14是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为3,就从距离为10的地方往下切,得到分类结果如下。{1:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜}。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区,第1类的经济水平和文教水平都比较低,第3类国家的经济水平和文教水平居中。2019/8/21中国人民大学六西格玛质量管理研究中心30§3.7.2快速聚类法目录上页下页返回结束同样我们使用上面的数据文件World95.sav,从中筛选出亚洲国家,试图将亚洲国家按经济和文教水平分为3类。可以使用快速聚类法对样品进行聚类。我们使用的变量有Country(国家或地区)、Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。2019/8/21中国人民大学六西格玛质量管理研究中心31§3.7.2快速聚类法目录上页下页返回结束在SPSS软件中选择Analyze→Classify→K-MeansCluster。进入K-均值聚类对话框以后,将上面5个变量选入Variable,将Country用于标识(Labelcasesby)。将分类数(Numberofclusters)定为3。我们可以在Option选项中选择Initialclustercenter(最初分类重心),ANOVA(方差分析表),Clusterinformationforeachcase(每个样品的分类信息)。得到如下分类结果:§3.7.2快速聚类法2019/8/21中国人民大学六西格玛质量管理研究中心33§3.7计算步骤与上机实践目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心34§3.7.2快速聚类法目录上页下页返回结束输出结果中表3.9表示最初各类的重心,也就是种子点。表3.10是样品的分类情况。这里我们看到快速聚类法将亚洲国家或地区分为这样3类。{1:阿富汗、孟加拉国、柬埔寨、中国、印度、印度尼西亚、马来西亚、朝鲜、巴基斯坦、泰国、越南}。{2:香港、日本、新加坡}。{3:韩国、台湾}。我们也可以对分类结果做分析。第1类国家或地区经济和文教卫生水平较低。第2类国家或地区是亚洲国家或地区中的佼佼者,其经济发达程度和文教卫生水平都是很高的。第3类国家或地区处于两者中间。这个结果可以结合表3.13(最后各类的重心)来分析,我们看到第2类的人均GDP比另外两组要高。§3.7.2快速聚类法2019/8/21中国人民大学六西格玛质量管理研究中心36§3.7.2快速聚类法目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心37§3.7.2快速聚类法目录上页下页返回结束表3.12是方差分析表,但是应当注意值只能作为描述所用,而不能根据该值判断各类均值是否有显著差异。通过方差分析表我们可以看出,有4个变量对分类贡献显著。2019/8/21中国人民大学六西格玛质量管理研究中心38§3.7.3计算步骤与上机实践模糊聚类法目录上页下页返回结束继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。(略)2019/8/21中国人民大学六西格玛质量管理研究中心39§3.8社会经济案例研究目录上页下页返回结束2019/8/21中国人民大学六西格玛质量管理研究中心40§3.8社会经济案例研究目录上页下页返回结束例3.5城镇居民消费水平通常用表3.15中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表3.15。将原始数据录入SPSS,并依次点击“Analyze”→“Correlate”→“Bivariate”,打开BivariateCorrelations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表3.16。2019/8/21中国人民大学六西格玛质量管理研究中心45§3.8社会经济案例研究目录上页下页返回结束§3.8社会经济案例研究•表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。•我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是
本文标题:中国人民大学六西格玛质量管理研究中心
链接地址:https://www.777doc.com/doc-419541 .html