您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第七章-聚类分析与判别分析0
聚类分与判别分析聚类分析简介根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:样本聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。根据对样本聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对样本(即观测值)聚类称为Q型聚类,而对变量的聚类称为R型聚类。SPSS提供了3种聚类方法:系统聚类法(又称层次聚类);K-均值聚类(又称快速聚类法);两步法聚类。分层聚类或系统聚类(hierarchicalcluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。系统聚类分析过程只限于较小的数据文件(要聚类的对象只有数百个),但具有以下独特功能:能够对个案或变量进行聚类。能够计算可能解的范围,并为其中的每一个解保存聚类成员。有多种方法可用于聚类形成、变量转换以及度量各聚类之间的不相似性。k-均值聚类(k-meanscluster,也叫快速聚类,quickcluster),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。K均值聚类分析过程只限于连续数据,要求预先指定聚类数目,但它具有以下独特的功能:能够保存每个对象与聚类中心之间的距离。能够读取初始聚类中心,并将最终的聚类中心保存到该文件中。此外,K均值聚类分析过程可以分析大数据文件。快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类;然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。两方法在实践运用中的区别:如果观察值的个数多或文件非常庞大(通常观察值在200个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。(一)系统聚类算法过程系统聚类的步骤第1步:数据标准化。把原始数据标准化得到标准化数据矩阵。第2步:计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。第3步:选出有最大相似系数的样品组。第4步:把该组样品加权平均,这样就形成了一个新的组合样品。第5步:用新的样品类代替原来的一对样品点。第6步:对新形成的样品与其余样品数据重新计算相似系数矩阵。第7步:如此重复第2步到第5步的过程,直到把所有样品都归类完毕。第8步:最后,按下列原则构成类关系图。若两个样品在已经连接成的组中未出现过,则它们连接成一个新组。若两个样品中有一个在某组中出现过,则另一个就加入该组。若两个样品都在同一组中,则这对样品不再分组。若两个样品都在不同组中出现过,则把这两组连接在一起。系统聚类案例——Q聚类案例1:对市场上一些品牌汽车进行调查,包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的策略。选择【分析】→【分类】→【系统聚类】把从“Priceinthousand”到“Fuelefficiency”的所有变量选入右边的“变量框”。把“Model”变量选入“标注个案”框。依次单击【统计量】、【绘制】、【方法】和【保存】按钮此表为该分析的层次聚类分析中的凝聚表,在第一列中可看到分了10步的聚类,第四列示个体距离或小类距离,可看出6号样本和7号样本的距离是7.396,该小类在第四步与1号又聚类,这样一直聚类下去,第10步完成可形成一个大类。由表可知:当聚成2类时,有9个样本可以聚为第一类,2个聚为第二类;当聚成3类时,4个样本聚为第一类,4个样本聚为第二类,3个样本聚为第三类。1、6、7、10是第一类;2、3、4、9是第二类;5、8、11是第三类。系统聚类案例——R聚类案例2:根据下表12个地区城市建设指数(用来反映城市风貌的一些指数)。X1X2X3X4X5X6X7X8地区人口指数绿化指数建设指数信息指数文化指数交通指数收入指数流通指数a110.259.768.384.4926.816.441.990.41b82.5850.9813.49.3321.312.369.211.05c83.3353.39117.5217.311.79120.7d71.7247.729.426.9613.127.96.660.61e68.9143.4122.415.313.8812.429.011.41f107.862.2415.68.883121.0111.80.16g73.1844.5423.915.222.389.6613.91.19h72.2347.319.486.4313.1410.438.31.11i84.6644.0513.57.4719.1120.4910.31.76j11441.4433.211.248.7230.7714.911.1k74.9650.1313.99.6216.1410.1814.51.21l5.650.885.213.8912.949.496.771.27X1、X5、X6、X8为第一类;X2为第二类;X3、X4、X7是第三类。(二)K-均值聚类K-均值聚类的算法过程第1步:给定聚类个数K。第2步:给出初始类中心。第3步:计算所有个体到这K个类中心的距离,然后按照到K个类中心距离最短原则,把所有个体分别划分到距最近的中心点所在的类中,这样形成了K个类,完成一次迭代过程。第4步:重新计算K个类的类中心。第5步:重复进行第3步、第4步。直到迭代次数达到限制的次数或者类中心不再变化为止。案例2:根据下表12个地区城市建设指数(用来反映城市风貌的一些指数)。请采用快速样本聚类的方法将这些地区的城市风貌归为8类.X1X2X3X4X5X6X7X8地区人口指数绿化指数建设指数信息指数文化指数交通指数收入指数流通指数a110.259.768.384.4926.816.441.990.41b82.5850.9813.49.3321.312.369.211.05c83.3353.39117.5217.311.79120.7d71.7247.729.426.9613.127.96.660.61e68.9143.4122.415.313.8812.429.011.41f107.862.2415.68.883121.0111.80.16g73.1844.5423.915.222.389.6613.91.19h72.2347.319.486.4313.1410.438.31.11i84.6644.0513.57.4719.1120.4910.31.76j11441.4433.211.248.7230.7714.911.1k74.9650.1313.99.6216.1410.1814.51.21l5.650.885.213.8912.949.496.771.27上表展示了8个类的初始中心的情况。8个初始类中心点,第1类数据表示:一类人口指数为110.2,绿化指数为59.76,建设指数为8.38……此表展示了8个类中心每次迭代的偏移情况。由表知道,第二次迭代后,8个类的中心偏移均小于判定标准(0.02)。是各个类的均值,如果最终聚类可以接受,则这个类中心可以保留,用于以后聚类。按照类别分组进行单因素方差分析,可根据F值的大小近似得到哪些变量对聚类有贡献。每个聚类中的案例数1.0001.0003.0002.0001.0001.0002.0001.00012.000.00012345678聚类有效缺失表示第1类有1个样本,第2类有1个样本,第3类有3个样本,以此类推。从聚类结果可知:地区a为一类;地区b、c、k为一类;地区d、h为一类;地区e和g为一类;地区f为一类;地区j为一类;地区i为一类对以上案例分4类—K-均值聚类地区a、f是一类;地区b、c、d、e、g、h、i、k是一类;j是一类;l是一类对以上案例分4类—Q层次聚类左表为Q聚类分析结果,和右边K-均值聚类结果是一样的聚类分析练习12盎司啤酒成分和价格数据.sav判别分析(Fisher二级判别分析)判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。判别分析和聚类分析的不同:在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。判别分析的适用条件:1各自变量为连续型或有序分类变量2样本来自多元正态总体3各组的协方差矩阵相等4变量间独立,无共线性判别分析的基本步骤:1、选择自变量及组变量2、计算各组单变量的描述统计量3、推导判别系数,给出标准化或未标准化的典则判别系数,并对函数显著性进行检验4、建立Fisher线性判别函数5、进行判别分组6、进行样本回判分析,计算错分率7、输出结果在分析的各个阶段应把握如下的原则:事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。初始分析的数目不能太少。两总体Fisher判别法(Fisher二级判别分析)基本思想:从两个总体中抽取具有P个指标的样本观测数据,借助方差分析的思想构造一个判别函数。pp2211xc......xcxcy其中,系数c1、c2、…….cp确定的原则是使两组间的离差最大,而使每个组内部的离差最小。根据判别函数,对于任意新样本,将其p个指标值代入判别函数中求出y值,然后与判别临界值进行比较,据此可以判别它应该属于哪一个总体。判别准则的建立建立了判别函数后,要建立判别准则还有确定判别临界值(分界点)y0,。在两个总体先验概率相等的假设下,y0一般为和的加权平均值,即:1122110nnynyny)()()(1y)(2y判别分析举例根据华北地区和长江中下游降水年变化的不同特点,根据给定资料,建立新增测站分属何种降水类型的判别方程。并判别青岛、兖州、临沂、徐州、阜阳等中间地带的测站应分属于何种降水类型。地区测站x1x2x3华北地1区天津2.458.912.1北京3.469.714.3保定3.269.012.5石家庄3.398.513.0太原2.1310.613.3五台山1.8016.418.1兴县3.0110.113.3榆林3.707.812.5张家口1.8211.412.7大同2.0511.612.7长江中下2游地区上海0.7413.110.0东山1.0112.511.7南京0.8710.911.5合肥1.1810.310.1安庆0.4412.39.5九江0.4713.69.4汉口0.6111.78.5芜湖0.7610.510.9溧阳0.7511.312.2黄石0.6414.010.4判别对象青岛1.6813.711.6兖州1.7513.710.5临沂1.6510
本文标题:第七章-聚类分析与判别分析0
链接地址:https://www.777doc.com/doc-7454994 .html