您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > SPSS数据的聚类分析
2020/1/311zf聚类分析(ClusterAnalysis)知识要点:•1、什么是聚类分析?•2、理解聚类分析的基本思想•3、聚类分析的相似性度量•4、系统聚类法(HierarchicalCluster)和快速聚类(k-means)的基本思想•5、结合SPSS软件进行案例分析•6、聚类分析的应用2020/1/312zf例1:谁经常光顾商店,谁买什么东西,买多少?•按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类•这样商店可以….•识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)•刻画不同的客户群的特征(如用性别、年龄等变量来刻画)聚类分析的应用:无处不在为什么这样分类?有何好处?因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。挖掘有价值的客户,并制定相应的促销策略:对经常购买酸奶的客户;对累计消费达到12个月的老客户。针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!2020/1/313zf例2:谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以……制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!2020/1/314zf如何实现聚类?---聚类分析的基本思想和方法1、什么是聚类分析?•聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多元统计分析方法。•聚类分析的目的:把相似的研究对象归成类;即:使类内对象的相似性最大化和类间对象的差异性最大化。问题的关键:如何刻画研究对象(样品或指标)间的相似性?有哪些方法可以实现研究对象的分类呢?2020/1/315zf•系统聚类(又称为层次聚类Hierarchicalcluster):凝聚式系统聚类、分解式系统聚类•非系统聚类(又称为非层次聚类non-hierarchicalcluster):如K-均值法(快速聚类法)2、聚类分析的方法2020/1/316zf凝聚式分解式以系统聚类法为例2020/1/317zf二、相似性度量1、相似性的度量指标:•相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;•距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。•样本分类(Q型聚类)常以距离刻画相似性•指标分类(R型聚类)常以相似系数刻画相似性2020/1/318zf常用距离:1)明考夫斯基距离(Minkowskidistance)明氏距离有三种特殊形式:1a)绝对距离(Block距离):当g=1时pkjkikijxxd11gpkgjkikijxxd11)||(2020/1/319zf1b)欧氏距离(Euclideandistance):当g=2时1c)切比雪夫距离:当时2112)(2pkjkikijxxdjkikpkijxxd1max)(g2020/1/3110zfCDAB10551011x2x2x1x22510125AB22101101CD例:横轴代表重量(单位:kg),纵轴代表长度(单位:cm)。有四个点A,B,C,D,见图。明氏距离及其特殊形式的缺陷2020/1/3111zf21xmmx若用作单位,单位不变,则A坐标为(0,50),C坐标为(0,100)2250102600AB22100110001CD2020/1/3112zf以上几种距离主要有以下两个缺点:•距离的值受到各指标的量纲的影响,具有一定的人为性。•距离的定义没有考虑各个变量之间的相关性和重要性。如何克服以上的缺点??2020/1/3113zf标准化处理:当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:其中:为第j个变量的样本均值;为第j个变量的样本方差。改进距离的定义,运用马氏距离。*1,2,,1,2,,ijjijjjxxxinjps11njijixxn211()1njjijjisxxn2020/1/3114zf2)马氏距离克服量纲的影响克服指标间相关性的影响)()(2ji1jixxxxijd1/2[()()]ijd1ijijxxxx缺点:协方差矩阵难以确定2020/1/3115zf1、最短距离(NearestNeighbor)x21•x12•x22•x11•13d类Gp与类Gq之间的距离Dpq:min(,)pqijDdxx其中,d(xi,xj)表示点xi∈Gp和xj∈Gq之间的距离以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。三、类和类之间的距离度量2020/1/3116zf例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.812020/1/3117zfG1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}采用欧氏距离得到的距离矩阵:1234510211.670D1=313.8024.630413.1224.062.200512.8023.543.512.210河南与甘肃的距离最近,先将二者(3和4)合为一类G6={G3,G4}2020/1/3118zfd61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54712D3=70112.800223.5411.670河南、甘肃与青海并为一新类G7={G6,G5}={G3,G4,G6}G8={G1,G2}2020/1/3119zfd78=min{d71,d72}=12.8078D4=70812.80河南3甘肃4青海5辽宁1浙江22020/1/3120zf2、最长距离(FurthestNeighbor)•••x11•x21••••12dmax(,)pqijDdxx以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。2020/1/3121zf(3)组间平均连接(Between-groupLinkage)••••••991dd为所有样本对间的平均距离。利用了所有样本对距离的信息2020/1/3122zf(4)组内平均连接(Within-groupLinkage)1234566dddddd••••对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对.2020/1/3123zf(5)重心法(Centroidmethod):••11,xy22,xy类均值点的距离2020/1/3124zf(6)离差平方和法(Ward’smethod)2,41,56,522(23)(43)222(65.5)(55.5)0.522(13)(53)82020/1/3125zf红绿(2,4,6,5)8.75离差平方和增加8.75-2.5=6.25黄绿(6,5,1,5)14.75离差平方和增加14.75-8.5=6.25黄红(2,4,1,5)10-10=0故按该方法的连接,黄红首先连接。先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至所有样本归为一类为止。2020/1/3126zf四、系统聚类法系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。——事先不用确定分多少类SPSS系统聚类法:凝聚式系统聚类法•1、所有的研究对象各自算作一类,将最“靠近”的首先聚类•2、再将这个类和其它类中最“靠近”的结合,直至所有的对象都合并为一类为止SPSS处理:分析(Analyze)-分类(Classify)-系统聚类(HierarchicalCluster)2020/1/3127zf案例分析某年度31个省市自治区小康指数的聚类分析(见数据:聚类分析(小康指数).SAV)2020/1/3128zfSPSS操作:1、Analyze-Classify-HierarchicalCluster2、把聚类的依据变量X1(综合指数)、X2(社会结构)、X3(经济与技术发展)、X4(人口素质)、X5(生活质量)、X5(法制与治安)等选入Variables对话框3、把dq(省市)变量选入Labelcaseby样本标注对话框4、在Cluster选Cases,表示是对31个省市自治区(样本)进行聚类2020/1/3129zf点击统计量(Statistics)按钮出现对话框:选入聚类的依据变量X1(综合指数)、X2(社会结构)、X3(经济与技术发展)、X4(人口素质)、X5(生活质量)、X5(法制与治安)等对样本进行标注对样本进行聚类2020/1/3130zfStatistics对话框:•分类信息表(Clustermembership):无(None)表示不列示分类信息表;单一方案(Singlesolution)指定分为某一类的分类信息表;方案范围(Rangeofsolution)指定分为某一类的分类信息表。也称凝聚状态表相似性矩阵表分类信息表若要显示分为3类的情况,则在此填入3若要显示分为3、4、5类的情况,则在From后填3在through后填52020/1/3131zf点击绘制(Plots)按钮出现以下对话框:树形结构图冰柱图列示所有分类的冰柱图列示指定某几类分类结果的冰柱图不列示冰柱图冰柱图列示方向2020/1/3132zf点击方法(Method)按钮出现以下对话框:选择类与类之间距离的度量方式;系统默认为‘组间平均法’选择相似性的度量指标,系统默认为平方欧氏距离数据标准化处理方式选择;系统默认为不进行标准化处理2020/1/3133zf点击保存(Save)按钮出现以下对话框:该对话框选择是否将某分类信息以新变量的形式保存对数据文件中系统默认状态:不保存保存指定分为某一类的分类结果;若要保存分为3类的情况,则在此填入3。系统将产生一个新变量,将所有样本分到3类中某一类的结果列示到数据文件。保存指定分为某几类的分类结果;若要保存分为3-5类的情况,则在From处填3,在through处填5;系统将产生3个新变量,将所有样本分3、4、5类结果列示到数据文件。2020/1/3134zf输出结果及分析CaseProcessingSummarya31100.00.031100.0NPercentNPercentNPercentValidMissingTotalCasesAverageLinkage(BetweenGroups)a.样本描述:有效样本(Valid)、缺失样本(Missing)、总样本(Total)相似性矩阵表:即31个省份之间的距离矩阵表2020/
本文标题:SPSS数据的聚类分析
链接地址:https://www.777doc.com/doc-3405183 .html