您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 北航数理统计大作业 聚类分析
应用数理统计聚类分析与判别分析(第二次作业)学院:姓名:学号:2015年12月应用数理统计作业——聚类分析与判别分析II目录我国部分城市经济发展水平的聚类分析和判别分析.................................-1-摘要:...................................................................-1-1.引言................................................................-1-2.相关统计基础理论....................................................-1-2.1聚类分析.........................................................-1-2.2判别分析.........................................................-2-3.模型建立............................................................-3-3.1设置变量.........................................................-3-3.2数据收集和整理...................................................-3-4.数据结果及分析......................................................-5-4.1聚类分析.........................................................-5-4.2判别分析.........................................................-7-5.结论...............................................................-11-参考文献................................................................-12-应用数理统计作业——聚类分析与判别分析-1-我国部分城市经济发展水平的聚类分析和判别分析摘要:本文基于《中国统计年鉴》(2014年版)统计数据,统计全国各省市居民消费情况,包括各地区农村居民人均纯收入、农村居民人均现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标,利用统计软件SPSS综合考虑各指标,对所选地区进行K-Means聚类分析,利用Fisher线性判别待判地区类型,进一步验证所建模型的有效性。关键字:聚类分析,判别分析,SPSS,各省市居民消费1.引言改革开放以来,我国经济飞速发展,居民生活水平不断提高,随之,居民的消费也逐渐增加,对于各地区的居民收入和消费的分析,一定程度上能够体现该地区的经济状况,有助于相关政策的制定。2.相关统计基础理论2.1聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means算法。K-Means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使应用数理统计作业——聚类分析与判别分析-2-得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.2判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:21(x,)(x)'(x)dGuu式中为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,应用数理统计作业——聚类分析与判别分析-3-是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体*jG的距离可以用欧式距离度量,即:2**22jiij1(y,G)||||(a'xa'u)mjidyu由此导出Fisher判别规则为:2*2*jj1(y,G)min(y,G)jkdd,则lxG本文及使用Fisher判别建立线性判别函数进行距离判别。3.模型建立3.1设置变量本文综合考虑了评价各地区居民的收入支出情况,选取能够反映一个省(市)收支状况的主要因素,包括各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费,共4项因素:X1:各地区农村居民人均纯收入X2:各地区农村居民人均现金消费X3:各地区城镇居民人均可支配收入X4:各地区城镇居民人均现金消费3.2数据收集和整理本文所有数据来源于《中国统计年鉴(2014)》,选取2013年度31个省市居民收支状况数据进行模型建立及分析,初始数据见表1所示。其中浙江、广东、重庆未参与聚类分析和判别分析,而是作为了判别分析验证数据。应用数理统计作业——聚类分析与判别分析-4-表1各地区居民收支状况编号地区农村居民人均纯收入/元农村居民人均现金消费/元城镇居民人均可支配收入/元城镇居民人均现金消费/元1北京18337.513470.240321.026274.892天津15841.010088.632293.621711.863河北9101.95969.622580.313640.584山西7153.55463.222455.613166.195内蒙古8595.76763.325496.719249.066辽宁10522.76864.925578.218029.657吉林9621.26827.622274.615932.318黑龙江9634.16542.119597.014161.719上海19595.013872.943851.428155.0010江苏13597.89486.932537.520371.4811浙江16106.011541.137850.823257.1912安徽8097.95344.923114.216285.1713福建11184.27552.530816.420092.7214江西8781.54910.121872.713850.5115山东10619.97184.228264.117112.2416河南8475.35353.022398.014821.9817湖北8867.05531.122906.415749.5018湖南8372.15854.223414.015887.1119广东11669.37881.533090.024133.2620广西6790.94547.023305.415417.6221海南8342.65090.722928.915593.0422重庆8332.05057.825216.117813.8623四川7895.35406.122367.616343.4524贵州5434.03888.320667.113702.8725云南6141.33953.023235.515156.1526西藏6578.22661.520023.412231.8627陕西6502.65420.722858.416679.6928甘肃5107.84393.718964.814020.7229青海6196.45506.619498.513539.5030宁夏6931.05942.121833.315321.1031新疆7296.55519.919873.815206.16应用数理统计作业——聚类分析与判别分析-5-4.数据结果及分析4.1聚类分析4.1.1聚类分析过程采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心表1初始聚类中心聚类123农村居民人均纯收入5107.8019595.0015841.00农村居民人均现金消费4393.7013872.9010088.60城镇居民人均可支配收入18964.8043851.4032293.60城镇居民人均现金消费14020.7228155.0021711.86(2)样本聚类表3聚类成员案例号地区聚类距离1北京22106.0632上海22106.0633天津34094.7144内蒙古15520.4525辽宁15465.7436江苏32044.4307福建31948.5048山东34631.4639河北12185.57810山西12126.01311吉林12503.62912黑龙江13538.32313安徽11508.76514江西11763.94815河南1849.61416湖北11478.08017湖南11656.694应用数理统计作业——聚类分析与判别分析-6-18广西11720.47519海南11096.90720四川11193.36921贵州13445.53622云南12392.05523西藏14670.97224陕西12074.79325甘肃14400.22126青海13484.40327宁夏11064.07228新疆12324.098(3)最终聚类中心表4最终聚类中心聚类123农村居民人均纯收入7747.2518966.2512810.73农村居民人均现金消费5352.4413671.558578.05城镇居民人均可支配收入22147.4742086.2030977.90城镇居民人均现金消费15181.1827214.9519822.08表5最终聚类中心间的距离聚类123127155.81011642.926227155.81015552.591311642.92
本文标题:北航数理统计大作业 聚类分析
链接地址:https://www.777doc.com/doc-3561142 .html