您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 北航应用数理统计大作业-聚类分析
应用数理统计聚类分析与判别分析(第二次作业)学院:姓名:学号:2013年12月16日我国各地区居民消费水平的聚类分析和判别分析摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找评价各省份人民消费水平的指标,包括居民消费水平、农村居民消费水平、城镇居民消费水平和居民人均消费四个指标,利用统计软件SPSS综合考虑各指标,对全国各省份进行K-Means聚类分析,利用Fisher线性判别待判城市类型,进一步验证所建模型的有效性。关键字:聚类分析,判别分析,SPSS,居民消费水平1,引言人均消费水平是指一定时期内(月、年)平均每人占有和享受的物质生活资料和服务的数量。它是一个国家整个经济活动成果的最终体现,也是反映人民物质和文化生活需要的满足程度。一个国家的国民生产总值(GNP)除以该国国民人口的总数所得出的商。即指分摊到每个国民份上的国民生产总值的平均值。在经济学上,一般用来衡量或表示一个国家的经济发展程度。经过改革开放后三十多年的长足进展,尽管世界格局在走向多极化的过程中不断呈现出错综复杂、风云变幻的局面,但中国领导人高瞻远瞩,始终不渝地坚持以经济建设为中心,坚持走和平发展的道路,使中国步履稳健、坚定不移地走向世界,融入经济全球化的历史进程之中。中国在为经济全球化作出贡献的同时,也从中获取了巨大的增长动力,中国人民的生活水平和消费水平也在不断提高。2014年全国居民人均可支配收入20167元,比上年增长10.1%,扣除价格因素,实际增长8.0%。按常住地分,城镇居民人均可支配收入28844元,比上年增长9.0%,扣除价格因素,实际增长6.8%;城镇居民人均可支配收入中位数为26635元,增长10.3%。农村居民人均可支配收入10489元,比上年增长11.2%,扣除价格因素,实际增长9.2%;农村居民人均可支配收入中位数为9497元,增长12.7%。全年农村居民人均纯收入为9892元。全国居民人均消费支出14491元,比上年增长9.6%,扣除价格因素,实际增长7.5%。按常住地分,城镇居民人均消费支出19968元,增长8.0%,扣除价格因素,实际增长5.8%;农村居民人均消费支出8383元,增长12.0%,扣除价格因素,实际增长10.0%。但是,经济和消费水平的增长比例关系却不尽如人意,经济增长大大慢于消费增长,消费需求对经济增长的贡献率不断下降并成为当前经济运行中的重要问题。为实现扩大内需、拉动经济增长的长效目的,我们要在洞察当前居民消费现状的基础上,深入分析居民消费增长缓慢的原因,并探索扩大居民消费需求、拉动经济增长的对策和措施。所以我希望通过对居民消费情况进行分析,得到影响居民消费水平的地域因素和其他影响因子等。2,相关统计基础理论2.1,聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means算法。K-Means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.2,判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:21(x,)(x)'(x)dGuu式中为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体*jG的距离可以用欧式距离度量,即:2**22jiij1(y,G)||||(a'xa'u)mjidyu由此导出Fisher判别规则为:2*2*jj1(y,G)min(y,G)jkdd,则lxG本文及使用Fisher判别建立线性判别函数进行距离判别。3,模型建立3.1设置变量本文综合考虑了衡量人民消费水平因素,选取各地区居民消费水平,消费水平包括城镇居民消费水平和农村居民消费水平,综合考虑了居民人均消费作为类别分析的主要经济指标:X1:居民消费水平(元)X2:城镇居民消费水平(元)X3:农村居民消费水平(元)X4:居民人均消费(元)从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类:G1:高消费地区G2:中等消费地区G3:低消费地区3.2数据收集和整理本文所有数据来源于《中国统计年鉴(2014)》,选取2014年度31个省份主要居民消费水平做模型建立及分析。其中前31个省份相关消费指标水平作为初始样本用于划分类别,建立类别总体G;再利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1所示。表1:各省份居民消费水平省份居民消费水平农村居民消费城镇居民消费居民人均消费北京市33337176633583631102.89天津市26261149542877922342.98河北省1155764601719811931.54山西省1207874761634110863.83内蒙古自治区1716882182359016258.12辽宁省20156104172516116067.98吉林省1367677731871413025.97黑龙江省1297874781710212768.76上海市39223202214146433064.76江苏省23585145712875319163.56浙江省24771154583010122551.97安徽省1161861141777911726.99福建省17115101472172517644.47江西省1191074291672811088.89山东省1672892242335813328.9河南省1178264381883311000.44湖北省1391277551915612928.31湖南省1292070051950813288.73广东省2373999143044019205.5广西壮族自治区1171057951918510274.31海南省1171270721587712470.59重庆市1527065382168113810.62四川省1248580741789912368.4贵州省95415383165819303.35云南省112246003190899869.54西藏自治区62753874140017316.95陕西省1320666201962012203.59甘肃省96165245163279874.57青海省1207069541761712604.8宁夏回族自治区1353770621967112484.52新疆维吾尔自治区1140159421828511903.714,数据结果及分析4.1聚类分析4.1.1聚类分析过程采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心表格2:初始聚类中心聚类123居民消费水平39223262616275农村居民消费20221149543874城镇居民消费414642877914001居民人均消费33064.760022342.98007316.9500(2)样本聚类表格3:聚类成员案例号省份聚类距离1北京市14379.2602天津市27635.5873河北省3929.7344山西省31983.2675内蒙古自治区26352.8266辽宁省23055.4097吉林省32666.8968黑龙江省32010.8859上海市14379.26010江苏省24508.22811浙江省27652.63412安徽省3618.76613福建省26473.34114江西省31567.06515山东省27767.50816河南省31066.38317湖北省32922.02318湖南省32544.86019广东省25077.43520广西壮族自治区31969.71221海南省32327.80622重庆市35477.29523四川省31769.12324贵州省33773.23925云南省32242.84526西藏自治区38554.75727陕西省32186.04928甘肃省33568.40929青海省31151.20030宁夏回族自治区32560.34531新疆维吾尔自治区3956.540(3)最终聚类中心表格4:最终聚类中心聚类123居民消费水平362802119011928农村居民消费18942116136595城镇居民消费386502648817962居民人均消费32083.825018320.435011576.5910表格5:最终聚类中心间的距离聚类123124874.66339925.644224874.66315138.312339925.64415138.312表格6:每个聚类中的案例数聚类12.00028.000321.000有效31.000缺失.000(4)聚类方差分析表格7:聚类方差分析聚类误差FSig.均方df均方df居民消费水平6.930E826814286.54028101.697.000农村居民消费1.854E822927580.9532863.319.000城镇居民消费5.251E825546020.1832894.685.000居民人均消费4.570E824333185.90928105.467.000F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2聚类结果分析从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:G1(高消费地区):北京,上海。G2(中等消费地区):天津市,内蒙古自治区,辽宁省,江苏省,浙江省,福建省,山东省,广东省。G3(低消费地区):河北省,山西省,吉林省,
本文标题:北航应用数理统计大作业-聚类分析
链接地址:https://www.777doc.com/doc-2082609 .html