您好,欢迎访问三七文档
合肥学院2013-2014第二学期《多元统计分析》课程论文论文题目聚类分析姓名程锦学号1207011033专业信息与计算科学成绩2015.6聚类分析的应用——利用SAS软件对全国30个省、直辖市、自治区的主要经济情况进行聚类分析。摘要:利用SAS软件对全国30个省、直辖市、自治区的主要经济指标进行聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型。通过这种方法对全国各省进行经济分类。本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。分析结果表明:北京市和上海市稳居第一类经济类型;江苏省和、山东省、广东省和浙江多数处于第四类经济;其他25个省、直辖市、自治区基本在第二类型与第三类型变化。关键词聚类分析经济类型一、问题提出与分析随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。因此,基于这种现状,本文对全国各地区的经济进行聚类分析。根据2010年国家统计年鉴,选取了2009年30个省、直辖市、自治区的7项经济指标,如下表。2009年我国30个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03315.011039.1334297216533414822558.0341.7天津7521.85281.713083.631564191744880518599.562.6河北17235.483640.924062.762332805513435582730.626.5山西7358.31908.79249.98165014631631502705.044.9内蒙古9740.251570.610699.4491292641086941487.641.1辽宁15212.492704.628152.732855778530768826428.793.3吉林7278.751734.310026.55102412355557471049.418.2黑龙江8587.002251.17301.6012351015783452028.327.4上海15046.45283.224091.26324765451867021520170.8292.6江苏34457.303816.073200.03892893532596971215364.8205.2浙江22990.351873.441035.2988614109692914813888.0166.5安徽10062.822569.513312.59195980715231402937.041.2福建12236.532001.216762.821941583843774554617.180.5江西7655.181733.89783.96118532947706071002.824.7山东33896.656003.171209.424051631775598357584.4262.6河南19480.464871.527708.15322011973766123083.098.7湖北12961.102985.215567.02304684097037724259.081.4湖南13059.693207.913507.64232347341821771643.965.3广东39482.563337.668275.77298060433824131818599.1384.4广西7759.162377.26880.0487587303677651464.017.6海南1654.21705.01057.451366053301396517.58.4重庆6530.01913.16772.90175240462950472864.073.7四川14151.283689.818071.68290037109364692570.694.2贵州3912.68875.23426.69506015818647825.89.5云南6169.751706.25197.4510774227435932591.017.0西藏441.3693.451.609102749933.20.4陕西8169.801337.28470.40220527622526261956.276.1甘肃3387.56876.33770.385243473106931205.812.8青海1081.27157.31080.35184815619432184.22.6宁夏1353.31243.51461.58232358622142373.68.0新疆4277.051297.64001.127258850273622511.87.0一、模型建立聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。我选取了各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7这7个指标进行聚类分析。三、SAS软件操作:设计程序如下:datacj01;inputgroup$X1-X7;cards;北京12153.03315.011039.1334297216533414822558.0341.7天津7521.85281.713083.631564191744880518599.562.6河北17235.483640.924062.762332805513435582730.626.5山西7358.31908.79249.98165014631631502705.044.9内蒙古9740.251570.610699.4491292641086941487.641.1辽宁15212.492704.628152.732855778530768826428.793.3吉林7278.751734.310026.55102412355557471049.418.2黑龙江8587.002251.17301.6012351015783452028.327.4上海15046.45283.224091.26324765451867021520170.8292.6江苏34457.303816.073200.03892893532596971215364.8205.2浙江22990.351873.441035.2988614109692914813888.0166.5安徽10062.822569.513312.59195980715231402937.041.2福建12236.532001.216762.821941583843774554617.180.5江西7655.181733.89783.96118532947706071002.824.7山东33896.656003.171209.424051631775598357584.4262.6河南19480.464871.527708.15322011973766123083.098.7湖北12961.102985.215567.02304684097037724259.081.4湖南13059.693207.913507.64232347341821771643.965.3广东39482.563337.668275.77298060433824131818599.1384.4广西7759.162377.26880.0487587303677651464.017.6海南1654.21705.01057.451366053301396517.58.4重庆6530.01913.16772.90175240462950472864.073.7四川14151.283689.818071.68290037109364692570.694.2贵州3912.68875.23426.69506015818647825.89.5云南6169.751706.25197.4510774227435932591.017.0西藏441.3693.451.609102749933.20.4陕西8169.801337.28470.40220527622526261956.276.1甘肃3387.56876.33770.385243473106931205.812.8青海1081.27157.31080.35184815619432184.22.6宁夏1353.31243.51461.58232358622142373.68.0新疆4277.051297.64001.127258850273622511.87.0;procprintdata=cj01;run;procclusterdata=cj01method=avestdpseudocccouttree=c01;varX1-X7;idgroup;proctreedata=c01horizontalgraphics;title'使用平均法的谱系聚类图';run;procclusterdata=cj01method=medstdpseudocccouttree=c01;varX1-X7;idgroup;proctreedata=c01horizontalgraphics;title'使用中间距离法的谱系聚类图';run;procclusterdata=cj01method=WARDstdpseudocccouttree=c01;varX1-X7;idgroup;proctreedata=c01horizontalgraphicsn=5outout=c02;copyX1-X7;title'使用WARD法的谱系聚类图';run;procclusterdata=cj01method=flestdpseudocccouttree=c01;varX1-X7;idgroup;proctreedata=c01horizontalgraphics;title'使用可变类平均法的谱系聚类图';run;procsortdata=c02;bycluster;procmeansdata=c02;bycluster;varX1-X7;run;通过SAS运行,我得到如下结果:通过上面结果可以看出:(1)使用的平均法谱系聚类分析可以看出大致可以分为四个类型。第一类:北京市、上海市(2个)第二类:天津市、山西省、内蒙古、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、广西省、海南省、重庆市、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(19个)第三类:河北省、湖北省、四川省、湖南省、辽宁省(5个)第四类:江苏省、山东省、浙江省、广东省(4个)(2)使用中间距离法的谱系聚类分析可以看出大致可以分为四个类型。第一类:北京市、上海市(2个)第二类:天津市、山西省、内蒙古、吉林省、黑龙江省、江西省、广西省、海南省、重庆市、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(16个)第三类:河北省、辽宁省、安徽省、湖北省、四川省、湖南省、福建省、河南省(8个)第四类:江苏省、山东省、浙江省、广东省(4个)(3)使用WARD法的谱系聚类分析可以看出大致可以分为三个类型。第一类:北京市、上海市、江苏省、浙江省、山东省、广东省(6个)第二类:天津市、山西省、内蒙古、吉林省、黑龙江省、江西省、广西省、海南省、重庆市、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(16个)第三类:河北省、湖北省、四川省、湖南省、辽宁省、安徽省、福建省、河南省(8个)五、总结根据聚类分析
本文标题:聚类分析论文
链接地址:https://www.777doc.com/doc-1854187 .html