您好,欢迎访问三七文档
1河北联合大学多元统计课程论文论文题目:对中国各地区综合实力测评学院:理学院专业:统计学班级:统计1班姓名:侯雅琴学号:201010060109指导教师:高艳2目录摘要、关键字、引言.............................................................11数据说明.............................................................................22因子分析.............................................................................23聚类分析.............................................................................74判别分析.............................................................................95结果分析...........................................................................126参考文献...........................................................................13附表.......................................................................................143对中国各地区综合实力测评【摘要】本文对中国各地区综合实力进行测评,以31个地区2010年的10项指标数据为样本,采用因子分析对描述各地区的实力的各项指标变量进行分析,以聚类分析和判别分析相结合对地区发展类型进行分析,再利用各指标变量间的相关性进行分析,得出相关结论以分析各地区的发展情况。【关键词】各地区综合实力测评因子分析聚类分析判别分析引言:在这样一个信息时代,只有全面的可持续的发展才是衡量一个地区综合实力的指标,仅仅是经济发展情况不再能全面具体的体现一个地区的综合实力,经济发展水平、科技发展水平、能源储量和利用率、基础设施建设、文化发展水平等等,这些综合的因素才是体现一个地区真正的面貌,单纯的GDP指标并不能完全反映一个地区的经济发展水平,为了克服单纯GDP指标的缺陷,我们在GDP指标的基础上,综合考虑其他各方面的发展指数,本文就外商投资进出口总额、地区生产总值、地区运输路线总长度、医疗卫生室数量、创新产品项目数、创新经费、高校数目、等10个指标变量对31地区的综合实力进行测评,通过因子分析、聚类分析、等多元统计方法对各指标变量以及各地区进行统筹分析,以总结促进各地区和谐可持续发展的原因。4一、数据说明对各地区进行综合测评的各指标变量::农业用地面积:林地面积:社会服务设施数;:高校数目;:创新经费;:创新产品项目数;;:地区医疗卫生室数量;:地区运输路线总长度:地区生产总值;;:外商投资进出口总额10987654321XXXXXXXXXX原始数据来源:《中国统计年鉴——2010》原始数据见附录表-1二、因子分析:1.考察原有指标变量是否适合因子分析(原有变量之间是否存在一定的线性关系):借助变量的相关系数矩阵,KMO和巴特利特球度检验,进行分析。表—2相关矩阵外商投资进出口总额地区生产总值运输路线长度医疗卫生室数量创新产品项目数创新经费高校数目社会服务设施数林地面积农业用地面积相关外商投资进出口总额1.000.785.040-.003.878.865.479.612-.214-.239地区生产总值.7851.000.433.462.950.936.838.846-.156-.278运输路线长度.040.4331.000.760.268.231.572.395.403.206医疗卫生室数量-.003.462.7601.000.239.195.601.318.091-.084创新产品项目数.878.950.268.2391.000.977.731.854-.265-.329创新经费.865.936.231.195.9771.000.729.841-.297-.330高校数目.479.838.572.601.731.7291.000.705-.151-.398社会服务设施数.612.846.395.318.854.841.7051.000-.200-.257林地面积-.214-.156.403.091-.265-.297-.151-.2001.000.803农业用地面积-.239-.278.206-.084-.329-.330-.398-.257.8031.000由相关矩阵可以看出外商投资进出口总额与地区生产总值、创新产品项目数、创新经费、社会服务设施数的相关系数较高(相关系数值均大于0.5),五个变量间呈现较强的线性关系,农业用地面积和林地面积高度相关,医疗卫生室数量和运输路线长度也具有较高的相关性,都可从中提取公共因子,进行因子分析。5表—3KMO和Bartlett的检验取样足够度的Kaiser-Meyer-Olkin度量。.748Bartlett的球形度检验近似卡方391.067df45Sig..000根据KMO检验,KMO值(小于1)越大表示数据适合做因子分析,由表可知,KMO值为0.748,根据KMO度量标准可知原始变量适合进行因子分析,同时Bartlett泅渡检验统计的观测值为391.067,相应的p值为0,表明变量间存在较强的相关性,适合做因子分析。2.提取因子:根据原有变量的相关矩阵,采用主成分分析法提取因子,并选取特征值大于1的特征根。表—4解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%15.53555.35455.3545.53555.35455.3544.68746.87046.87022.23722.37477.7292.23722.37477.7292.40224.01970.88931.30113.01090.7391.30113.01090.7391.98519.85090.7394.3203.20493.9435.2482.48396.4266.1581.58298.0087.1231.23499.2438.044.44399.6869.018.18399.86910.013.131100.000提取方法:主成份分析。由上表各因子的累积方差贡献率一列可以看出,前三个因子已经可以解释90.739%的信息量。因此提取三个主成分已经可以抓住指标变量所表达的内容6表—5成份矩阵a成份123外商投资进出口总额.785-.259.442地区生产总值.977.089.092运输路线长度.422.826-.208医疗卫生室数量.440.625-.550创新产品项目数.961-.115.218创新经费.949-.152.224高校数目.864.214-.274社会服务设施数.883.041.090林地面积-.282.783.459农业用地面积-.405.627.600提取方法:主成分分析法。a.已提取了3个成份。表—6旋转成份矩阵a成份123外商投资进出口总额.924-.142-.063地区生产总值.901.386-.104运输路线长度.184.870.334医疗卫生室数量.076.938-.043创新产品项目数.966.161-.156创新经费.963.126-.175高校数目.626.647-.240社会服务设施数.821.317-.117林地面积-.150.175.922农业用地面积-.179-.067.938提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在5次迭代后收敛。从上表可知:对因子进行旋转后每个变量仅在一个公共因子上有较大的载荷,效果更佳,所以有因子旋转的必要,从旋转成分矩阵可得,外商投资进出口总额、地区生产总值、创新产品项目数、创新经费、社会服务设施数在第一公共因子上7有较大的载荷,可以归为一类:科技增长型经济指标;运输路线总长度和医疗卫生室数量以及高校数目在第二公共因子上有较大的载荷,可以归为一类:社会基础设施指标;同理,林地面积和农业用地面积归为:土地资源指标。图—1图—1:旋转后的因子(成分)载荷图,分别以第一主成分和第二主成分第三主成分为轴坐标,按表中数据作图得到主成分图。从图中可以看出旋转后各成分的变量更集中了。从图中也可以更具象的看出各指标变量间的关系。表—7成份得分系数矩阵成份123外商投资进出口总额.288-.228.117地区生产总值.183.054.035运输路线长度-.047.385.130医疗卫生室数量-.147.478-.112创新产品项目数.234-.068.038创新经费.236-.084.030高校数目.036.253-.113社会服务设施数.170.034.022林地面积.064.020.495农业用地面积.100-.102.5258成份得分系数矩阵成份123外商投资进出口总额.288-.228.117地区生产总值.183.054.035运输路线长度-.047.385.130医疗卫生室数量-.147.478-.112创新产品项目数.234-.068.038创新经费.236-.084.030高校数目.036.253-.113社会服务设施数.170.034.022林地面积.064.020.495农业用地面积.100-.102.525提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。构成得分。表—7为因子得分系数矩阵。根据因子得分系数和原始变量的标准化值,可以计算每个观测量的各因子的得分数,并可以据此对观测量进行进一步的分析。旋转后的因子表达式可以写成:FACT:10987654321100.0064.0170.0036.0236.0234.0147.0047.0183.0288.01XXXXXXXXXXFACT10987654321120.0020.0034.0253.0084.0068.0478.0385.0054.0288.02XXXXXXXXXXFACT10987654321525.0495.0022.0113.0030.0038.0112.0130.0035.0177.03XXXXXXXXXXFACT9三、聚类分析表—8部分相似矩阵(这是一个不相似矩阵)分析:此表是欧氏不相似性系数矩阵,在行列交叉点上是两个地区的10个变量的欧氏距离,体现的是不相似性,即数值越大,两个地区越不相似,由表可知:广东、浙江、江苏、山东与其他各地区的不相似度较高,说明这四个地区的发展类型相似而与其他地区的发展差异性较大,说明这四个地区的可能属于同一类型。图—2RescaledDistanceClusterCombine10CASE0510152025LabelNum+---------+---------+---------+---------+---------+海南21-+-+宁夏30-++-----+北京1-+||天津2-+-+|上海9-++-+黑龙江8-+-+||云南25-+|||贵州24-++-----+|甘肃28-+-+|吉林7-+||重庆22-+||辽宁6-+||安徽12-+|+---------+江西14-+-+||陕西27-+||山西4-+||福建13-+||广西20-+|+---------------------------+西藏26-+|||青海29-+---+|||新疆31-++-----+||内蒙古5-----+||湖北17-+-+||湖南18-++-----------------+|河北3-+||河南16-+-
本文标题:多元统计分析论文
链接地址:https://www.777doc.com/doc-2273492 .html