您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 我国各地区经济发展的统计分析
多元统计分析课程设计题目:我国各地区经济发展的统计分析学院:理学院专业:统计学学号:姓名:指导老师:2013-4-25摘要:采用因子分析的思想和聚类分析方法对2011年我国内地31个省、市、自治区的20项社会经济发展指标数据进行主成分因子分析,提取2个综合因子,累积贡献率达87.689%再计算综合得分,并对我国内地各地区的经济给出综合排名,最后对各地区经济进行聚类分析,将31个省市分为4类,分析其结果。在评价结果的基础上,对我国内地各地区经济的发展,科学规划产业布局,优化产业结构等方面提出了相应的政策建议。关键词:因子分析;聚类分析;综合得分;经济排名0引言衡量一个省(自治区或直辖市)经济发展的基本状况,应该从多方面比如从该省(自治区或直辖市)的工业生产总值、固定资产投资、居民消费水平、进出口等指标去考察。而由于这些指标都是对经济发展基本状况的反映,它们自身之间就存在着较强的相关性,这样在用这些指标反映经济发展状况时就造成了信息的大量重叠,这种信息的大量重叠有时甚至会抹杀经济发展状况的内在规律,所以如果能找到一组较少的但却包含着较多信息量的变量来研究这个问题,就更容易使人抓住主要矛盾,同时使问题得到简化。因子分析正是解决这样问题的有效方法。本文就是先运用因子分析方法,对20011年全国内地31个省、市、自治区选取影响经济发展的20项指标进行分析,提取了2个综合因子,再用这2个综合因子进行分析,从而使复杂的问题得以简化。在运用聚类分析(快速聚类)将20个指标进行分成4类,即将各地区的经济强弱分成4类分析,在给出对应的分类。选取的20项指标分别为:农、林、牧、渔业总产值(亿元);地区生产总值(亿元);粮食产量(万公斤);居民消费水平(万元);进出口(万美元);最终消费支出(亿元);财政收入(亿元);支出财政(亿元);人口(万人);城乡居民人民币储蓄存款(亿元);国有企业工业总产值(亿元);私营企业工业总产值(亿元);建筑业总产值(万元);客运量(万人);旅游收入(百万美元);教育经费(万元);城镇基本医疗保险参保人数(万人);公共图书馆个数医疗卫生机构床位(个);教职工人数(人)。1、数据的分析1.1数据的收集与整理本文的数据的20指标均来自《中国统计年鉴2012》,由于20个数据都非常大,数据量多,因此对数据进行了提取,20指标的数据提取集中在一个表中,见附表1。1.2指标的注释(1)农、林、牧、渔业总产值:指以货币表现的农、林、牧、渔业全部产品的总量,它反映一定时期内农业生产总规模和总成果。也直接反映了各地区的经济(2)地区生产总值:地区生产总值是指本地区所有常住单位在一定时期内生产活动的最终成果。(3)粮食产量:包括稻谷、小麦、玉米、高粱、谷子及其他杂粮外的产量。(4)居民消费水平:居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。(5)进出口:国家(地区)与国家(地区)之间的贸易往来,进为购入,出为外销,进口和出口的综合。(6)最终消费支出:消费支出间接的反映了地区经济发展水平,且大小与经济大致成正比(7)财政收入:居民消费支出是指城乡居民个人和家庭用于生活消费以及集体用于个人消费的全部支出。(8)财政支出:通常是指国家或地区为实现其各种职能,由财政部门按照预算计划,将国家或地区集中的财政资金向有关部门和方面进行支付的活动,因此也称预算支出。(9)人口:人口是一个内容复杂、综合多种社会关系的社会实体,具有性别和年龄及自然构成,多种社会构成和社会关系、经济构成和经济关系。城乡居民人民币储蓄存款:储蓄存款指为居民个人积蓄货币资产和获取利息而设定的一种(10)存款:顾名思义存款数目的大小直接反应各地区经济的强弱。(11)国有企业工业总产值:即国有企业或国有控股企业的工业生产总值,是评定经济水平的一重要指标。(12)私营企业工业总产值:即私营或个体企业的工业生产总值(13)建筑业总产值:建筑业在一定时期内完成的以价值表现的生产总量,是反映建筑业生产成果的综合指标。通过它可以了解建筑业的生产规模、发展速度、经营成果,并为国家制订经济建设计划提供依据(14)客运量:客运量指在一定时期内,各种运输工具实际运送旅客数量。它是反映运输业为国民经济和人民生活服务的数量指标,也是制定和检查运输生产计划、研究运输发展规模和速度的重要指标。(15)旅游收入:旅游收入是指旅游接待部门(或国家、地区)在一定时期内通过销售旅游商品而获取的全部货币收入(16)教育经费:教育经费,是指中央和地方财政部门的财政预算中实际用于教育的费用。各地区经济费用的大小间接反应了经济的强弱。(17)城镇基本医疗保险参保人数:城镇职工基本医疗保险是为补偿劳动者因疾病风险遭受经济损失而建立一项社会保险制度。通过用人单位和个人缴费,建立医疗保险基金,参保人员患病就诊发生医疗费用后,与医疗保险经办机构给与一定的经济补偿,以避免或减轻劳动者因患病、治疗等所承受的经济风险。(18)公共图书馆个数:由国家中央或地方政府管理、资助和支持的、免费为社会公众服务的图书馆。(19)机构床位:这个指标间接的反应了各个地区医疗卫生的强度,而医疗强度近似与经济城正比,这样也间接的反应了经济的强度。教职工人数:教职工人数能反应该地区文化深度,一个地区的文化深度的大小间接的可以看出该地区经济又多强2、因子分析模型的分析2.1基本理论:因子分析是一种用较少的综合变量来表达多个观测变量的多元统计分析方法。它的基本思想是:由相关性大小把变量分组,同组内的变量之间有较高的相关性,不同组的变量相关性较低。它的基本目的是用少数几个综合变量(也称“综合因子”)去刻画较多变量之间的协方差关系,而各个综合变量之间是不相关的。这样,在保证数据信息丢失最少的原则下,对高维变量空间做了降维处理,.因子分析的结果经常用于综合判定。它的数学模型可表示如下:1111122112211222221122mmmmppppmmpXaFaFaFXaFaFaFXaFaFaF其中,pXXX,,21为P个原始变量,是均值为0,方差为1的标准化变量,pFFF,,21为m个综合因子变量,m小于p,ij为因子载荷,表示的是第i个原始变量在第j个因子变量上的负荷,如果把变量iX看成是m维因子空间中的一个向量,则ij为iX在坐标轴jF上的投影,相当于多元回归中的标准回归系数,模型表示成矩阵形式为X=AF+E,其中X为原始变量向量,A为因子载荷矩阵,F为因子变量或公共因子,EE=αε由于残差E的影响可以忽略不记,这时数学模型就变为X=AF,因子分析的核心问题是构造因子变量,并对因子变量进行命名解释。2.2具体问题的分析本文对我国内地31个省、市、自治区经济发展的基本状况采取8个主要指标进行了主成分分析,由于多个指标量纲不同,数据缺少可比性,因此必须将原始数据标准化,使得各个指标有可比性,做以下变换:jjijijxxx*,其中,niijjxnx1.1,nijijjxxn122)(.1令这样用得到的标准化数据做因子分析。采用的统计软件是SPSS数据处理系统得到相关系数阵表,及KMO和Bartlett的检验1和表2所示:表120个指标的样本相关系数阵(部分)农、林、牧、渔业总产值地区生产总值粮食产量居民消费水平(进出口农、林、牧、渔业总产值1.000.744.812.677.164地区生产总值.7441.000.433.971.685粮食产量.812.4331.000.353-.116居民消费水平.677.971.3531.000.779进出口.164.685-.116.7791.000表2KMO和Bartlett的检验取样足够度的Kaiser-Meyer-Olkin度量。.744Bartlett的球形度检验近似卡方1385.944df190Sig..000利用因子分析有一个潜在的要求,即原始变量之间要有比较强的相关性,如果原始变量之间不存在较强的相关关系,那么就无法从中综合出共同特性的少数因子来。因此,在作因子分析时,需要对原始变量做相关分析。根据巴特利特球体检验,相伴概率(sig)为0小于显著性性水平0.05,说明相关矩阵不是单位矩阵,适合做因子分析。再根据KMO检验。该检验的思想是比较变量之间的简单相关系数和时,KMO值接近1。一般而言KMO值越接近1时效果越好,0.5以下不适合做主成分分析。这里KMO值为0.744比较好。可以作因子分析。由表二,我们取前2个因子,累积贡献率已经达到87.689,可见提取2个因子后,它们反映了原始变量的大部分信息,同时也起到了降维的作用。表2旋转后的因子特征值、贡献率和累计贡献率因子序号特征值贡献率(%)累计贡献率(%)110.43152.15352.15327.10735.53687.689由表3可以看出,第1个因子对前18个指标起主要作用,第2个因子对后2个起主要作用。因此可以把第1个因子看成是由钱18个指标所刻划的反映经济发展状况的综合指标,把第2个因子单独看成是后2个指标的影响。这个结果是不太让人满意的。6因为在第2个因子中,最后2个变量对第1个因子的影响也是比较大的,这样,2个因子的实际意义解释就发生了相互重叠。要克服这个缺点,使得每个原始变量代表的信息主要集中在某1个因子中,就要将因子进行旋转,旋转后的因子载荷矩阵如表4。表3公共因子成分矩阵指标成份指标成份1212最终消费支出(亿元)0.984-0.149医疗卫生机构床位(个)0.8810.438教育经费(万元)0.984-0.034教职工人数(人)0.8770.135地区生产总值(亿元)0.981-0.06私营企业工业总产值(亿元)0.850.19居民消费水平(万元)0.977-0.164国有企业工业总产值(亿元)0.8330.092财政收入(亿元)0.9710.015农、林、牧、渔业总产值(亿元)0.780.578城乡居民人民币储蓄存款(亿元)0.948-0.262建筑业总产值(万元)0.76-0.111城镇基本医疗保险参保人数0.931-0.2旅游收入(百万美元)0.711-0.668支出财政(亿元)0.908-0.35进出口(万美元)0.674-0.666人口(万人)0.90.349粮食产量(万公斤)0.4890.749客运量(万人)0.885-0.111公共图书馆个数0.5850.632表4旋转后的公共因子成分矩阵指标成份指标成份1212旅游收入(百万美元)0.97-0.109财政收入(亿元)0.7680.594进出口(万美元)0.938-0.129建筑业总产值(万元)0.6750.367支出财政(亿元)0.9370.263国有企业工业总产值(亿元)0.6120.573城乡居民人民币储蓄存款0.9160.358农、林、牧、渔业总产值0.2780.93居民消费水平(万元)0.8810.454粮食产量(万公斤)-0.0570.893最终消费支出(亿元)0.8770.471医疗卫生机构床位(个)0.4430.878城镇基本医疗保险参保人数0.8650.397公共图书馆个数0.0890.856地区生产总值(亿元)0.8210.539人口(万人)0.5110.819教育经费(万元)0.8080.562私营企业工业总产值(亿元)0.5670.662客运量(万人)0.7750.441教职工人数(人)0.6210.634从表4可以看出由旋转后的因子载荷矩阵可以得到20个原始变量与这2个因子之间的表达式如下:2120212211634.0621.0129.0938.0109.0970.0FFxFFxFFx由表达式可见1F,的系数在前13个原始变量里最大,在其余的7个原始变量中的系数非常小,所以可以把第1因子看成主要是由前13个原始变量都是从总体角度度量各个地区的经济发展状况,这13个方面都是从总体角度衡量一个地区经济发展状况的,因此命名为“总量因子”。2F的系数在上表最后7个原始变量中最大,且为
本文标题:我国各地区经济发展的统计分析
链接地址:https://www.777doc.com/doc-7284462 .html