您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 多元统计分析在EXCEL中的应用
书书书内部资料(53)江西省统计局编印二○○九年六月二十四日多元统计分析在EXCEL中的实现多元统计分析作为研究多维随机变量之间相互依赖关系以及内在规律的一门科学,它在经济研究的各个领域都有着广泛的运用,并取得了许多卓有成效的应用成果。多元统计分析已经越来越成为多类学科进行科学研究、数据分析、数据处理必不可少的重要方法。多元统计分析软件为我们提供了便利,如:TSP、SPSS、SAS和R软件,本文介绍在EXCEL中如何实现多元统计分析。一、基本原理多元统计分析在EXCEL中的实现原理基于多元统计分析BASIC程序,以EXCEL工作簿进行数据维护和管理,利用EXCEL的VBA程序开发多元统计分析宏,包括:多元回归分析宏、主成分分析宏、·1·因子分析宏、聚类分析宏、判别分析宏、对应分析宏、典型相关分析宏,在将结果以EXCEL数表形式进行分析宏打包,最终形成应用方便的“多元统计分析程序”,只要进行安装,在EXCEL的菜单上就出现了“多元统计分析程序”,应用方便直观。二、应用描述(一)简单回归分析在EXCEL中的实现1、问题及背景通过经济分析可知:国内生产总值(GDP)与固定资产投资有密切关系,研究发现两变量之间存在线性关系。根据江西1990-2007年的GDP与全社会固定资产投资数据,研究它们的数量规律性,探讨江西固定资产投资与GDP的数量关系。2、分析过程第一步:录入原始数据,数据格式如下图1。图1 原始数据·2·第二步:启动多元统计分析系统,选择“回归分析”。单击确定,并选择其中的“多元线性回归”。图2 选择项对话框图3 选择项对话框第三步:填写系统需要信息。样品数为年份数18,自变量个数为1,待预报样品为0,如图4。·3· 图4 回归分析对话框第四部:单击确定,得到运行结果,如图5。图5 一元回归分析结果·4·3、输出结果和分析结论回归方程为:y=4595836+06428x1其中,复相关系数为R=09804,说明回归方程拟合优度较高。而回归系数t=199257,查t分布表t0025(16)=21199,小于t值,因此回归系数显著。查F分布表,F005(1,16)=449,由回归结果知,F=3133765>449,因此回归方程也显著。我们可以根据回归方程进行预测。若已知2009年江西全社会固定资产投资可以预测2009年江西GDP数据。程序中如果输入待预报样品信息,可以直接获得待预报样品的预测结果。(二)多元线性回归模型在EXCEL中的实现1、问题及背景在我国,居民消费是在国内生产总值经过初次分配和再分配后形成的,因此考虑人均国内生产总值作为影响人均消费的一个因素;另外,在进行收入分配时,必须考虑到消费者已经实现了的消费,保持消费的连续性,因此,分析当年的消费必须考虑上年已经实现的消费。为探寻我国的人均消费模型,我们搜集整理了我国1990-2007年人均消费及人均GDP数据。2、分析过程第一步:录入数据,数据格式如图6。·5· 图6 原始数据第二步,启动多元统计宏,选择回归分析,单击确定,并选择其中的“多元线性回归分析”。第三步:根据系统要求信息填写,样品数为18,自变量数为2,带预报样品数1个。图7 多元回归对话框·6·第四步:单击确定,得到多元线性回归运算结果如图8。图8 多元回归结果3、输出结果和分析结论具体输出结果有原始数据表,均值表,正规方程系数矩阵,逆矩阵,回归系数,回归方程,方差分析表,复相关系数,自变量的t检验值,各个自变量的偏回归平方和,偏回归系数,观测值,回归值,残差值,以及预测结果。由输出结果,得出以下结论:y=2276903+01556x1+06319x2 t值 (63243)(85054)·7·从实际意义来看,各个回归系数均大于零,没有明显错误。由回归方程可知,如果其他变量保持不变,则人均GDP每增加1元,人均居民消费将增加016元;同理,如果其他变量保持不变,前期居民消费每增加1元,人均居民消费将增加063元。回归系数显著性检验:当显著性水平分别为001,005时,t分布临界值分别为t0005(18-2-1)=29467,t0025(18-2-1)=21315。由上述方程各自变量的t检验值可知,变量x1、x2均显著。回归方程的显著性检验:查F分布表可知F005(2,15)=368,由多元回归结果,F统计量的值为329219,显然大于355,因此回归方程显著。复相关系数R为09989,从统计意义来看其方程的拟合度很高,总体显著性好。预测:若已知2009年的前期(2008年)人均居民消费和2009年的人均GDP值,则可以预测2009年的人均居民消费。y2008=2276903+01556x1+06319x2此步也可在程序中得以实现,即待预报样品数为1,输入相应的2008年的前期(2007年)人均居民消费和2008年的人均GDP值,即可得到运算结果。(三)岭回归分析在EXCEL中的实现1、问题及背景城镇居民的住房需求受多种因素影响,有宏观上的地区经济总体水平,固定资产投资状况的影响,也有微观上居民收入、储蓄的影响。从搜集数据方便的角度出发,我们以北京市为例,研究北京市城镇居民人均居住面积的影响因素,选择如下指标进行分析:城市人均住房面积(y,平方米),城镇居民人均可支配收入(x1,元),人均城镇储蓄存款余额(x2,元),人均GDP(x3,元),房地产开发投·8·资额(x4,亿元),人均固定资产投资(x5,元)。由于各影响因素间存在多重共线性问题,如果仍使用最小二乘方法,参数估计值的方差会出现偏差,因此,我们使用岭回归来修正。2、分析过程第一步:录入原始数据,数据格式如下图9。图9 原始数据第二步:启动多元统计分析宏,选择“回归分析”,单击确定,选定其中的“岭回归分析”。·9· 图10 选择对话框第三步:同前所述,根据系统要求输入样品数位18,自变量为5,带预报样品1个。图11 岭回归对话框第四步:单击确定,得到岭回归分析结果。·01· 图12 岭回归分析结果3、输出结果和分析结论(1)分别以k=kt4,k=kt2,k=3kt4,kt,建立岭回归估计方程。·11·(2)根据各岭回归的剩余值计算误差平方和可知,当k=kt4时,误差平方和最小,因此选择k=kt4时的预报结果,相应的岭回归方程为:y=00017979x1-000034x2+00011326x3+0028616x4-00000958x5由上述方程,我们可以进行因素分析,其中,对居民人均居住面积影响较大的因素主要有:人均可支配收入(x1)、人均GDP(x3)和房地产开发投资(x4),与人均储蓄存款(x2)和人均固定资产投资(x5)影响不大。(四)主成分分析在EXCEL中的实现1、问题及背景随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。但是受个地区生产力发展水平不平衡的影响,我国各地区居民生活质量也表现为不平衡,为了分析各地区居民生活质量的状况并进行综合评价,我们选取如下指标体系对2007年全国31个省市、自治区的居民生活质量状况进行评价分析,即职工人均工资(x1,元),人均住宅建筑面积(x2,平方米),城市用水普及率(x3,%),城市燃气普及率(x4,%),人均城市道路面积(x5,平方米),人均公共绿地面积(x6,平方米),批发零售贸易额(x7,亿元),旅游外汇收入(x8,百万美元)。2、分析过程第一步:录入数据,数据格式如图13。·21· 图13 原始数据第二步:启动多元统计分析程序,选择“主成分分析”。第三步:确定并输入系统要求信息,样品数位n=31,p=8。特征值贡献率一般选择为85%,如下图14。·31· 3、输出结果图14 标准化数据·41·表1相关系数矩阵104536846203213314030061604-01544334-0124737012471718051169060453684610363348504447214864E-02919E-0204292095804572615032133140363348481081940855017265732590E-0202075318401271530300616044472140819408510107667050285613704213437403479959-0154433864E-020172657301076670510676262022518991-018758-0124737919E-02590E-02028561374067626199105404364201971603012471720429209580207531804213437402251899105404364107379227051169060457261520127153034799594-01875805019716030737922651表2特征向量(列向量)02930428-04209675164E-02-05540994-0568732200359355-029270630138538803978385-01636193176E-02-0446663507452860702153528392E-03-011528403597059-762E-02-061395018117673-677E-02-0360343-853E-02-055976804451167-260E-02-0399894035769053-438E-0203868322018672127057176501342118060736792-017416-04728305-575E-02-041734603327679026640610253268405878034601478781-305E-02-025240805658678-01550175-03994980429440801836748703992999029032502013034757-0400454-055345720233337804021891-02034268050093015463396-01749013-0134531065657152-0205533表3累计贡献率表NO特征值H( )百分率LH累计率13173486890396685903966858621842895220230361906270477631310753870163844207908924071978434008997308808650450524648570065581109464461160256650070032081309785273770093364830011670609901979780078416200098021 由特征值得累计百分率确定方差贡献的百分数85%,由此选择主成分M=4。·51·表4主成分
本文标题:多元统计分析在EXCEL中的应用
链接地址:https://www.777doc.com/doc-4594514 .html