您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 设计及方案 > 回归分析课程设计(最终版)
回归分析课程设计(题目)(副标题)指导教师学院名称专业名称设计提交日期年月-1-目录1.课程设计简述-------------------------------------------------------22.多元线性回归-------------------------------------------------------33.违背基本假设的情况------------------------------------------------53.1异方差性-------------------------------------------------------53.2自相关性-------------------------------------------------------63.3异常值检验-----------------------------------------------------64.自变量的选择与逐步回归--------------------------------------------74.1所有子集回归---------------------------------------------------74.2逐步回归--------------------------------------------------------85.多重共线性的情形及其处理-----------------------------------------105.1多重共线性诊断------------------------------------------------105.2消除多重共线性------------------------------------------------116.岭回归--------------------------------------------------------------127.主成分回归----------------------------------------------------------148.含定性变量的回归模型------------------------------------------------9.附录(程序代码)------------------------------------------------------2-1.课程设计简述本课程设计的主题是讨论国内生产总值GDP与一些因素,包括进出口额、旅客客运量、第一产业固定投资额、居民消费价格指数等10个因素之间的统计关系。数据来源是网络数据库—中宏数据库,时间是2008年1月到2012年9月,以季度为时间单位。变量的定义在表1中给出,变量具体数值在表2给出。变量定义yGDP/亿元x1进出口总额/亿美元x2贸易差额/亿美元x3实际利用外商直接投资金额/亿美元x4固定资产投资施工项目个数/百个x5第一产业固定资产投资/亿元x6第二产业固定资产投资/亿元x7第三产业固定资产投资/亿元x8居民消费价格指数/%x9商品零售额/亿元x10人均可支配收入/元表1各变量定义表2数据-3-2.多元线性回归利用普通最小二乘法对回归参数进行估计(表3)表3最小二乘法参数估计结果结果显示大多数参数不通过检验,首先剔除,再对剩余变量进行最小二次法估计。表4剔除x4后,最小二乘法参数估计结果可知仍有参数不通过检验,继续剔除。表5剔除x7后,最小二乘法参数估计结果同理继续进行剔除-检验步骤,直到参数均通过检验。过程依次剔除,和(详细过程略),并得到最终估计结果如下表。表6最终估计结果剩余参数为常数项、,,,和,均通过显著性检验。-4-表7方程拟合优度检验与显著性检验结果决定系数=0.971678,我们认为回归方程非常显著。F=89.2F(6,12)=3.00,P值α=0.05,拒绝原假设,表明回归方程高度显著。可知方程有效。得回归方程:下面再利用SAS软件,求出标准化回归方程,输出结果如下表。表8标准化回归分析表得标准化回归方程:根据最终方程,我们可以很直观的看出,,,和所对应的因素,即实际利用外商直接投资金额等5个因素对GDP印象不大,而其它各因素对应自变量的系数的正负可以知道该因素对GDP的增长呈正性还是负性影响。-5-3.违背基本假设情况3.1异方差性绘制残差图Residual-30000-20000-100000100002000030000t12345678910111213141516171819图1最小二乘残差图从残差图看出,误差项没有呈现任何趋势,也无任何规律,初步判断不存在异方差性。下面进一步进行怀特检验以及Spearman检验。表9怀特检验结果表10Spearman检验结果表9结果显示P值=0.7213=0.05,认为不存在异方差;表10结果显示各等级相关系数t检验统计量的P值均大于显著性=0.05。综上,我们有很大把握认为异方差问题不存在。-6-3.2自相关性这里使用DW检验对回归方程进行自相关性检验,结果如下。表11DW检验结果根据样本量n=19和解释变量k=6,查DW分布表得临界值=0.56,=1.77。而DW=1.944,我们可以认为所拟合的回归方程不存在自相关性3.3异常值检验这里通过学生化残差以及库克距离来判断是否存在异常值,SAS计算结果如下。表12异常值检验由表知,绝对值最大的学生化残差SRE6=2.6003,根据学生化残差不存在异常值;最大的库克距离D5最大等于0.9141,判断结果也不存在异常值。故认为异常值不存在,即通过检验-7-4.自变量的选择与逐步回归4.1所有子集回归4.1.1准则通过SAS输出结果表13最优法结果由输出结果可知,最优子集为,,,,,=0.96084.1.2准则通过SAS输出结果表14最优结果由输出结果可知,最优子集为,,,,,=2.2162根据两种准则得到的最优子集回归模型均是,,,,。-8-4.2逐步回归4.2.1前进法利用SAS中FORWARD选项进行前进法过程,由于过程较多,下面整理出前进法过程中的简要步骤。StepR-SquareC(p)Entered10.736970.6126x920.907017.2472x430.923014.0549x840.931913.1664x150.945710.6826x1060.96476.4951x570.97355.6365x280.97477.2182x3最后结果为表15前进法最终结果结果显示由前进法得到的最优模型为:4.2.2后退法利用SAS中BACKWARD选项进行前进法过程,下面整理出后退法过程中的简要步骤。StepR-SquareC(p)Removed10.97549.0105x420.97497.1545x730.97465.2703x340.97283.8405x650.97172.2162x8最后结果为表16后退法最终结果结果显示由后退法得到的最优模型为:-9-4.2.3逐步回归法利用SAS中FORWARD选项进行前进法过程,由于过程较多,下面整理出前进法过程中的简要步骤。StepR-SquareC(p)Entered/Removed10.736970.6126x9Entered20.907017.2472x4Entered30.923014.0549x8Entered最后结果为表17逐步回归法最终结果结果显示由前进法得到的最优模型为:由SAS结果整理出全模型以及以上三种选模型的复决定系数如下表:模型全模型0.9754,,,,,,,0.9747,,,,0.9717,,0.9230三种方法得到的复决定系数均大于0.9,说明模型拟合程度非常高,有非常不错的拟合效果。-10-5.多重共线性的情形及其处理5.1多重共线性诊断5.1.1方差扩大因子法表18方差扩大因子分析从上表可以看出的方差扩大因子最大为VIF6=879.88018远大于10,而,,,,,的方差扩大因子也均大于10,说明回归方程存在非常严重的多重共线性。5.1.2特征根判定法表19特征根与条件数分析1.特征根分析:从表19可以看到,矩阵X'X有多个特征根接近于零,说明X有多个多重共线性关系。2.条件数:从条件数看到,最大的条件数=465.82295,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。从ProportionofVariation方差比例表可以看到,第11行Intercept、、、、同时较大,说明Intercept、、、、存在多重共线性。综上,回归方程存在较为严重的多重共线性。-11-5.2消除多重共线性从表18中看到,回归系数没有通过显著性检验,应先作自变量的选元,舍去一些变量。依次把P值最大的自变量剔除,再建立回归方程。根据多元线性回归方法,依次剔除、、、、,再对剩下变量进行多重共线性诊断。表20方差扩大因子分析此时回归方程与回归系数均通过检验,而的方差扩大因子VIF9=27.91810,故继续剔除,在进行VIF检验。表21方差扩大因子分析从上表可以看出剔除后,反而让Intercept、、、系数均变得不显著。于此,我们不再考虑利用剔除一些不重要的变量来消除共线性,下面考虑使用逐步回归法。根据表17我们可以直接知道逐步回归的最终剩余变量。对剩下变量进行方差扩大因子分析如下。表22方差扩大因子分析由于没有通过显著性检验,进行剔除。再进行分析:表23方差扩大因子分析得到消除多重共线性之后的回归方程:-12-标准化回归方程:复决定系数为0.9070,调整后的复决定系数为0.8954。6.岭回归为消除上面回归方程的多重共线性,在这里利用标准化后的数据进行岭回归,以消除多重共线性。首先绘制岭迹图:y=-0.4165x1+0.2764x2+0.0545x3-0.0219x4-0.5279x5-0.7291x6+0.2518x7+0.2786x8+3.059x9-1.5065x10N19Rsq0.9754AdjRsq0.9481RMSE0.2217-0.4-0.3-0.2-0.10.00.10.20.30.4Ridgek0.10.20.30.40.50.60.70.80.91.0Plotx1x2x3x4x5x6x7x8x9x10图2-的岭迹图根据岭回归选择变量原则:剔除标准岭回归系数比较稳定且决定值很小的自变量;剔除标准化岭回归系数不稳定,震动趋向于零的自变量;剔除标准化岭回归系数很不稳定的自变量,我们首先剔除,再绘制岭迹图:y=-0.4105x1+0.0872x3-0.2919x4-0.6551x5+0.2562x6+0.1266x7+0.249x8+1.796x9-0.6763x10N19Rsq0.9670AdjRsq0.9373RMSE0.2438-0.4-0.3-0.2-0.10.00.10.20.30.40.5Ridgek0.10.20.30.40.50.60.70.80.91.0Plotx1x3x4x5x6x7x8x9x10图3剔除后的岭迹图-13-同理,我们依次剔除、(岭迹图略)。得到剩下变量的岭迹图:y=-0.3972x1+0.1372x3-0.4718x4+0.1171x6+0.0803x7-0.194x8+1.2703x9N19Rsq0.9444AdjRsq0.9120RMSE0.2887-0.4-0.3-0.2-0.10.00.10.20.30.40.50.6Ridgek0.10.20.30.40.50.60.70.80.91.0Plotx1x3x4x6x7x8x9图4最终岭迹图从图中,我们可以看到但k值在0.5之后,方程系数趋于稳定,故取k=0.5,通过查下表得到k=0.5时,标准化岭回归方程:非标准化岭回归方程:-14-7.主成分回归通过SAS中的PRINCOMP函数对data进行主成分分析过程,输出结果:表24相关矩阵的特征值从累计贡献率中可以看到前4个主成分所包含的信息量达到了96.36%,因此我们可删除的主成分个数为
本文标题:回归分析课程设计(最终版)
链接地址:https://www.777doc.com/doc-3464472 .html