您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 应用回归分析课程设计
基于多元线性回归模型对我国钢铁生产的分析摘要:钢铁工业是国民经济中最重要的基础原材料产业和重要支撑产业。本文根据我国钢材产量为研究对象,选取可能影响钢材产量的粗钢产量、发电量、房屋建筑面积、总能源消耗、铁路运输量、对建筑工程的投资和汽车生产量七个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用岭回归剔除粗钢产量和发电量两个变量解决多重共线性,建立最终的岭回归方程:43000007388.0000002198.0731553041.2ˆxxy765000837960.0000009249.0000010632.0xxx以其探究最后进入回归方程的几个变量在影响钢材生产方面孰轻孰重,达到学习与生活结合的效果。关键词:多元线性回归异方差自相关多重共线性逐步回归岭回归一、引言中国的钢铁工业历经50年的发展,特别是改革开放30年以来有了巨大的进步,取得了举世瞩目的成就。钢铁工业的钢产量增加速度加快、技术水平得到明显提高,产品结构不断调整,成为名副其实的钢铁大国。1996年我国钢产量首次超过1亿吨大关,跃居世界第一位,此后我国产量一直保持世界排名第一的位置。2002年实现钢产量1.8亿吨,到2003年钢产量突破2亿吨,达到22234万吨,2004年全国共产钢27279万吨,比上年增长22.7%,生铁、钢材的产量分别达到创记录的25185万吨与29723万吨(含重复材),同比增长均在20%以上。在钢材品种和质量方面,已经逐步形成能冶铁包括高温合金、精密合金再内的1000多个钢材品种,轧制和加工包括板、带、管、型、线等各种形状的4万多个品种规格的钢材;各项技术经济指标明显提高。钢铁行业是国民经济的支柱产业,是加快实现工业化的先导产业,其在拉动上下游产业发展、扩大城乡劳动力就业以及推动区域经济发展等方面做出了重要的贡献。虽然整个现代化建设以传统原材料为主的状况已经发生改变,但钢铁行业对我国来说仍然是基础工业,直接影响着国民经济的健康发展。可以说钢铁行业的稳定发展是实现我国新型工业化战略目标的关键一环,其发展水平的高低是衡量我国工业化水平和综合国力高低的重要标志。随着国际产业的转移和我国国民经济的快速发展,我国钢铁工业取得了巨大成就。本文研究了粗钢产量、发电量、房屋建筑面积、总能源消耗量、铁路运输量、对建筑工程的投资以及汽车生产总量7个变量对钢材生产量的影响,以及它们之间的关系;以此可以看出这7个指标中哪些指标对钢材生产量有着驻足轻重的关系,哪些指标对钢铁产量的影响相对较弱。由此,可以看出怎么样才能使钢材产量更上一层楼,让钢铁事业有着更加长足且辉煌的发展。二、模型假设1、假设选取的自变量指标能基本上全面反映钢铁生产;2、假设选取的年份期间没有大的金融市场波动;3、假设随机误差),0(~2N。三、符号说明1、y表示钢材产量;2、x1表示粗钢产量;3、x2表示发电量;4、x3表示房屋建筑面积;5、x4表示总能源消耗;6、x5表示铁路运输量;7、x6表示对建筑工程投资;8、x7表示汽车生产总量;9、表示模型的随机误差项。四、模型分析与建立4.1多元线性回归模型1.多元线性回归模型的一般形式设随机变量y与一般变量pxxx,,,21的线性回归模型为ppxxxy22110(4.1)其中,p,,,10是1p个未知参数,0称为回归常数,p,,1称为回归系数。y称为被解释变量(因变量),pxxx,,,21是p个可以精确测量并控制的一般变量,称为解释变量(自变量)。是随机误差,与一元线性回归一样,对随机误差项我们常假定2)var(0)(E(4.2)称ppxxxyE22110)((4.3)为理论回归方程。对一个实际问题,如果我们获得n组观测数据),,2,1(),,,(;21niyxxxiipii,则线性回归模型(4.1)式可表示为nnppnnnppppxxxyxxxyxxxy2211022222211021112211101(4.4)写成矩阵形式为Xy(4.5)其中nyyyy21npnnppxxxxxxxxxX212222111211111p210n210(4.6)X是一个)1(pn阶矩阵,称为回归设计矩阵或资料矩阵。2.多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定:(1)解释变量pxxx,,,21是确定性变量,不是随机变量,且要求npXrank1)(。这里的npXrank1)(,表明设计矩阵X中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X是一满秩矩阵。(2)随机误差项具有零均值和等方差,即njijijiniEjii,,2,1,,,0,),cov(,,2,1,0)(2(4.7)这个假定常称为高斯—马尔柯夫条件。0)(iE,假设观测值没有系统错误,随机误差项i的平均值为0。随机误差项i的协方差为0,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。(3)正态分布的假定条件为相互独立niniN,,,,,2,1),,0(~212(4.8)对于多元线性回归的矩阵模型(4.5)式,这个条件便可表示为),0(~2nIN(4.9)由上述假定和多元正态分布的性质可知,随机变量y服从n维正态分布,回归模型(4.5)式的期望向量XyE)((4.10)nIy2)var((4.11)因此),(~2nIXNy(4.12)4.2回归参数的普通最小二乘估计线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。对于(4.5)式表示的回归模型Xy,所谓最小二乘法,就是寻找参数p,,,,210的估计值pˆ,,ˆ,ˆ,ˆ210,使离差平方和2221101210)(),,,,(ippiiniipxxxyQ达到极小,即寻找pˆ,,ˆ,ˆ,ˆ210满足2221101210)(),,,,(ippiiniipxxxyQ2122110,,,)(min210niippiiixxxyp(4.13)依照(4.13)式求出的pˆ,,ˆ,ˆ,ˆ210就称为回归参数p,,,,210的最小二乘估计。ppxxxyˆˆˆˆˆ22110(4.14)为经验回归方程。五、案例分析5.1数据说明原始数据(见附录1))选取1990-2010年间钢材产量(y)、粗钢产量(1x)、发电量(2x)、房屋建筑面积(3x)、总能源消耗(4x)、铁路运输量(5x)、对建筑工程投资(6x)和汽车生产总量(7x)八个指标,以钢材产量为因变量,其余七个为自变量,研究钢材产量(y)与粗钢产量(1x)、发电量(2x)、房屋建筑面积(3x)、总能源消耗(4x)、铁路运输量(5x)、对建筑工程投资(6x)和汽车生产总量(7x)之间的关系。数据来源国家统计局网站统计年鉴。5.2求解分析5.2.1直接进入法表1模型汇总模型汇总b模型RR方调整R方标准估计的误差Durbin-Watson11.000a1.000.999529.4552.560由表1可以看出调整后的决定系数999.02R,说明回归方程的拟合优度比较好。表2方差分析表Anovab模型平方和df均方FSig.1回归1.099E1071.569E95598.148.000a残差3644196.51713280322.809总计1.099E1020由表2方差分析表可以看出,F检验的检验值F=5598.148非常大,再看F检验的P值=1.41E-210.000,可知此回归方程高度显著,即做出7个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为1.41E-210.000。表3系数表系数a模型非标准化系数标准系数tSig.B的95.0%置信区间B标准误差试用版下限上限1(常量)-6831.0553995.650-1.710.111-15463.1321801.021粗钢产量.915.114.7228.026.000.6691.161发电量.541.436.2551.242.236-.4001.482房屋建筑面积-.016.019-.133-.815.430-.058.026总能源消耗-.051.030-.158-1.689.115-.115.014铁路运输量.052.027.1131.900.080-.007.111对建筑工程投资.112.029.2233.865.002.049.175汽车生产总量-.8222.865-.017-.287.779-7.0115.366此时得到的回归方程为:7654321822.0112.0052.0051.0016.0541.0915.0055.6831ˆxxxxxxxy首先看t检验结果,j的t统计量)7,,2,1(jtj及其相应的p值就是上表第五列(Sig.)的结果。我们可以发现显著性水平05.0时只有粗钢产量(1x)和对建筑工程投资(6x)通过了显著性检验。尽管回归方程的显著性检验高度显著,但也会出现有某些自变量jx(甚至每个jx)对y无显著影响的情况。接着看看回归系数的置信区间除了有粗钢产量(1x)系数95%置信区间[0.669,1.161]和对建筑工程投资(6x)系数95%置信区间[0.049,0.175]不包含0,这也反映了回归系数的不合理。再看回归系数的正负情况,房屋建筑面积(3x)、总能源消耗(4x)和汽车生产总量(7x)的回归系数为负,显然回归系数不合理。那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。(1)异方差和自相关在回归模型的基本假设中,假定随机误差性n,,,21具有相同的方差,独立或不相关,即对于所有样本点,有njijijiniEjii,,2,1,,0,),cov(,,2,1,0)(2但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即)var()var(ji,当ji时另一种是自相关性,即0)(covji,,当ji时,异方差带来的问题:当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。当存在异方差时,参数向量ˆ的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估ˆ的真是方差的情况,进一步将导致高估回归系数的t检验值,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一定影响。当存在异方差是,普通最小二乘估计存在以下问题:1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、参数的显著性检验失效。3、回归方程的应用效果极不理想。自相关带来的问题:当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下,序列自相关性会带来下列问题:1、最小
本文标题:应用回归分析课程设计
链接地址:https://www.777doc.com/doc-5625565 .html