您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 北航应用数理统计大作业-多元线性回归
多元线性回归分析摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。关键字:回归分析;线性;相关系数;正态分布1.引言变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。以探求影响居民消费水平的各个因素,得到最优线性回归模型。随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。本文将分为5章进行论述。在第2章,我们介绍多元线性回归模型的概念。第3章,我们进行模型的建立与数据的收集和整理。我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。在第5章,我们进行总结。2.预备知识2.1回归分析回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。在实际问题回归分析模型的建立和分析中有几个重要的阶段:根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。确定理论回归模型的数学形式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,则需要使用非线性模型构造回归模型。模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否合适。模型的检验一般需要进行统计检验和模型经济意义的检验。统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残差的独立性检验等。回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。2.2多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。设随机变量Y与P(P≥2)个一般变量X1,X2,…,XP的线性回归模型可表示为:Y=β0+β1X1+β2X2+⋯+βPXP+εβ0称为回归常数,β1,…,βP称为偏回归系数,他们决定了因变量Y与自变量X1,X2,…,XP的线性关系的具体形式;ε是随机误差,满足ε~N(0,σ2)。如果获得满足条件ε=(ε1ε2⋮εn)n×1{Y=Xβ+εE(ε)=0,D(ε)=σ2InQεσ2~χ2(n−p−1)的n组观测数据(xi1,xi2,…,xip;yi),其中i=1,2,…,n,则线性回归模型可表示为yi=β0+β1xi1+β2xi2+⋯+βPxiP+εi其中i=1,2,…,n。上式写成方程组形式为{y1=β0+β1x11+β2x12+⋯+βPx1P+ε1y2=β0+β1x21+β2x22+⋯+βPx2P+ε2…yn=β0+β1xn1+β2xn2+⋯+βPxnP+εn记Y=(y1y2⋮yn)n×1,X=(1x11x12⋯x1p1x21x22⋯x2p⋮1⋮xn1⋮xn2⋱⋯⋮xnp),β=(β0β1⋮βp)(p+1)×1,ε=(ε1ε2⋮εn)n×1则回归模型成为{Y=Xβ+εE(ε)=0,D(ε)=σ2In。3.模型建立与数据收集本文根据不同地区居民消费的影响因素进行分析,寻找居民消费水平与各个因素间的关系。根据回归模型的具体实现步骤,进行如下模型建立与数据收集工作。3.1设置指标变量现实生活中,影响一个地区居民消费的因素有很多。从人口、财政收入、财政支出、能源、产业结构,到各个项目的居民消费支出,都将会影响到此地区军民的消费。根据现实生活的经验,我们分别选择各地区人均生产总值、职工平均工资、食品花费、衣着花费、居住花费、医疗花费、教育花费、失业人员人数以及人均电力耗费量等9个解释变量研究城镇居民家庭平均每人全年的消费性支出。解释变量具体为:X1:各地区人均生产总值(单位:元)X2:各地区职工平均工资(单位:元)X3:各地区食品花费(单位:元)X4:各地区衣着花费(单位:元)X5:各地区居住花费(单位:元)X6:各地区医疗花费(单位:元)X7:各地区教育花费(单位:元)X8:各地区失业人员(单位:万人)X9:各地区人均电力耗费量(单位:万千瓦小时)3.2数据的收集和整理数据选自2011年《中国统计年鉴》我国31个省、市、自治区2010年的数据,以居民的消费性支出(单位:元)为因变量,以如上9个解释变量做回归分析。数据如表1所示。表12010年不同地区居民消费支出表城市𝐗𝟏𝐗𝟐𝐗𝟑𝐗𝟒𝐗𝟓𝐗𝟔𝐗𝟕𝐗𝟖𝐗𝟗Y北京41396651586392.902087.911577.351327.221028.897.7413025015天津34488514895940.441567.581615.571275.64752.5416.1499117784河北15960314513335.231225.941344.47923.83420.5235.137468057山西13662330573052.571205.891245.00774.89607.8220.440888159内蒙古20009352114211.482203.591384.451126.03645.0220.8622011080辽宁21267344374658.001586.811314.791079.81732.3538.9392112934吉林15569290033767.851570.681344.411171.25664.2422.721019141黑龙江16215277353784.721608.371128.14948.44528.5036.219528906上海45926661157776.981794.062166.221005.541167.8927.7563032271江苏27641397725243.141465.541234.05805.73831.7140.6491314035浙江28878406406118.461802.291418.001033.701234.0931.1518318097安徽10273333414369.631225.561229.64737.05696.8826.918128237福建20558323405790.721281.251606.27617.36605.2714.5356412871江西10816283634195.381138.841109.82524.22473.8126.315727972山东22863333214205.881745.201408.64885.79606.5759.5344311611河南13149298193575.751444.631080.10941.32396.3438.225047837湖北13308318114429.301415.681187.54709.58607.3055.723248977湖南11706296704322.091277.471182.33776.85605.4743.217848922广东25492404326746.621230.721925.21929.50825.4039.3389317218广西10311306734372.75926.421166.85625.45454.4719.121587732海南12052307754895.96636.141103.76579.89481.674.818347553重庆13543347275012.561697.551275.961021.48472.4313.021729723四川10806325674779.601259.491126.65661.03435.1334.619268182贵州6731304334013.671102.41890.75546.84494.0312.224045879云南8676291954593.491158.82835.45637.89323.0015.721846724西藏9692498984847.581158.60726.59385.63198.222.16804513陕西12707333844381.401428.201126.92935.38752.0521.423028273甘肃8900290963702.181255.69910.34828.57477.3910.731456035青海11519361213784.811185.56923.52718.78349.734.282677234宁夏11520371663768.091417.471181.71890.05484.404.886778992新疆13963320033694.811513.42898.38708.16433.3411.0303572764.数据处理与分析4.1确定理论回归模型的数学形式利用SPSS软件计算城镇居民消费支出数据的样本相关系数。计算结果如表2所示。表2城镇居民消费支出数据样本相关系数𝐗𝟏𝐗𝟐𝐗𝟑𝐗𝟒𝐗𝟓𝐗𝟔𝐗𝟕𝐗𝟖𝐗𝟗Y𝐗𝟏1.0000.8190.7820.6310.8230.6540.8200.1600.4080.962𝐗𝟐0.8191.0000.7540.4580.5690.4100.581-0.1970.3500.824𝐗𝟑0.7820.7541.0000.2910.7290.2790.6950.0190.1500.846𝐗𝟒0.6310.4580.2911.0000.4490.7700.5600.2050.3710.571𝐗𝟓0.8230.5690.7290.4491.0000.5790.7550.2940.3350.862𝐗𝟔0.6540.4100.2790.7700.5791.0
本文标题:北航应用数理统计大作业-多元线性回归
链接地址:https://www.777doc.com/doc-7331149 .html