您好,欢迎访问三七文档
1、线性回归分析第一节一元线性回归模型第二节多元线性回归模型第三节回归方程统计检验第四节多重共线性问题第五节虚拟变量的应用第六节统计软件在线性回归分析中的应用第一节一元线性回归模型一元线性回归模型的由来:假设在总体中满足Y=A+BX+ε,Y为随机变量,X为确定变量;将随机样本的观测数据代入方程中,则有:yi=a+bxi+ei,ei为样本随机误差项。y’=a+bx。参数a、b用最小平方法(OrdinaryLeastSquares)求得,即所有观测值与估计值之间的误差平方和最小。一元线性回归模型y’=a+bx的作用:简化x、y之间的关系,以直线作为简化方式;用x来预测y的变化,以直线作为预测的准则;研究x在多大程度上解释y的变化。一元线性回归系数一元回归系数的含义:a是直线在y轴上的截距,代表y的基础水平;b是直线的斜率,代表x变化一个单位时,y的平均变化;变量变换:由于直线关系是最简单的(叠加)关系,所以,尽量用直线作为预测或估计的准则;当因变量y与自变量x是非线性关系时,可以通过变量变换使经过变换的新变量对于参数是线性的。关于最小平方法一元线性回归模型的估计方法:最小。
2、平方法;最小平方法的统计性质:回归方程的拟合误差总和等于0,即Σei=0;误差平方和最小,即在所有拟合散点的直线中,根据最小平方法原则得到的回归直线使n个散点(yi,xi)沿y轴方向到直线的距离平方和最小;y’的平均值等于y的平均值;x与e相互独立,即x与e的协方差等于0,Cov(x,e)=[Σ(xi-x)(ei)]/n=0;y’与e相互独立,即y’与e的协方差等于0;直线通过n个散点的重心点,即x与y的均值确定的点一元线性回归模型的假设模型的假设条件(assumption)。统计理论已经证明,在满足一定的假设条件下,样本数据的最小平方估计是总体参数的最佳线性无偏估计。在推断总体参数或进行统计检验时,必须考虑总体回归模型中的随机误差项ε的分布特征。对总体随机误差ε的假设:高斯假设:零均值性;等方差性;误差之间独立;误差项与自变量相互独立;误差的正态分布性;违反假设可能产生的影响。第二节多元线性回归模型含义和作用分析一个随机变量与多个变量之间线性关系的最常用的统计方法。它用变量的观察数据拟合所关注的变量,并以线性关系式表达所关注的变量,并且回答这种表达的解释程。
3、度有多高;检验影响变量的显著程度和比较它们的作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化。因变量(dependentvariable)和自变量(independentvariable)的确定是建立回归模型的主要任务。回归方程的系数回归系数的意义:b0,b1,b2,…bk称为回归平面的系数。bj,j=1,2,…k表示其他变量xi在i=1,2,…,k固定时,xj每变化一个单位,y的平均变化。无论其他变量在什么水平上,只要其他变量固定,那么,xj的变化对y的影响都是相等的;至于y的取值,则与各个变量的当前水平有关。标准化回归系数定义:若先将所有的自变量和因变量进行标准化处理(均值为0,标准差为1),然后进行回归得到标准化回归方程,该方程的系数称为标准化回归系数。作用每一个标准化系数都表示,当其他变量不变时,xj变化一个标准差单位,y的标准差的平均变化。表示的是方程内变量之间的相对重要性;通过绝对值的比较,可回答在诸多解释变量中,哪个变量更重要的问题。方程的解释能力及其测量方程的确定能力:所得回归方程在多大程度上解释了因变量的变化,或者说方程对观察值的拟。
4、合程度如何;确定系数(coefficientofdetermination)R2:R2=Σ(y’-y均值)2/Σ(y-y均值)2,其值越接近1,表明方程中的变量对y的解释能力越强。它是方程拟合优度的度量,R2越大说明回归方程拟合优度越好,自变量与因变量线性关系越强,即回归方程中的自变量对y的解释能力越强。R2越小说明自变量与因变量的线性关系越弱,它们之间的独立性越强,或者说对x的了解无助于对y的预测。方程解释能力的其他测量调整的确定系数:R2adj=1-(n-1)(1-R2)/(n-k-1):R2是受自变量个数与样本规模之比(k:n)影响的系数,一般常规是1:10以上为好。当这个比值小于1:5时,R2倾向于高估实际的拟合优度,为了避免这种情况,采用R2adj代替R2。多元相关系数R(multiplecorrelation):对R2开方就得到R,R越接近1,表明y与所有x之间的线性关系越密切;实际上,R是y观测值与y预测值之间的简单相关系数。方程解释能力的其他测量净确定系数(partialcoefficientofdetermination):表示方程中的每一个变量xi对。
5、减少余差平方和的边际贡献,表示xi对y的边际解释能力。如,y对两个自变量进行回归,在控制x1的条件下,x2对y的解释能力为:R2y2.1=[RSS(1,2)-RSS(1)]/ESS(1)=[R2y.12-R2y.1]/(1-R2y.1).R2y2.1的值域为[0,1],它度量了x2对y的边际影响,度量的手段是比较两步回归之间发生的变化,并用于判断自变量的重要性。净相关系数:净确定系数的开平方。第三节回归方程的统计检验回归方程的显著性检验:即检验样本y与x,……,x的线性关系是否显著,即判断能否肯定总体回归系数中至少有一个不等于0。方差分析的主要目的就是进行回归方程的检验;回归系数的显著性检验:当回归方程检验显著时,便可以认为回归方程中至少有一个回归系数是显著的;希望在方程中保留最重要的变量,删除不显著的变量,即对自变量进行取舍。回归系数采用t检验的方法。常数项一般不是研究的重点,即使不显著也保留。回归系数的推断统计回归系数的置信区间:根据用户需要,SPSS可提供95%的置信区间;STATA可根据命令提供其他可信度的置信区间。回归系数不显著的原因:t=(bj-Bj)/。
6、sj,sj为bj的标准误。样本量太小,或者变量个数较多,使n-k变小,从而使sj增大,t值变小;xj的变化范围太小,即xj的标准差过小;xj与方程中的其他变量线性相关,当变量间的相关系数增大时,也使sj变大;y与xj有关联,但却是非线性的;y与xj确实不存在显著的关系;第四节多重共线性多重共线性的含义及其影响:多元线性回归模型参数b的求解过程中,要求自变量间线性无关,从而最小平方法求出唯一一套b估计值。当自变量之间高度相关时,回归方程中的自变量就会相互消弱各自对y的边际影响,使本身回归系数的数值下降而其标准误扩大,出现回归方程整体显著,但各个自变量都不显著的现象。当多重共线性发生时,方程的回归系数不可靠。注意:多重共线性指的是自变量之间的线性相关,当自变量之间为非线性相关时,不一定产生严重的多重共线性问题。多重共线性的检验多重共线性的存在依据:方程的确定系数很高,且y与各自变量的相关系数也很高,但自变量的回归系数均不显著;多个自变量的情形,某一自变量可被其他变量线性表达出来;方程的确定系数很高,但每一自变量的偏确定系数很小。统计软件SPSS、STATA给出多。
7、重共线性检验的指标值,如容限度(tolerance)、方差膨胀因子(varianceinflationfactor,符号为VIF)及用于共线性判断的特征值和状态指标(Eigenvaluesandconditionindexes)。多重共线性的检验检验指标及其计算容限度:以每个自变量xi作为因变量对其他自变量回归时得到的余差比例(1-Ri2);表示所有自变量能够提供的独立信息占本身方差的比例;容限度很小时说明xi与其他变量的信息的重复性越大,其对y的边际解释能力越小;小于0.1认为这一变量与其他自变量之间的多重共线性超过了容许界限。方差膨胀因子为容限度的倒数,表示共线性问题时所有自变量回归系数的方差扩大多少倍。多重共线性的解决方法补救多重共线性影响的办法:去掉与y相关程度较低,与其他自变量高度相关的变量;去掉可被其余自变量线性表示出的变量;增加样本规模;采用新的样本数据,在数据中重新抽取一个样本,有可能会减弱其中变量的多重共线性,因为数据样本的变化,往往会对方程的回归系数及其标准误产生影响;利用先验信息组合变量,如因子分析;将截面数据与时序数据结合;变量变换,如对。
8、数变换、倒数变换等。注意,在时间序列方程中,若原来模型的误差项ei相互独立,变换后的误差vi=ei-ei-1,i=1,2,…,n,则可能相互不独立,它称为自相关现象。最优回归方程的选择最优回归方程所谓最优回归方程即确定系数尽可能大,且包含了尽可能多的对y有较大影响的变量,同时这些变量又都是显著的。选择方法:逐步回归第五节虚拟变量虚拟变量的建立:设x是有k分类的名义变量,用k-1个取值为0或1的虚拟变量(dummyvariable)分别代表各类别的属性,当案例属于一个虚拟变量所代表的类别时,这个虚拟变量就赋值为1,否则就赋值为0。参照类(referencecategory):没有纳入线性回归方程的类别。虚拟变量的应用虚拟变量回归系数的意义:表示该类别与参照类均值之差,因此又称其为差别截距。若一个回归分析中只有虚拟变量且这些虚拟变量都代表某一个原变量的不同类别,则这一回归的整体检验等价于单因素方差分析。若一个回归分析中只有两个因素形成的虚拟变量,则这一回归分析等价于双因素方差分析。虚拟变量的检验采用虚拟变量的回归分析的检验:由于虚拟变量的的取值只有0和1,因此,检验的只是取值。
9、为1的类别的平均值是否与参照类的平均值有明显差异。其他形式的分类变量编码:效应编码(effectcoding);正交编码(orthogonalcoding);非正交编码(nonorthogonalcoding)。第六节统计软件在线性回归分析中的应用SPSS软件模型设置、统计量选择、检验图形设置分析结果的解释STATA软件各种设置的命令分析结果的解释SPSS图形的检验功能检验误差项是否呈正态分布(Histogramof*zresid):做法:以回归方程的标准化误差为横坐标,以标准化误差的频数为纵坐标,并提供正态分布参照线;回归方程预测值与误差项的关系图(散点图):做法:以回归方程标准化预测值为横坐标,以标准化误差为纵坐标。作用:线性关系的检查:若实际数据中变量间真为线性关系,该散点图无明显趋势;均方差性的检查:若均方差性存在,横轴各点上散点的纵向分布宽度应该相等;特异值的检查:若存在超出正负2区间的标准化误差值,便可认为是特异值。SPSS图形的检验功能偏差散点图:(Patialresidualplotofx1withy):即单个变量净解释作用的检查,检查单个。
10、自变量的边际影响。检查的是:该自变量与其他自变量所不重合的信息与其他自变量解释因变量后所剩下的未解释信息之间的关系。误差序列相关的检查:Durbin-Watson统计量用来检验误差项之间是否存在序列相关。d的值域为[0,4],在误差不存在序列相关时,d值应该在2左右。d值小于2时意味着相邻的误差之间存在正相关;d值大于2意味着相邻的误差存在负相关。不一定只有时间序列数据才存在序列相关问题,各自独立的变量之间出现序列相关的原因:变量设置问题,如,某自变量应该与因变量是二项式关系,但回归中只设为一次项关系;遗漏了其他重要的自变量。STATA相关分析的应用相关分析:Pearson相关的命令corryx1x2给出相关系数矩阵corryx1x2,covariance给出的是协方差矩阵配对相关的命令pwcorryx1x2功能同corr,给出相关系数矩阵pwcorryx1x2,sig给出显著性检验pwcorryx1x2,sidaksig用sidak检验法将多重比较纳入考虑来调整显著度Spearman级序相关测量的命令:spearmanyx肯德尔系数级序相关测量的命令:kt。
本文标题:线性回归ppt课件
链接地址:https://www.777doc.com/doc-6865250 .html