您好,欢迎访问三七文档
多元线性回归分析Multivariatelinearregression李忠良华中科技大学同济医学院人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间一个变量的变化直接与另一组变量的变化有关:如:Multivariatelinearregression概念:多元线性回归分析也称复线性回归分析(multiplelinearregressionanalysis),它研究一组自变量如何直接影响一个因变量。自变量(independentvariable)是指独立自由变量的变量,用向量X表示;因变量(dependentvariable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariatelinearregressionanalysis)编号1X2X┅jX┅mXY111X12X┅jX1┅mX11Y221X22X┅jX2┅mX22Y┇┇┇┇┇┇┇┇i1iX2iX┅ijX┅imXiY┇┇┇┇┇┇┇┇n1nX2nX┅jnX┅mnXnY注:患者编号为i),,2,1(ni;变量个数为j),,2,1(mj多元回归分析数据格式假定因变量Y与自变量间存在如下关系:mmXXXY22110式中,是常数项,称为偏回归系数(partialregressioncoefficient)。的含义为在其它自变量保持不变的条件下,自变量改变一个单位时因变量Y的平均改变量。为随机误差,又称残差(residual),它表示的变化中不能由自变量解释的部分。0m,,21m,,ii21Ym,,iXi21mX,X,X21iX一、多元线性回归方程模型x1x2y22110ˆXbXbbY多元线性回归模型应满足以下条件:(1)Y与mX,X,X21之间具有线性关系;(2)各观测值n,,,jYj21之间相互独立;(3)残差服从均数为0、方差为2的正态分布,它等价于对于任意一组自变量mX,X,X21,应变量Y均服从正态分布且方差齐。应用条件:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。方程组中:nXXXXXXXXlljijijjiijiij/)])([())((nYXYXYYXXliiiiiy/)])([())((求回归系数mb,b,b21的方法是求解正规方程组(normalequations):mymmmmmymmymmllblblbllblblbllblblb22112222221111122111方程中参数的估计可用最小二乘法求得,也就是求出能使估计值和实际观察值的误差平方和为最小值的一组回归系数值。常数项mmXb...XbXbYb22110(一)模型的参数估计27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。例14.1各变量的离差矩阵求解后得142401.b,351502.b,270603.b,638204.b各变量均值分别为:812651.X,840722.X,146763.X,118594.X,925911.Y,则常数项:11859638201467627060840723515081265142409259110.........b=5.943343216382.02706.03515.01424.09433.5ˆXXXXY线性回归方程模型为:1、对模型的假设检验—F检验2、对偏回归系数的假设检验—F检验和t检验3、标准偏化回归系数(二)对模型及偏回归系数的假设检验1、对模型的假设检验—F检验检验统计量为F:)mn/(SSm/SSF1剩余回归SS回归为回归项的平方和,反映由于方程中m个自变量与因变量Y的线性关系而使因变量Y变异减小的部分;iyimYmYYlblblblbSS2211回归SS剩余表示剩余平方和,说明除自变量外,其它随机因素对Y变异的影响。回归总剩余SSSSSSSS回归=b1l1y+b2l2y+b3l3y+b4l4y=0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570=133.7107;ν回归=m=4各变量的离差矩阵142401.b,351502.b,270603.b,638204.bSS总=lyy=222.5519;ν总=n-1=26SS剩余=SS总-SS回归=222.5519-133.7107=88.8412ν剩余=n-m-1=22MS回归=SS回归/ν回归;MS剩余=SS剩余/ν剩余;F=MS回归/MS剩余1、对模型的假设检验—F检验1、对模型的假设检验—F检验2、对偏回归系数的假设检验—F检验和t检验回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。①方差分析法②t检验法计算iX的偏回归平方和(sumofsquaresforpartialregression)iU,它表示模型中含有其它1m个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除iX后所引起的回归平方和的减少量。偏回归平方和iU越大说明自变量iX越重要。检验统计量为:11mnSSUFi剩余①偏回归系数的假设检验--方差分析法表14-5对例14.1回归分析的部分中间结果平方和(变异)回归方程中包含的自变量SS回归SS剩余①1X,2X,3X,4X133.710788.8412②2X,3X,4X133.097889.4540③1X,3X,4X121.7480100.8038④1X,2X,,4X113.6472108.9047⑤1X,2X,3X105.9168116.6351152.00382.416129.01/11剩余MSUF,9622038241962711122...MS/UF剩余968.43F,883.64F①偏回归系数的假设检验--方差分析法ParameterStandardStandardizedVariableDFEstimateErrortValuePr|t|Estimate变量自由度偏回归系数标准误t值P值标准化回归系数Intercept225.943272.828592.100.04730X1220.142450.365650.390.70060.07758X2220.351470.204201.720.09930.30931X322-0.270590.12139-2.230.0363-0.33948X4220.638200.243262.620.01550.39774t检验法与方差分析法完全等价,公式为:iibSEbt,1mn式中ib是偏回归系数的估计值,()iSEb是ib的标准误。②偏回归系数的假设检验—t检验指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回归方程整个方程有统计学意义各自变量的参数估计对偏回归系数的假设检验3、标准偏回归系数多元线性回归方程中,各自变量的单位不同,其偏回归系数之间是无法直接比较的。需要对偏回归系数标准化,以消除量纲的影响。标准化的偏回归系数称为标准偏回归系数(standardpartialregressioncoefficient)。标准偏回归系数'ib与偏回归系数之间的关系为:'ib=ibyyiill=ibyiss标准偏回归系数绝对值的大小,可用以衡量自变量对因变量贡献的大小,即说明各自变量在多元回归方程中的重要性。注意YjjYYjjjYYjjjjSSbnlnlbllbb)1/()1/(变量回归系数bj标准化偏回归系数b’jX10.142450.07758X20.351470.30931X3-0.27059-0.33948X40.63820.397743、标准化偏回归系数偏回归系数偏回归系数标准误标准偏回归系数(三)计算相应指标,对模型的拟合效果进行评价评价回归方程回归效果的优劣是回归分析的重要内容之一。常用评价指标有:复相关系数、决定系数、校正决定系数、剩余标准差等。1.复相关系数复相关系数(R),衡量因变量Y与回归方程内所有自变量线性组合件相关关系的密切程度。0=R=1,没有负值。R的值越接近1,说明相关关系越密切;越接近0说明相关关系越弱。决定系数(coefficientofdetermination)表示回归平方和占总平方和的比例,反映各自变量对因变量回归贡献的大小,用2R表示。总回归SSSSR22R无单位,取值在0~1之间。值越大,说明回归平方和在总平方和中所占的比重越大,剩余平方和所占比例越小,回归效果越好。2.决定系数剩余标准差(standarddeviationofresidual)为扣除m个自变量的影响后,因变量Y仍然存在的变异,即不能由m个自变量的变化解释的Y的变异,用mYs123表示。公式为:1123mnSSMSsmY剩余剩余剩余标准差越小,说明回归效果越好剩余标准差除与剩余平方和有关外,还与自由度有关,因此剩余标准差与决定系数对回归效果优劣的评价结果有时不一致。研究者通常希望用尽可能少的自变量来最大限度地解释因变量的变异,从这个意义上来说,用剩余标准差作为评价回归效果的指标比决定系数更好。3、剩余标准差当方程中包含很多自变量时,即使其中一些自变量在解释因变量Y的变异时贡献很小,但随着回归方程中自变量的增加。决定系数仍然会表现为只增不减,故计算校正决定系数(adjustedcoefficientofdetermination)以消除自变量个数的影响。公式为:221-R111n-m-1adjnMSRMS剩余总校正决定系数2adjR越大,说明回归效果越好。当方程中加入有显著作用的自变量时,2adjR增大,剩余标准差减小;反之,若方程中引入无显著作用的自变量时,2adjR可能减小,而剩余标准差增大。4、校正决定系数三、逐步回归分析“最优回归方程”是指:①对因变量Y有显著作用的自变量,全部选入回归方程;②对因变量Y无显著作用的自变量,一个也不引入回归方程。选择”最优回归方程”的方法有:1.最优子集回归法2.向后剔除法(backwardselection)3.向前引入法(forwardselection)4.逐步回归法(stepwiseselection):(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2m-1个),按一定准则选择最优模型,常用的准则有:①校正决定系数(考虑了自变量的个数)②Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近p+1的模型为最优)③AIC(Akaike`sInformationCriterion)准则;AIC越小越好最优子集法的局限性如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……..;当自变量数个数为50时,所有可能的回归为250-1≈1015个。(二)逐步选择法1.前进法(forwardselection)2.后退法(back
本文标题:多元线性回归分析
链接地址:https://www.777doc.com/doc-5898049 .html