您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 多元线性回归分析-研(精)
2表127名糖尿病人的血糖及有关变量的测量结果总胆固醇甘油三酯胰岛素糖化血红蛋白血糖(mmol/L)(mmol/L)(U/ml)(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3273.841.206.459.610.43人的体重与身高、胸围有关人的心率与年龄、体重、肺活量有关人的血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史等有关射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间有关…4多元线性回归:简称为多元回归,分析一个应变量与多个自变量间的线性关系。5表2多元回归分析数据格式例号X1X2XmY1X11X12X1mY12X21X22X2mY2nXn1Xn2XnmYn6一、多元线性回归模型一般形式为:Y=β0+β1X1+β2X2+…+βmXm+εβ0:常数项,又称为截距β1,β2,…,βm:偏回归系数(Partialregressioncoefficient)简称回归系数,在其它自变量保持不变时Xi(i=1,2,…,m)每改变一个单位时,应变量Y的平均变化量ε:去除m个自变量对Y的影响后的随机误差,又称残差7多元线性回归模型的应用条件:1.线性趋势:Y与Xi间具有线性关系2.独立性:应变量Y的取值相互独立3.正态性:对任意一组自变量取值,因变量Y服从正态分布4.方差齐性:对任意一组自变量取值,因变量y的方差相同后两个条件等价于:残差ε服从均数为0、方差为σ2的正态分布8多元线性回归的分析步骤:1.根据样本数据求得模型参数的估计值,得到应变量与自变量数量关系的表达式:2.对回归方程及各自变量作假设检验,并对方程的拟和效果及各自变量的作用大小作出评价mmxbxbxbby......ˆ22110此公式称为多元线性回归方程9多元线性回归方程的建立:利用最小二乘法原理估计模型的参数:(使残差平方和最小)Ymmlblblbl11212111Ymmlblblbl22222121mYmmmmmlblblbl2211)(mmXbXbXbYb2211010方程的求解过程复杂,可借助于SPSS、SAS等统计软件来完成SPSS:Analyze→Regression→Linearregression→dependent:yindependent:x1-x5SAS程序:PROCREGDATA=mr15-1;MODELy=x1-x5;RUN;11例15.1:P210SPSS的分析结果Coefficientsa8.429.60713.893.000.126.096.1121.305.201.044.008.4765.693.000.057.009.4346.491.000.032.006.4315.048.000-.017.013-.105-1.318.196(Constant)x1x2x3x4x5Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.12二、多元回归方程的假设检验回归方程是否成立?各偏回归系数是否等于0?131.多元线性回归方程的假设检验:方差分析法:SS总=SS回+SS残01211122:0:(1,2,,)0//1miYYmmYHHimSSblblblSSSSSSSSmMSFSSnmMS回总回残回回残残不全为()14ANOVAb48.75059.75042.028.000a7.88834.23256.63739RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),x5,x3,x1,x2,x4a.DependentVariable:yb.152.偏回归系数的假设检验方差分析法、t检验法方差分析法:1212()//1iSSXFSS残n-m-1SS(Xi)为第i个自变量的偏回归平方和16偏回归平方和:SS(Xi),表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除该自变量后回归平方和的减少量,或者在m-1个自变量的基础上增加一个自变量后回归平方和的增加量。注意:m-1个自变量对y的回归平方和由m-1个自变量对y重新建立回归方程后计算得到,而不能简单的在整个方程的基础上把biliy去掉后得到。17各偏回归平方和SS(Xi)及残差的计算回归方程中包含的自变量SS回SS(Xi)X1X2X3X4X5SS总-X2X3X4X5SS-1SS总-SS-1X1X3X4X5SS-2SS总-SS-2X1X2X4X5SS-3SS总-SS3X1X2X3X5SS-4SS总-SS4X1X2X3X4SS-5SS总-SS5182.偏回归系数的假设检验t检验法:iiibbtsn-m-119SPSS的结果Coefficientsa8.429.60713.893.000.126.096.1121.305.201.044.008.4765.693.000.057.009.4346.491.000.032.006.4315.048.000-.017.013-.105-1.318.196(Constant)x1x2x3x4x5Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.203.标准化偏回归系数对各数据进行标准化后求得的回归方程即标准化回归方程,其相应的偏回归系数即标准化偏回归系数。标准化偏回归系数和偏回归系数的关系:'iiiiiiyyylsbbbls在有统计学意义的前提下,标准化偏回归系数绝对值的大小可直接进行比较,以衡量自变量对应变量的作用大小例:见P213214.复相关系数复相关系数:multiplecorrelationcoefficient衡量因变量y与回归方程内所有自变量线性组合间相关关系的密切程度,也即Y与之间的相关系数。R其值在0与1之间2SSRRSS回总Y如果只有一个自变量,此时|r|R22R2称为决定系数表明回归平方和在总平方和中所占的比重。R2越接近于1,说明引入方程的自变量与因变量的相关程度越高,Xi与y的回归效果越好。R2受自变量个数的影响,由此又提出校正决定系数,既反映模型的拟和优度,又同时考虑了模型中的自变量个数。2211(1)1adjnRRnm23ModelSummaryb.928a.861.840.48165Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),x5,x3,x1,x2,x4a.DependentVariable:yb.24三、选择最优回归方程的方法1.最优回归方程:1)对y的作用有统计学意义的自变量,全部选入回归方程2)对y的作用没有统计学意义的自变量,一个也不引入回归方程252.方法:1)最优子集回归法:又称全局择优法,求出所有可能的回归模型(共有2m-1个)选取最优者2)向后剔除法(backwardselection)3)向前引入法(forwardselection)4)逐步回归法(stepwiseregression)26逐步回归法自变量回归平方和最大的Xi首先进入方程,在Xi进入方程的基础上计算其余m-1个自变量分别进入回归方程时的偏回归平方和,其中最大者记为SSj,对Xj进行检验,若有意义则进入方程,并重新对Xi进行检验。若Xi退化为无意义,则剔除Xi,同时再对Xj进行检验。若Xj依然有意义则继续选择下一个偏回归平方和最大者并进行检验。重复此过程。27逐步回归法每引入或剔除一个自变量后都要重新对已进入方程中的自变量进行检验,直到方程外没有有意义的自变量可引入、方程内也没有无意义的自变量可剔除为止。28逐步回归法双向筛选;引入一个有意义变量(前进法)的同时,剔除无意义的变量(后退法)“先剔除后选入”原则α入和α出可等可不等注意,引入变量的检验水准要小于或等于剔除变量的检验水准。29VariablesEntered/Removedax2.Stepwise(Criteria:Probability-of-F-to-enter=.050,Probability-of-F-to-remove=.100).x3.Stepwise(Criteria:Probability-of-F-to-enter=.050,Probability-of-F-to-remove=.100).x4.Stepwise(Criteria:Probability-of-F-to-enter=.050,Probability-of-F-to-remove=.100).Model123VariablesEnteredVariablesRemovedMethodDependentVariable:ya.30Coefficientsa12.546.25249.858.000.063.011.6765.648.0008.000.8049.953.000.064.008.6857.818.000.067.011.5095.810.0008.202.60213.621.000.048.007.5217.230.000.060.009.4576.904.000.029.005.3995.493.000(Constant)x2(Constant)x2x3(Constant)x2x3x4Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.31ModelSummaryd.676a.456.442.90018.846b.716.700.65967.919c.845.832.49326Model123RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),x2a.Predictors:(Constant),x2,x3b.Predictors:(Constant),x2,x3,x4c.DependentVariable:yd.32ANOVAd25.845125.84531.895.000a30.79238.81056.6373940.536220.26846.576.000b16.10137.43556.6373947.878315.95965.594.000c8.75936.24356.63739RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123SumofSquaresdfMeanSquareFSig.Predictors:(Constant),x2a.Predictors:(Constant),x2,x3b.Predictors:(Constant),x2,x3,x4c.DependentVariable:yd.33四、多元线性回归的应用1.影响因素分析:年龄(X1)饮食习惯(X2)吸烟状况(X3)工作紧张度(X4)家族史(X5)高血压(Y)342.估计与预测:心脏表面积(Y)=b0+b1心脏横径(X1)+b2心脏纵径(X2)+b3心脏宽径(X3)新生儿体重(Y)=b0+b1胎儿孕龄(X1)+b2胎儿头径(X2)+b3胎儿胸径(X3)+b4胎儿腹径(X4)353.统计控制:利用回归方程进行逆估计,确定Y后
本文标题:多元线性回归分析-研(精)
链接地址:https://www.777doc.com/doc-3958890 .html