您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 11-多元(重)线性回归
多元(重)线性回归例子人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间32例40岁以上男性的年龄、吸烟、体重指数与收缩压多元回归分析数据格式多元线性回归模型多元线性回归模型的一般形式mmXbXbbY110ˆ两自变量与应变量的散点图两自变量与应变量的拟合面bj为xj方向的斜率多元线性回归分析的一般步骤表15-132例40岁以上男性的Quetelet体重指数、年龄、吸烟与收缩压实测值编号(ID)收缩压Y年龄X1吸烟X2体重指数X3编号(ID)收缩压Y年龄X1吸烟X2体重指数X311354502.876171454913.36021224103.251181424613.02431304903.100191355703.17141485203.768201425603.40151465412.979211505613.62861294712.790221445803.75171626013.668231375303.29681575413.612241325003.21091444412.368251495413.301101806414.637261324813.017111665913.877271204302.789121385114.032281264312.956131526404.116291616303.800141385603.673301706314.132151405413.562311526203.962161345012.998321646504.010采用最小二乘法建立多元线性回归方程1''BXXXY也可采用矩阵计算偏回归系数向量SAS程序dataa;inputnoyx1-x3;cards;11354502.87621224103.251。。。311526203.962321646504.01;procreg;modely=x1-x2/stb;run;SAS软件主要输出结果ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr|t|EstimateIntercept142.788789.881594.330.00020x111.431840.310574.61.00010.68980x219.490432.421743.920.00050.33641x315.839084.287541.360.18410.20293分别为参数估计值b0、b1、b2、b3回归方程的假设检验与评价一、回归方程的假设检验二、偏回归系数的假设检验三、有关评价指标回归方程的方差分析(H0:所有总体回归系数bj为0)AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePrFModel35052.618281684.2060936.58.0001Error281289.2567246.04488CorrectedTotal316341.87500有关计算公式有关计算公式SSYYiiNTotal()12SSYYiiNmodel()12SSYYiiNierror()12X2X1YModelSSTotalSSResidualSS各回归系数的t检验ParameterStandardStandardizedVariableDFEstimateErrortValuePr|t|Estimate变量自由度回归系数标准误t值P值标准化回归系数Intercept2842.788789.881594.330.00020x1281.431840.310574.61.00010.68980x2289.490432.421743.920.00050.33641x3285.839084.287541.360.18410.20293|12...2|1,2,...,1,1,...,2|1,2,...,1,1,...,(),1;1(1)jjjbjYpjjjjjjjpjjjpjtbSbSCnpClRRX为与其余自变量间的决定系数标准化回归系数(可说明各自变量相对贡献大小)变量回归系数bj标准化回归系数b’jljj标准差S常数项42.788780.00000X11.431840.689801471.8756.890561X29.490430.336417.9690.507007X35.839080.202937.6600.497078Y6341.87514.30303YjjYYjjjYYjjjjSSbnlnlbllbb)1/()1/(有关评价指标(软件有关结果)RootMSE(剩余标准差)6.7856R-Square(决定系数)0.7967AdjR-Sq(校正决定系数)0.7749DependentMean应变量Y的均值=144.43750剩余标准差(RootMSE)反映了回归方程的精度,其值越小说明回归效果越好2|12...ˆ()/(1)146.044886.78564YpSYYnpSSnpMS残残()决定系数(determinationcoefficient)215052.618281289.2567210.79676341.875006341.87500SSSSRSSSS回残总总=说明所有自变量能解释Y变异的百分比。取值(0,1),越接近1模型拟合越好复相关系数(multiplecorrelationcoefficient)20.79670.8926RRYˆ说明所有自变量与Y间的线性相关程度。即与Y间的相关程度。如果只有一个自变量,此时|r|R校正决定系数(Adjusteddeterminationcoefficient)22/(1)11(1)1(1)/(1)1289.25672/28110.77496341.87500/31cSSnpnRRnpSSnMSMS残总残总=-=响考虑了自变量个数的影,22RRc偏回归平方和(sumofsquaresforpartialregression)及其F检验()12;1;1(1)jjSSSSFnpSSnp回回残在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应;j=1,2,…,p0:0:10jjHHbb;()12;1;1(1)jjSSSSFnpSSnp回回残FullModelReducedModel实例计算用表15-1数据计算偏回归平方和,并进行F检验平方和方程的自变量方程SS回SS回-SS回-jSS残F值t值P值X1,X2,X35052.6181289.257X2,X34073.880978.73821.2564.610.0001X1,X34345.492707.12615.3573.920.0005X1,X24967.21985.3991.8551.360.1841/1/(3231)jSSSSFSS-(回-回)残自变量的选择一、全局择优法二、逐步回归法一、全局择优法根据一些准则(criterion)建立“最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaike’sInformationCriterion)准则;AIC越小越好模型的变量筛选(一)校正决定系数(Adjusteddeterminationcoefficient)2188.8412/2210.5282222.5519/26cMSRMS残总-=Yˆ响考虑了自变量个数的影,22RRc(二)Cp准则的计算公式1964CLMallows()[2(1)]()(1)()[2(1)]()(p1)ppmpmpSSCnpMSnpMSnpMSC残残残残年提出接近的模型为最佳(三)AIC准则的计算公式2|121973()ln[()/]2ypAICnnpnSpAIC年由日本学者赤池提出最小二乘法时越小越好1.全局择优法求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型SAS获得的几个准则值结果ADJRSQCPAICADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507全局择优法的局限性如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。2.逐步选择法1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)它们的共同特点是每一步只引入或剔除一个自变量。决定引入或剔除基于对偏回归平方和的F检验1;1;)1(21)(pnpnSSSSSSFjj残回回(一)前进法自变量从无到有、从少到多1.Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。2.在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。(二)后退法先将全部自变量放入方程,然后逐步剔除1.偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。2.建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果。(三)逐步回归法双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法)小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。多元线性回归的应用及其注意事项一、应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量二、应用条件三、应用的注意事项(一)变量的数量化(二)样本含量(三)统计“最优”与专业的“最优”(四)多重共线性(五)交互作用(六)残差图(七)偏相关系数(一)变量的数量化(1)自变量为连续型变量(必要时作变换)(2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1)(3)自变量为二分类(可令男=1,女=0)(4)自变量为名义分类(需要采用哑变量(dummyvariables)进行编码)名义分类变量的哑变量化假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:举例姓名性别sex年龄职业(J)J1J2J3J4张山男119学生0001李四女025商人0010王五男130军人0000赵六女040农民0100钱七女036工人1000孙八男130商人0010刘九男126军人0000注意:1.哑变量是同时存在,其统计学意义是相对而言的。2.哑变量有无意义可采用加与不加入哑变量的偏回归平方和F检验确定。(二)样本含量观察个体数n与变量个数m的比例一般至少应为:观察个体n:变量m=5~1
本文标题:11-多元(重)线性回归
链接地址:https://www.777doc.com/doc-5450791 .html