您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 数学实验-12:回归分析
实验12:回归分析习题7:在有氧锻炼中人的耗氧能力y(ml/(min·kg))是衡量身体状况的重要指标,它可能与以下因素有关:年龄x1,体重x2(kg),1500m跑的时间x3(min),静止时心跳速度x4(次/min),跑步后心速x5(次/min).对24名40至57岁的志愿者进行了测试,结果如下表(节选),试建立耗氧能力y与诸因素的之间的回归模型。(1)若x1~x5中只许选择1个变量,最好的模型是什么?(2)若x1~x5中只许选择2个变量,最好的模型是什么?(3)若不限制变量的个数,最好的模型是什么?(4)对最终模型观察残查,有无异常点,若有,剔除后如何?1.模型建立本题不同小问需要建立不同模型,由于专业知识所限,并且提供的数据较少,难以做出精确符合现实情况的模型,因此这里采用最简单的线性回归法进行拟和,模型基本形式如下:0111,mmjkjkjkmyxxxx事实上,中的项(高次项和交互项)对于本题目来讲意义不大,因为所给定的5个自变量和因变量之间关系比较模糊,几个变量彼此之间的联系也很难说清,因此用自变量的一次线性拟和就足以适应本题的要求。但作为练习,还是将每种回归方法都使用到了,可以用于参考。具体采用的各个模型将在下面单独说明,这里不再重复。2.程序设计由于本题需要建立多组模型,并且要在不断的调试中发现最合理的,很多命令都要在这个过程中不断使用,这里仅仅给出使用的最基本的命令。数据clearA=[…];%数据矩阵,略n=24;y=A(2,:);%提取各个数据x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);绘制散点图(大致判断影响情况)fori=1:5subplot(2,3,i),plot(A(i+2,:),y,'+'),grid序号1234…21222324Y44.645.354.359.6…39.446.145.454.7X144404442…57545250X289.575.185.868.2…73.479.476.370.9X36.826.045.194.9…7.586.75.785.35X462624540…58624848X5178185156166…174156164146pauseendpause单参数回归(第一问)X=[ones(n,1),x4'];%这里检验的是自变量x4,实际操作时要分别检验x1~x5[b,bint,r,rint,s]=regress(y',X);%回归分析程序(=0.05)b,bint,s,%输出回归系数估计值、置信区间、以及统计量rcoplot(r,rint)%残差图Polytool(x3',y',2)%检验一元多项式回归的结果,输出交互式画面双参数回归(第二问):用逐步回归法找出最合理的两个变量X5=[x1',x2',x3',x4',x5'];stepwise(X5,y');%利用输出的交互式画面,可以选出最佳的两个变量XX=[x3',x1'];%当得到了最佳的两个变量后(这里假设是x3\x1)rstool(XX,y','linear')%检验二元情况下的交互项和高次项全部参数回归(第三问):X5=[x1',x2',x3',x4',x5'];%仍然用逐步回归法找出最合理的组合方式stepwise(X5,y')第五问要求对残差进行分析,并且剔除异常点,可以在该问得到最终模型后,采用regress得到的残差值和置信区间并根据其绘制残差图,然后再进行剔除操作重新检验。3.运行结果及分析散点图35404550556035404550556065657075808590953540455055606545678935404550556065404550556065703540455055606514015016017018019035404550556065散点图从左上到右下的顺序为x1~x5.可以由点的分布大致看出,除了x3自变量呈现比较明显的负相关趋势以外,对于其他的各个自变量都难以直接观测出其对于因变量的影响。根据这种结果,可以假设自变量x3(1500m跑后心速)最直接的与锻炼耗氧能力相关,下面通过对各个自变量的单参数回归进行检验。单参数回归被检对象β0β1β1置信区间R^2Fps^2X164.3812-0.3599-0.83090.11110.10252.51150.127331.2484X252.7432-0.0644-0.43340.30460.00590.13100.730934.6097X383.4438-5.6682-7.1252-4.21120.747465.095908.7943X467.1094-0.3599-0.6262-0.09360.26317.85600.010425.6547X594.0024-0.2739-0.5095-0.03840.20915.81690.024727.5352由单参数回归的结果可以证明X3(1500m跑后心速)可以最好的反映出y(锻炼耗氧能力)的情况。由β1置信区间可以看出,x1、x2包含0在内,即y可能与该参数无关,所以不选择,并且两者的p值已经明显的大于=0.05,则不考虑x1、x2。比较x3~x5后发现,x3的2R-决定系数明显的大于x4、x5的,决定系数反映的是在因变量的总变化中自变量引起的那部分的比例,2R大说明x3自变量对因变量起的决定作用最大。并且x3的p和s^2值也都比较小,所以最终确定x3可以最好的反映出y的情况。用Polytool检验含x3高次(2次)项的情况,参量Export如下表:β0β1β2回归系数估计值122.7242-17.90720.9356置信区间下限67.1878-35.0387-0.3695置信区间上限178.2605-0.77572.240855.566.577.588.53035404550556065可以同之前的仅含一次项的结果进行比较,发现各个参量的置信区间都很宽,且β2的置信区间过0。可以认为二次项的引入是不重要的。因此采用如下单参数模型描述y是最准确地:033yx其中:0383.4438,-5.6682双参数回归:用stepwise作逐步回归,部分过程和最终结果如下图:Coeff.t-statp-val-0.186963-1.57570.13000.01670450.18100.8581-5.66821-8.06820.00000.01928460.19820.8448-0.0581096-0.80730.428612246ModelHistoryRMSE-6-4-20X1X2X3X4X5CoefficientswithErrorBars只取x3自变量的回归结果Coeff.t-statp-val-0.32544-2.52740.02000.02452580.26210.7959-5.38944-6.84050.00000.02619620.26600.7930-0.0581096-0.80730.4286123246ModelHistoryRMSE-6-4-20X1X2X3X4X5CoefficientswithErrorBars取x3和x5自变量的回归结果Coeff.t-statp-val-0.186963-1.57570.1300-0.0122827-0.13430.8945-5.46711-7.90200.0000-0.0242622-0.24670.8077-0.156086-2.08090.0505123246ModelHistoryRMSE-6-4-20X1X2X3X4X5CoefficientswithErrorBars取x3和x1自变量的回归结果根据题目要求,最终得到取双参量时的最佳结果(RMSE参量最小)是取x3(1500m跑后心速)和x1(年龄)自变量。但事实上,实际的逐步回归过程在此时并没有结束,最终的最优结果是只取x3参量。这说明取x3、x1参量同只取x3相比优势并不明显。通过rstool命令检验二元情况下的交互项和高次项情况,下图是linear情况下固定单参数进行预测的结果:项对应的系数常数项X3X1X3^2X1^2X3*X1RMSELinear90.8529-5.4671-0.1872.8704Purequadratic142.8835-14.7911-1.17180.71110.01092.9028Interaction120.1929-10.1096-0.83640.10252.9033Quadratic144.4666-16.4515-1.01990.04500.68180.00622.97865.566.577.5835404550554042444648505254可以看到高次项和相关项的系数都非常小,说明其对于y的影响不大。根据rmse的结果进行比较,仍然选择linear回归方式,即只用二元自变量的一次项。01133yxx其中:01390.8529,=-0.1870,-5.4671全参数回归根据以上的分析可以验证模型建立时的猜想,本题中5个字变量和y的关系都不是很直接的,除x3外其他变量的影响很小,所以在最终完整模型中,不再考虑高次项和交互项的影响,一方面简化模型,一方面大大节省的筛选的时间。所以采用stepwise命令,仅对五元变量x1~x5的一次项进行回归分析,结果如下:Coeff.t-statp-val-0.32544-2.52740.0200-0.0130877-0.15390.8793-4.56936-5.90260.0000-0.0383586-0.41930.6797-0.156086-2.08090.05051234246ModelHistoryRMSE-6-5-4-3-2-10X1X2X3X4X5CoefficientswithErrorBarsExport参数结果:β置信区间Coeff.set-statp-valX1-0.3254-0.594-0.0568-0.32540.1288-2.52740.02X2000-0.01310.0851-0.15390.8793X3-4.5694-6.1842-2.9546-4.56940.7741-5.90260X4000-0.03840.0915-0.41930.6797X5-0.1561-0.31260.0004-0.15610.075-2.08090.0505R^2=0.814315F=29.2364RMSE=2.66669P=1.64368*e-7最终取以下三个参数得到最佳回归结果:x3(1500m跑后心速)、x1(年龄)以及x5(跑步后心速)。但仍需要进行一般回归分析(regress)确定常数项并观察残差,结果如下:5101520-8-6-4-20246810ResidualCaseOrderPlotResidualsCaseNumber残差图(全部点)可以看到10和15号数据异常,剔除,再次观察残差,结果如下246810121416182022-6-4-202468ResidualCaseOrderPlotResidualsCaseNumber残差图(剔除10,15号点)可以看到4号数据变为异常,再次剔除,结果仍然有异常点。过程从略,最终经过4次剔除,去掉5个点(4,10,15,17,23)以后,得到没有异常点的模型:24681012141618-4-3-2-101234ResidualCaseOrderPlotResidualsCaseNumber去掉所有异常点之后的结果最终得到的结果整体上优越于剔除异常点之前的结果(不再粘贴结果)。但是事实上,由于数据点经过剔除不断的结果,模型最终的形式和实际统计到的24组数据的整体情况偏离越来越大,也就是说:剔除异常点虽然能够一应程度上降低其对于整体情况的干扰作用,而剔除的过程也放大了其他原本正常数据点的异常性,所以异常点可能会不断产生,但是剔除的数量增加即采样数据的减少也会削
本文标题:数学实验-12:回归分析
链接地址:https://www.777doc.com/doc-6196359 .html