您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第2章-数据分析(梅长林)习题题答案
第2章习题一、习题2.4(1)回归模型15,2,1,22110ixxyiiii调用procreg过程,得到参数估计的相关结果:ParameterEstimatesVariableDFParameterEstimateStandardErrortValuePr|t|Intercept13.452612.430651.420.1809x110.496000.0060581.92.0001x210.009200.000968119.50.0001由此输出得到的回归方程为:2100920.049600.045261.3XXy由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。46521.30可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加0.0092个单位。同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加0.49600个单位。pnSSE2是2的无偏估计,所以2的估计值是4.7403.(2)调用procreg过程,得到方差分析表:AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFModel353845179483480.75.0001Error1156.720835.15644CorrectedTotal1453902由此可到线性回归关系显著性检验:0至少有一个为0:2,1:1210HH的统计量/(1)/()SSRpMSRFSSEnpMSE的观测值47.56790F,检验的p值0001.0)(000FFppH另外9989.053902538452SSTSSRR,2R描述了由自由变量的线性关系函数值所能反映的Y的总变化量的比例。2R越大,表明线性关系越明显。这些结果均表明Y与X1,X2之间的回归关系高度显著。(3)若置信水平05.0,由17881.2)12(975.0t,利用参数估计值得到21,0,的置信区间分别为:对,02942.54516.343065.21781.245216.3,即)7458.8,8426.1()对1:01318.049600.000605.01781.249600.0,即)50198.0,48282.0(2:0021.000920.00009681.01781.200920.0,即)00113.0,0071.0((4)首先检验X1对Y是否有显著性影:假设其约简模型为:15,2,1,220ixyiii由观测数据并利用procreg过程拟合此模型求得:88137.484)(RSSE13215Rf88357.56)(FSSE12315Rf由[()()]()()/RFFSSERSSEFffFSSEFf求得检验统计量的值为:3.9012/88357.5688357.5688137.4840F05.0))13,1(()(0000FFPFFppH由此拒绝原假设,所以x2对Y有显著影响。同理检验X2对Y是否有显著性影:假设其约简模型为:15,2,1,110ixyiii由观测数据并利用procreg过程拟合此模型求得:31872)(RSSE13215Rf88357.56)(FSSE12315Rf由[()()]()()/RFFSSERSSEFffFSSEFf求得检验统计量的值为:12/88357.5688357.56318720F05.0))13,1(()(0000FFPFFppH由此拒绝原假设,所以x2对Y有显著影响。检验X1、x2交叉项对Y是否有显著性影:假设其全模型为:15,2,1,21322110ixxxxyiiiiii检验X1、X2的交互作用是否显著即检验假设0:30H是否能被拒绝。由观测数据并利用procreg过程拟合此模型求得:72.56)(FSSE11415Ff88357.56)(RSSE12315Rf由[()()]()()/RFFSSERSSEFffFSSEFf求得检验统计量的值为:0317.011/72.5672.5688357.560F05.0138.0)0317.0)11,1(()(000FPFFppH由此接受原假设,也即X1*X2对Y无显著影响,即模型中没有必要引进交叉项。(5)关于Y的预测:对于给定的X1,X2的值(220,2500),由回归方程可以得到0y的预测值:573.135250000920.022049600.045261.30y为了得到0y的95%的置信区间,我们需要知道1)(XXT:X'XInverse,ParameterEstimates,andSSEVariableInterceptx1x2yIntercept1.24634841640.0002129664-0.0004156713.4526127899x10.00021296647.732903E-6-7.030252E-70.4960049761x2-0.000415671-7.030252E-71.9771851E-70.0091990809y3.45261278990.49600497610.009199080956.883565559由0(1,220,2500)Tx,4.74030MSE,求得y的置信度为95%的置信区间为:10.97500(12)[1()]135.57262.17882.2818135.57264.9716TTytMSExXXx即(130.6010,140.5442)(6)利用procreg过程可根据要求输出学生化残差:Obsypredictresidstudenth1162161.8960.104280.051940.149742120122.667-2.66732-1.319810.138373223224.429-1.42938-0.727730.186134131131.241-0.24062-0.114830.0737456767.699-0.69928-0.357820.194326169169.685-0.68486-0.346740.1770178179.7321.268060.666410.236178192189.6722.328001.228330.242249116119.832-3.83202-1.924820.16388105553.2911.709480.917330.2674011252253.715-1.71506-0.929660.2820312232228.6913.309211.891000.3539613144144.979-0.97934-0.469600.0825014103100.5332.466931.242990.1690615212210.9381.061940.576190.28343利用学生化残差,检验模型误差项的正态性假定的合理性:○1频率检验法:学生化残差中有10/15=0.6667(约0.68)落在(-1,1)内;有13/15=0.8667(约0.87)落在(-1.5,1.5)内;有15/15=1(约0.95)落在(-2,2)内。由此可见,学生化残差在上述各区间内的频率与N(0,1)分布的相应概率相差均不大,因此模型误差项的正态性假定是合理的。②正态QQ图利用proccapability直接作出学生化残差的正态QQ图,如下所示:从图像可以看出,散点明显分布在一条直线上,则进一步说明学生化残差来自正态总体分布。通过sas计算得到),(iiqrNormalLine:Mu=0,Sigma=1StudentizedResidual-2-1012正态分位数-2.0-1.5-1.0-0.50.00.51.01.52.0ObsRQ1-1.92482-1.946902-1.31981-1.498433-0.92966-1.235904-0.72773-1.038655-0.46960-0.875246-0.35782-0.732417-0.34674-0.603188-0.11483-0.4833290.05194-0.37006100.57619-0.26136110.66641-0.15568120.91733-0.05171131.228330.05171141.242990.15568151.891000.26136再利用proccorr得到学生化残差与相应标准正态分布的分位数的pearson相关系数矩阵。可以看出学生化残差与相应标准正态分布的分位数的相关系数为0.977100.0001,所以学生化残差与相应标准正态分布的分位数显著相关。Pearson相关系数,N=15当H0:Rho=0时,Prob|r|RQR1.000000.97701.0001Q0.97701.00011.00000为了进一步验证模型假设的合理性,利用procgplot的做出的几个残差图:由这些残差图可知,它们均没有明显的趋势,结合以上分析的结果我们认为相应的线性回归模型以及误差的独立正态分布的假设是合理的。二、习题2.6回归模型15,2,1,22110ixxyiiii调用procreg过程,得到参数估计的相关结果:Residual-4-3-2-101234PredictedValueofy0100200300Residual-4-3-2-101234x10100200300400500Residual-4-3-2-101234x22000300040005000ParameterEstimatesVariableDFParameterEstimateStandardErrortValuePr|t|Intercept1-57.987668.63823-6.71.0001x114.708160.2642617.82.0001x210.339250.130152.610.0145调用procreg过程,得到方差分析表:AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFModel27684.162513842.08126254.97.0001Error28421.9213615.06862CorrectedTotal308106.08387根据上述回归模型,画出学生化残差正态QQ图以及Y的拟合值的残差图如下所示:从图中可以看出,学生化残差图明显不在同一条直线上,求得学生化残差与相应标准正态分布的分位数的相关系数为0.940910.0001,与1StudentizedResidual-2-10123正态分位数-3-2-10123Residual-7-6-5-4-3-2-10123456789PredictedValueofy010203040506070相差较大。另外拟合值的图像也表明Y与X1和X2不能满足线性关系。(2)对因变量Y做Box-Cox变换,对不同的值,利用sas系统中的prociml过程计算),(ZSSE的值,给出),(ZSSE随变化的曲线:由图可知),(ZSSE在31.0时取得最小值,因此Box-Cox变换中取0.31,记变换后的因变量为YY,对拟合后的变量重新做线性回归,得到以下结果:SSE100200300400500LAMBDA-0.5-0.4-0.3-0.2-0.10.00.10.20.30.40.50.60.70.80.91.0Residual-0.6-0.4-0.20.00.20.4正态分位数-3-2-10123Residual-0.5-0.4-0.
本文标题:第2章-数据分析(梅长林)习题题答案
链接地址:https://www.777doc.com/doc-4526799 .html