您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 实验7--相关与回归分析SPSS应用
1实验7相关与回归分析7.1实验目的熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。7.2相关知识(略)7.3实验内容7.3.1一元线性回归分析的SPSS实验7.3.2一元非线性回归分析的SPSS实验7.4实验要求7.4.1准备实验数据1.线性回归分析数据美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(TheWallStreetJournalAlmanac1999)上。航班正点到达的比率和每10万名乘客投诉的次数的数据,见表7-1所示。表7-1美国航空公司航空正点率与乘客投诉次数资料航空公司名称航班正点率(%)投诉率(次/10万名乘客)西南(Southwest)航空公司81.80.21大陆(Continental)航空公司76.60.58西北(Northwest)航空公司76.60.85美国(USAirways)航空公司75.70.68联合(United)航空公司73.80.74美洲(American)航空公司72.20.93德尔塔(Delta)航空公司71.20.72美国西部(Americawest)航空公司70.81.22环球(TWA)航空公司68.51.252.非线性回归分析数据1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产2总值的关系的数据,见表7-2所示。表7-21992~2013年某国保费收入与国内生产总值数据单位:万元7.4.2完成一元线性回归分析的SPSS实验,对实验结果作出简要分析。7.4.3完成一元非线性回归分析的SPSS实验,对实验结果作出简要分析。7.5实验步骤7.5.1完成一元线性回归分析的SPSS实验步骤1.运用SPSS绘制散点图散点图。第一步:在excel中输入数据图7-1第二步:将excel数据导入spss单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班年度保费收入国民生产总值年度保费收入国民生产总值19924.64517.82003239.721662.519937.84860.3200437826651.9199410.35301.8200552534560.5199513.25957.42006630466701996207206.7200768357494.9199733.18989.1200877666850.5199845.810201.42009108073142.7199971.0411954.520101247.376967.22000109.514922.320111393.2280579.42001142.616917.820121595.988228.12002178.518598.420132109.3694346.43正点率与投诉率.xls图7-2第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,选择简单分布按钮图7-3第三步:在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:4图7-4第四步:运行得到:图7-5根据散点图初步判断航班正点率和投诉率呈线性关系52.计算相关系数,明确变量之间存在的相关关系。第一步:选择菜单分析(A)相关(C)→双变量相关(B),在双变量相关对话框中,将候选变量框中的航班正点率和投诉率添加到变量(V)框,点击确定:图7-6第二步:运行得到表7-1相关性航班正点率(%)投诉率(次/10万名乘客)航班正点率(%)Pearson相关性1-.883**显著性(双侧).002N99投诉率(次/10万名乘客)Pearson相关性-.883**1显著性(双侧).002N99**.在.01水平(双侧)上显著相关。根据相关系数判断:航班正点率和投诉率的相关系数为-0.833,显著性水平P为0.002小于0.05,说明航班正点率和投诉率高度负相关。3.拟合回归方程6第一步:选择菜单分析(A)→回归(R)→线性(L),将候选变量框中的投诉率添加到因变量框(D),航班正点率添加到自变量框(T),点击确定:图7-7第二步,运行得到表7-2系数a模型非标准化系数标准系数tSig.(显著性水平)B标准误差试用版1(常量)6.0181.0525.719.001航班正点率(%)-.070.014-.883-4.967.002a.因变量:投诉率(次/10万名乘客)拟合回归方程为Y=-0.07X+6.018,常数项和自变量t值分别为5.719和-4.967,显著性水平P分别为0.001和0.002,均小于0.05,说明常数项和自变量X对因变量Y有显著影响。4.计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果。第一步:操作同3第二步,运行得到7表7-3模型汇总模型RR方调整R方标准估计的误差1.883a.779.747.16082a.预测变量:(常量),航班正点率(%)。估计标准误差2)(2nYYSYX=0.16082比较小,说明回归直线代表性较好。R2为0.747接近1,表明模型的拟合效果比较好。5.在不同置信水平下建立回归估计的置信区间在置信水平1-α取不同值的情况下,回归估计的置信区间为:222216082.0018.67.0,16082.0018.67.0,ZXZXSZYSZYYXYX6.对估计的回归方程的斜率作出解释回归方程的斜率,即回归系数b=-0.07,表示航班正点率每提高1%,旅客投诉率会降低0.07%。7.如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数。根据回归方程Y=-0.7X+6.018,当航班正点率为80%时,每10万名乘客投诉的次数为-0.7×80+6.018=0.418(次)8.如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间。如果航班按时到达的正点率为80%,试在95%可信程度下估计每10万名乘客投诉的置信区间为222216082.0018.67.0,16082.0018.67.0,ZXZXSZYSZYYXYX=[0.1028,0.7332]87.5.2完成一元非线性回归分析的SPSS实验步骤1.画出这些数据的散点图第一步:在excel中输入数据图7-1第二步:将excel数据导入spss单击打开数据文档按钮(或选择菜单文件→打开)→选择文件国民生产总值与保费收入.xls9图7-2第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中,选择简单分布按钮图7-3第四步:在简单散点图对话框中,将候选变量框中的将保费收入添加到Y轴,国民生产总值添加到X轴:10图7-4第五步:运行得到:图7-5根据散点图初步判:国民生产总值与保费收入呈非线性关系。2.计算不同模型的样本拟合优度,并据此选择拟合效果最好的模型。11第一步:选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,依次选择模型复选框中的线性、二次项、对数、指数等模型。图7-6第二步:依次得到运行结果图7-7直线R2=0.94112图7-8二次曲线R2=0.973图7-9复合R2=0.78913图7-10增长R2=0.789图7-11三次曲线R2=0.99014图7-12对数R2=0.772图7-13S曲线R2=0.94615图7-14指数R2=0.789图7-15反向R2=0.01516图7-16幂R2=0.015图7-17LogisticR2=0.82917通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。或者在第一步中,将所有模型的复选框全部选定,得到运行结果:模型汇总和参数估计值因变量:保费收入方程模型汇总参数估计值R方Fdf1df2Sig.常数b1b2b3线性.941316.551120.000-154.292.019对数.77267.889120.000-4576.241508.979倒数.48118.572120.000966.105-6138735.913二次.973336.771219.00023.846.0031.756E-7三次.990617.659318.000-166.430.029-5.364E-75.022E-12复合.78974.788120.00023.3151.000幂.972700.929120.0002.521E-61.796S.946347.778120.0007.069-27064.140增长.78974.788120.0003.1495.450E-5指数.78974.788120.00023.3155.450E-5Logistic.78974.788120.000.0431.000自变量为国民生产总值(亿元)。18同样,通过对比上述模型,与观测点变化趋势拟合最好的是三次曲线模型,三次曲线的拟合优度最大(R2=0.990),也说明它是拟合效果最好的模型。3.求解保费收入依国民生产总值的估计回归方程。第一步:选择菜单分析→回归→曲线估计,在曲线估计对话框中,将候选变量框中的保费收入添加到因变量,将国民生产总值添加到自变量,选择模型复选框中的立方模型19图7-18第二步:单击曲线估计对话框中的保存按钮,在曲线估计:保存对话框中,选择预测值、残差、预测区间复选框图7-19第三步,运行结果表7-4模型汇总RR方调整R方估计值的标准误.995.990.98964.883自变量为国民生产总值。R2为0.990非常接近1,表明模型的拟合效果非常好。表7-5系数未标准化系数标准化系数tSig.B标准误Beta国民生产总值.029.0051.5065.836.000国民生产总值**2-5.364E-7.000-2.554-4.277.000国民生产总值**35.022E-12.0002.093..(常数)-166.43045.399-3.666.002从表中可知因变量与自变量的三次回归模型为:y=-166.430+0.029x-5.364E-7x2+5.022E-12x37.6思考与练习题7.6.1一元线性回归分析合金钢的强度Y与碳含量X关系密切,通常根据强度要求来控制碳的含量来达到目的,二者之间关系如下:20碳含量0.030.040.050.070.090.100.120.150.170.20钢强度40.5039.5041.0041.5043.0042.0045.0047.5053.0056.00(1)画出这些数据的散点图;(2)根据散点图和相关系数,表明二变量之间存在什么关系?(3)求出描述钢强度是如何依赖碳含量的估计的回归方程;(4)计算回归标准误差,说明回归直线的代表性;计算样本拟合优度,说明模型拟合的效果;(5)对估计的回归方程的斜率作出解释;(6)如果碳含量控制在0.18,试估计钢的强度;(7)如果碳含量控制在0.18,试在95%可信程度下估计钢强度的置信区间。7.6.2一元非线性回归分析处在青春期发育阶段的学生,其年龄与远视率的变化关系入下表:年龄6789101112131415161718远视率63.6461.0638.8413.7514.508.074.412.272.091.022.513.122.98实验要求:(1)画出这些数据的散点图;(2)计算不同模型的样本拟合优度,根据样本拟合优度选择拟合效果最好的模型;(3)求出描述保费收入是如何依赖国民生产总值的估计的回归方程。
本文标题:实验7--相关与回归分析SPSS应用
链接地址:https://www.777doc.com/doc-5740620 .html