您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 3.1-回归分析的基本思想及其初步应用-课件(复习)
3.1回归分析的基本思想及其初步应用(习题课)一、线性回归模型1.回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn).设其回归直线方程为y=bx+a,其中a,b是待定参数,由最小二乘法得分别是a,b的估计值.2.线性回归模型(1)线性回归模型其中a,b为未知参数,通常e为随机变量,称为_________.(2)x称为_____变量,y称为_____变量.niii1n2ii1(xx)(y-y)b_________________,a________.(xx)niii1n22ii1xynxyxnxx___________________,y__________________,其中12nxxxn12nyyynybxaeEe____,De____,,02随机误差解释预报a,bybx思考:相同吗?试说明缘由.提示:不相同.yi是样本点(xi,yi)的纵坐标;是样本点的中心的纵坐标;是yi的估计值.iiyyy,,(x,y)yiy二、线性回归分析1.残差对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值称为相应于点(xi,yi)的残差,___________称为残差平方和.iiieyyn2iii1yy2.残差图利用图形来分析残差特性,作图时纵坐标为_____,横坐标可以选为_________,也可用其他测量值,这样作出的图形称为残差图.3.R2越接近于__,表示回归效果越好.残差样本编号n2ii2i1n2ii1yyR1,yy1判断:(正确的打“√”,错误的打“×”)(1)残差平方和越小,线性回归方程的拟合效果越好.()(2)R2就是相关系数.()(3)R2越接近于1,线性回归方程的拟合效果越好.()提示:(1)正确.残差平方和越小,说明样本数据与线性回归方程的偏离程度越小,即该方程的拟合效果越好.(2)错误.两者是截然不同的概念,前者刻画了线性回归方程的拟合效果,后者描述了变量相关性的程度.(3)正确.由R2的计算公式可知这句话正确.答案:(1)√(2)×(3)√【知识点拨】1.对线性回归模型的两点说明(1)线性回归模型较好地解释了利用线性回归方程求出的函数值不一定是真实值的缘由.例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等.(2)线性回归模型中随机误差的主要来源①线性回归模型与真实情况引起的误差;②省略了一些因素的影响产生的误差;③观测与计算产生的误差.2.线性回归分析(1)残差分析是回归分析的一种方法.利用残差图,可以较直观形象地观测到样本数据同线性回归方程间的关系.(2)对R2的理解.①可以用R2来刻画回归的效果.②在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示解释变量和预报变量的线性相关性越强,回归的效果越好.③如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来进行选择,即选取R2较大的模型作为这组数据的模型.3.相关系数与R2(1)R2是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,1].(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.(3)当相关系数|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.1.(2013·南安高二检测)下表是x和y之间的一组数据,则y关于x的线性回归方程必过点()A.(2,2)B.(1.5,0)C.(1,2)D.(1.5,4)x0123y1357类型一求线性回归方程2.(2013·临沂高二检测)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据x3456y2.5344.5(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)ybxa.【解题探究】1.线性回归方程必过哪个点?2.计算线性回归方程中值的依据是什么?探究提示:1.线性回归方程必过样本点的中心2.利用由最小二乘法得到的公式,即其中,分别是a,b的估计值.ybxaa,b(x,y).nniiiii1i1nn222iii1i1xxyyxynxyb,aybx.xxxnxa,ba,b【解析】1.选D.由题意可知,又因为线性回归方程必过样本点的中心故y关于x的线性回归方程必过点(1.5,4).01231357x1.5,y4.44(x,y),2.(1)由题设所给数据,可得散点图如图.(2)由数据,计算得:又已知所以,由最小二乘法确定的回归方程的系数为:42ii134562.5344.5x86,x4.5,y3.5,444iii1xy66.5.因此,所求的线性回归方程为y0.7x0.35.aybx3.50.74.50.35-,4iii14222ii1xy4xy66.544.53.5b0.7,8644.5x4x--(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90(0.7×100+0.35)=19.65(吨标准煤).【拓展提升】求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.(2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出回归直线方程,并利用回归直线方程进行预测说明.【变式训练】假设关于某设备的使用年限x和所支出的维修费用y(万元)有如下的统计数据:由此资料可知y与x线性相关.(1)求回归直线方程.(2)求使用年限为10时,该设备的维修费用为多少.x23456y2.23.85.56.57.0【解析】(1)由上表中的数据可得所以所以552iiii1i1x4,y5,x90,xy112.3,5iii15222ii1xy5xy112.3545b1.23,9054x5xaybx51.2340.08.(2)当x=10时,即使用年限为10时,该设备的维修费用为12.38万元.1.23100.0812.38.y==万元所以回归直线方程为1.23x0.08.y=类型二线性回归分析1.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和如表所示:甲乙丙丁散点图残差平方和115106124103n2iii1yy哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高()A.甲B.乙C.丙D.丁2.某运动员训练次数与成绩之间的数据关系如下:(1)作出散点图.(2)求出回归方程.(3)作出残差图,并说明选用的模型的拟合效果.(4)计算R2,并说明选用的模型的拟合效果.次数x3033353739444650成绩y3034373942464851【解题探究】1.利用残差平方和判断回归方程的拟合效果的理论依据是什么?2.计算R2的公式是什么?探究提示:1.依据是残差平方和越小,说明回归模型的拟合效果越好;反之,拟合效果越差.2.n2ii2i1n2ii1yyR1.yy【解析】1.选D.根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.故选D.n2ii1yy2.(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)所以所以回归方程为882iiii1i1x39.25,y40.875,x12656,xy13180,8iii1822ii1xy8xyb1.0415,aybx0.00388.x8x1.0415x0.00388.y=-(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算得R2≈0.9855,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.【互动探究】在题2题设条件不变的情况下,试预测该运动员训练47次及55次的成绩.【解析】由上述分析可知,我们可用回归方程=1.0415x-0.00388作为该运动员成绩的预报值.将x=47和x=55分别代入该方程可得y≈49和y≈57.故预测该运动员训练47次和55次的成绩分别为49和57.y【拓展提升】刻画回归效果的三种方式(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.(2)残差平方和法:残差平方和越小,模型的拟合效果越好.(3)R2法:越接近1,表明回归的效果越好.n2iii1yyn2ii2i1n2ii1yyR1yy【变式训练】关于x与y有如下数据:有如下的两个线性模型:试比较哪一个拟合效果更好.16.5x17.5.27x17.y=+y=+x24568y3040605070【解析】①由(1)得的关系如下表:所以y50=,iiiyyyy-与-5222222iii1yy0.53.5106.50.5155-=-+-++-+=,5222222ii1yy2010100201000.-=-+-+++=-0.5-3.510-6.50.5-20-1010020iiyyiyy52ii2i1152ii1yy155R110.845,1000yy=-所以②由(2)可得的关系如下表:所以y50,iiiyyyy-与-5222222iii1yy15893180-=-+-++-+-=,-1-58-9-3-20-1010020iiyyiyy5222222ii1yy2010100201000.-=-+-+++=所以由于所以所以(1)的拟合效果好于(2)的拟合效果.52ii2i1252ii1yy180R110.82,1000yy=-2212R0.845,R0.82,0.8450.82.2212RR.类型三非线性回归问题1.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令求得回归直线方程为则该模型的回归方程为__________.z0.25x2.58,zlny,2.在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y与x之间的回归方程.x0.250.5124y1612521【解题探究】1.求解本题中的回归方程需借助什么关系?2.是否所有的变量间均为线性相关关系?如何判断?探究提示:1.需借助指数、对数互化关系求解本题中的回归方程.2.并非所有的变量间均为线性相关关系,可借助散点图直观感知,再借助回归分析判断回归模型的拟合的效果.【解析】1.因为所以y=e0.25x-2.58答案:y=e0.25x-2.58z0.25x2.58,zlny.2.由数值表可作散点图如图.根据散点图可知y与x具有反比例函数关系,设则y=kt,原数据变为:由置换后的数值表作散点图如下:k1ytxx=,令=,t4210.50.25y1612521由散点图可以看出y与t呈近似的线性相关关系.列表如下:itiyitiyi1416641622122443155140.
本文标题:3.1-回归分析的基本思想及其初步应用-课件(复习)
链接地址:https://www.777doc.com/doc-4725280 .html