您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 31回归分析的基本思想及其初步应用(一)
2020/1/31郑平正制作3.1回归分析的基本思想及其初步应用(一)高二数学选修2-3城阳一中毛世勤(一)回顾:数学3——线性回归分析的步骤:温故知新1、画散点图4、用回归直线方程进行预报3、求回归直线方程ˆˆˆybxa2、求ˆˆ,bann(x-x)(y-y)xy-nxyiiiii=1i=1ˆb==,nn222(x-x)x-nxiii=1i=1ˆˆa=y-bx.nn11x=x,y=y.iinni=1i=1其中(二)最小二乘估计公式:ˆˆˆybxa(,)xy称为样本点的中心。(三)描述两个变量之间线性相关关系的强弱的相关系数[0.751],[1,0.75],[025,0.25],rrr当,表明两个变量正相关很强;当表明两个变量负相关很强;当.表明两个变量相关性较弱。122122211121()()(())())(niiinniiiiniiinniiiixynxxyxyxnxynyyxxyyr课前检测:假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料。使用年限x23456维修费用y2.23.85.56.57.0若由资料知,y对x呈线性相关关系。试求:(1)线性回归方程的回归系数;(2)估计使用年限为10年时,维修费用是多少?ˆˆˆybxaˆˆab、ˆˆ1.23,0.08.baˆ1.230.08.yx使用年限为10年时,维修费用是:12.38万元2008年5月,中共中央国务院关于加强青少年体育、增强青少年体质的意见指出城市超重和肥胖青少年的比例明显增加.“身高标准体重”该指标对于学生形成正确的身体形态观具有非常直观的教育作用.“身高标准体重”从何而来?我们怎样去研究?创设情境:例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。问题呈现:女大学生的身高与体重ˆ0.84985.712yx解;1.由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.ˆ学身高172cm女大生体重y=0.849×172-85.712=60.316(kg)3.回归方程:2.散点图;4.本例中,r=0.7980.75.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的。81iiixy821iixxy72315218774165.2554.5探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于60.316kg。例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359女大学生的身高与体重ˆ0.84985.712yx解;1.由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.ˆ学身高172cm女大生体重y=0.849×172-85.712=60.316(kg)3.回归方程:2.散点图;4.本例中,r=0.7980.75.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的。81iiixy821iixxy72315218774165.2554.5ˆ0.84985.712yx例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359女大学生的身高与体重ˆˆˆybxaybxa我们可以用下面的线性回归模型来表示:y=bx+a+e,(3)其中a和b为模型的未知参数,e称为随机误差。y=bx+a+e,E(e)=0,D(e)=(4)2.在线性回归模型(4)中,随机误差e的方差越小,通过回归直线(5)预报真实值y的精度越高。2ybxa例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359女大学生的身高与体重ˆˆˆybxaybxa我们可以用下面的线性回归模型来表示:y=bx+a+e,(3)其中a和b为模型的未知参数,e称为随机误差。y=bx+a+e,E(e)=0,D(e)=(4)2.在线性回归模型(4)中,随机误差e的方差越小,通过回归直线(5)预报真实值y的精度越高。2ybxa随机误差是引起预报值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差。ˆy另一方面,由于公式(1)和(2)中和为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间误差的另一个原因。ˆyˆaˆb假设1:身高和随机误差的不同不会对体重产生任何影响,54.554.554.554.554.554.554.554.5体重/kg170155165175170157165165身高/cm87654321编号54.5kg怎样研究随即误差?5943616454505748体重/kg170155165175170157165165身高/cm87654321编号例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为61kg。解释变量(身高)和随机误差共同把这名学生的体重从54.5kg“推”到了61kg,相差6.5kg,所以6.5kg是解释变量和随机误差的组合效应。用这种方法可以对所有预报变量计算组合效应。数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用21()niiyy表示总的效应,称为总偏差平方和。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号假设2:随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。怎样研究随即误差?因此,数据点和它在回归直线上相应位置的差异是随机误差的效应,称为残差。)iiyy(iiieyy=例如,编号为6的女大学生,计算随机误差的效应(残差)为:61(0.84916585.712)6.627对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号21()niiiyy称为残差平方和,它代表了随机误差的效应。表示为:我们可以用相关指数R2来刻画回归的效果,其计算公式是22121()11()niiiniiyyRyy残差平方和。总偏差平方和如何衡量预报的精度?显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。学以致用:1、在对两个变量X,Y进行线性回归分析时有下列步骤:①对所求出的回归方程作出解释,②收集数据(,)③求线性回归方程,④求相关系数,⑤根据所搜集的数据绘制散点图.如果根据可靠性要求能够作出变量X,Y具有线性相关结论,则在下列操作顺序中正确的是()A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③①ixiy学以致用:2、对于相关指数,下列说法正确的是()2R2R2RA、的取植越小,模型拟合效果越好B、的取值可以是任意大,且取值越大拟合效果越好C、的取值越接近1,模型拟合效果越好D、以上答案都不对2R2R2R学以致用:3、甲、乙、丙,丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的实验结果体现A,B两变量有更强的线性相关性A.甲B.乙C.丙D.丁学以致用:4、已知两个变量x和y之间有线性相关性,4次实验得到样本如下:6.13.920y3210x(1)则y对x的线性回归方程是___________(2)相应于各样本点的残差(i=1,2,3,4)分别是__,___,___,___.残差平方和是___________ie课堂总结:1、线性回归分析的步骤2、回归模型的建立3、随机误差的研究知识小节:数学思想小结:1、最小二乘法思想2、函数与方程的思想3、数形结合
本文标题:31回归分析的基本思想及其初步应用(一)
链接地址:https://www.777doc.com/doc-3340571 .html