您好,欢迎访问三七文档
当前位置:首页 > 中学教育 > 高中教育 > 高中数学人教版选修12同课异构教学课件11回归分析的基本思想及其初步应用情境互动课型
第一章统计案例1.1回归分析的基本思想及其初步应用为农村居民建立健康档案管理系统标准体重表的制作假设某地区从2003年到2012年的人均GDP(单位/美元)数据如图:能否根据提供的数据,建立一个合适的模型,预报2014年(或2015年)的人均GDP是多少?年份人均GDP200312002004151020051870200622102007257020083000200936702010450020115430201261001.了解回归分析的基本思想.2.会对两个变量进行回归分析.(重点)3.明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.4.了解最小二乘法的推导,解释残差变量的含义.5.了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.6.掌握利用计算器求线性回归直线方程参数及相关系数的方法.(难点)探究点1回归分析的基本思想我们知道,函数关系是一种确定性关系,而相关关系是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.在之前的学习中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为画散点图,求回归直线方程,并用回归直线方程进行预报.例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示.5943616454505748kg/170155165175170157165165cm/87654321体重身高编号求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.:由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.作散点图(图1解.1-1):11.1图从图1.1-1中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y=bx+a来近似刻画它们之间的关系.ˆˆ未知参数b和a的最小二乘估计分别为b和a,其计算公式如下:身高/cm体重/kg·ˆˆa=y-bx,,ˆ121niiniiixxyyxxb的nniii=1i=111其中x=x,y=y.x,y称为样本点中心.nnˆˆˆx线性在本例中,根据上面的公式,可以得到b=0.849,a=-85.712.于是得到回归方程y=0.849-85.712.为身高172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解释一下思考:原因吗?ˆb=0.849是回归直线的斜率的估计值,说明身高x每增加1个单位,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.ˆ所以,对身高为172cm的女大学生,由回归方程可以预报其体重为y=0.849172-85.712=60.316(kg).在显然身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重60.316kg左右.图1.1-2中的样本点和回归直线的相互位置说明了这一点.·从散点图中还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系.这时我们把身高和体重的关系用下面的线性回归模型y=bx+a+e(1)来表示,其中a和b为模型的未知参数,e称为随机误差.产生随机误差项e的原思考:因是什么?实际上,一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如,饮食习惯、是否喜欢运动、度量误差等.另外,我们选用的线性模型往往只是一种近似的模型.所有这些因素都会导致随机误差项e的产生.线性回归模型(1)与我们熟悉的一次函数模型的不同之处是增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化.在统计中,我们也把自变量x称为解释变量,因变量y称为预报变量.:呢在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究思随机误差考?随机对于样本点的估计量是所以由于随机误差)中的估计(的中回归方程在实际应用中,我们用.ˆˆ),(.1ˆˆˆˆeyyeabxyeabxyaxby1122nn(x,y),(x,y),,(x,y)而言,它们的随机误差为iiieybxa,i1,2,n,,其估计值为iiiiiiiiˆˆˆˆeyyybxa,i1,2,n,ˆex,y.,称为相应于点()的残差思考:如何发现数据中的错误?如何衡量模型的拟合效果?可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果.下表列出了女大学生身高和体重的原始数据以及相应的残差数据.382.0883.2627.6137.1618.4419.2627.2373.6eˆ5943616454505748kg/170155165175170157165165cm/87654321残差体重身高编号.,,,,..我们可以利用图形来分析残差特性作图时纵坐标为残差横坐标可以选为样本编号或身高数据或体重估计值等这样作出的图形为残差图下图是以样本编号为横坐标的残差图编号残差41.1图从图1.1-4中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高..ˆ1:,,121222niiniiiyyyyRR其计算公式是来刻画回归的效果我们还可以用相关指数另外.,1.,.,,,222表示回归的效果越好于接近越量变化的贡献率示解释变量对于预报变表在线性回归模型中好是说模型的拟合效果越也就意味着残差平方和越小取值越大显然RRR2221,R0.64,64%,64%.RR.在例中表明女大学生的身高解释了的体重变化或者说女大学生的体重差异有是由身高引起的是常用的选择模型的指标之一,在实际应用中应该尽量选择大的回归模型用身高预报体重时需要注意下列问题,:1.回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.2..,2080,.我们所建立的回归方程一般都有时间性例如不能用世纪年代的身高、体重数据所建立的回归方程描述现在的身高和体重之间的关系3..,,(,x155cm175cm,x70cmy,.)样本取值的范围会影响回归方程的适用范围例如我们的回归方程是由女大学生身高和体重的数据建立的那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当.在回归方程中解释变量的样本的取值范围为~而用这个方程计算时的值显然不合适.,..4值的平均值它是预报变量的可能取事实上精确值的的预报值就是预报变量不能期望回归方程得到一般地,建立回归模型的基本步骤为:.(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(4)按一定规则(如最小二乘法)估计回归方程中的参数.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.(5)经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(3)由在研究身高和体重的关系时,求得相关指数_______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多.2R64.0【即时训练】探究点2回归分析的初步应用测关于例2一只红铃虫的产卵数y和温度x有关.现收集了7组观数据列于表1-3中,试建立yx的回归方程.31表根据收集的数据作散点图(1.解:1-5).0x/C21232527293235y/711212466115325温度产卵数个1.15,,,.在图中样本点并没有分布在某个带状区域内因此两个变量不呈线性相关关系不能直接利用线性回归方程来建立两个变量之间的关系05010015020025030035020222426283032343651.1图温度/℃产卵数/个2cx112,yce,cc.根据已有的函数知识可以发现样本点分布在某一条指数函数曲线的周围其中和是待定参数1212,cc.,zlny,zbxa(alnc,bc).,yx.①现在问题变为如何估计待定参数和我们可以通过对数变换把指数关系变为线性关系令则变换后样本点应该分布在直线的周围这样就可以利用线性回归模型来建立关于的非线性回归方程了①当回归方程不是形如y=bx+a(a,b∈R)时,称之为非线性回归方程.图的样本数据表的数据可以得到变换后由表,4131.,,61.1.4161.1用线性回归方程来拟合因此可以一条直线的附近变换后的样本点分布在看出中可以从图中数据的散点图给出了表784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表01234567202224262830323436产卵数的对数温度1.16图xz14ˆz0.272x3.849.由表中的数据得到线性回归方程为温度的非线性回归方程因此红铃虫的产卵数对10.272x3.849ˆye.2234342,-5ycxc,cc.,tx,yt,yx.另一方面可以认为图1.1中样本点集中在某二次曲线的附近其中和为待定参数因此可以对温度变量做变换即令然后建立与之间的线性回归方程从而得到与之间的非线性回归方程.71.1,51是相应的散点图图应的温度的平方是红铃虫的产卵数和对表325115662421117y12251024841729625529441t5表10501001502002503003504005006007008009001000110012001300温度的平方数卵产1.17图ty2341.17,yt,,ycxcyx..从图中可以看出与的散点图并不分布在一条直线的周围因此不宜用线性回归方程来拟合它即不宜用二次函数来拟合与之间的关系这个结论还可以通过残差分析得到,.yx,yx.15yt为比较两个不同模型的残差需要建立两个相应的回归方程前面已经建立了关于的指数回归方程(2)下面建立关于的二次回归方程用线性回归模型拟合表中的数据,得到关于的线性回归方程222ˆy0.367t202.543,yxˆy0.367x202.543.3即关于的二次回归方程为i23.x131i1,23可以通过残差来比较两个回归方程和的拟合效果用表示表中第行第列的数据则回归方程和的残差计算公式分别为i110.272x3.849iiiiˆˆeyyye,i1,2,,7;222iiiiiˆˆeyyy0.367x202.543,i1,2,,7.12x21232527293235y711212466115325ˆe0.5570.1011.8758.9509.23013.38134.675ˆe47.69619.4005.83241.00040.10458.26577.96861表222,.,.R.R.1623R0.980.8023.在一般情况下比较两个模型的残差比较困难原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小而另一些样本点的情况则相反这时可以用来比较两个模型的拟合效果越大,模型的拟合效果越好由表容易算出模型和的分别约为和,因此模型的拟合效果好于模型.32,32.61的拟合效果好果比模型的拟合效因此模型的残差的绝对值小显然比模型的残差的绝对值模型从表中的
本文标题:高中数学人教版选修12同课异构教学课件11回归分析的基本思想及其初步应用情境互动课型
链接地址:https://www.777doc.com/doc-5887611 .html