您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 回归分析的基本思想及其初步应用第2课时
§1.1回归分析的基本思想及其初步(二)【学情分析】:教学对象是高二文科学生,学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题。在教学中,要结合实例让学生了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。初步了解可以通过求回归模型的相关指数或利用残差分析不同的回归模型的拟合精确度。在起点低的班级中注重让学生参与实践,鼓励学生通过收集数据,经历数据处理的过程,从而进一步体会回归分析中的数理计算,初步形成运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。让学生直观的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系。【教学目标】:(1)知识与技能:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和;了解偏差平方和分解的思想;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性模型通过变换转化为线性回归模型。(2)过程与方法:本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,进而学习相关指数,用相关指数来刻画回归的效果。(3)情感态度与价值观:从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。【教学重点】:1、了解判断刻画模型拟合效果的方法——相关指数和残差分析;2、通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。【教学难点】:1、解释残差变量的含义;2、了解偏差平方和分解的思想。【课前准备】:课件【教学过程设计】:教学环节教学活动设计意图一、创设情境1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响。2.问题一:为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。引入回归分析的效果评价的三个统计量二、探究新知⑴总偏差平方和:每个效应(观测值减去总的平均值)的平方加起来,即用niiyy12表示总的效应;学生动手计算出例1中的总偏差平方和。niiyy12354⑵残差平方和:数据点和它在回归直线上相应的位置的差异iiyyˆ是结合实例由结果分析残差图是否异常,养成从实际问题出发,抽象为数学问题中的线性回归问题,从而指导实际问题的解决。随机误差的效应,称iiiyyeˆˆ为残差,niiiyy12ˆ为残差平方和;学生动手计算出例1中的残差(如下表)与残差平方和。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359yi54.37354.37347.58158.61862.86354.37345.88358.618ei-6.3732.6272.419-4.6181.1376.627-2.8830.382361.128ˆ12niiiyy⑶回归平方和:解释变量和随机误差的总效应(总偏差平方和),即总的偏差平方和=回归平方和+残差平方和,所以回归平方和=总的偏差平方和-残差平方和学生动手计算出例1中的回归平方和。639.225361.128354学习要领:①注意iy、iyˆ、y的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数niiniiiyyyyR12122ˆ1来刻画回归的效果,它表示解释变量对预报变量变化的贡献率.2R的值越接近于1,说明残差平方和越小,也就是说模型拟合的效果越好,即解释变量和预报变量的线相关性越强.代入例1中的数据知例1中的64.0ˆ112122niiniiiyyyyR,即解释变量对总效应约贡献了64%,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多。问题二:观察图1.1-5中的残差图,样本点是如何分布?有无异常情况(个别数据对应残差过大,或残差呈现不随机的规律性等等)?师:提出问题,指导学生画出残差图(以残差为纵坐标,样本编号或身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检查数据是否有误,或模型是否合适等。引导学生利用残差也可以分析所求出的模型的拟合效果残差图-8-6-4-2024680123456789编号残差ei生:分析、讨论。从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现采集的错误,指导学生去掉这两个数据后重新再计算回归方程与相关指数2R,了解到拟合的效果会更好。引导学生归纳残差所能说明的情况:①样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;②残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高。通过学生动手计算感受相关指数2R与残差分析说明回归方程的预报情况。三、例题选讲例2:一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程。编号1234567温度x/°C21232527293235产卵数y/个711212466115325问题三:例2中如何选择解释变量与预报变量?师:读例2的要求,引导学生理解例题含义。生:思考、讨论、叙述自己的理解。形成把温度x作自变量,红铃虫的产卵数y作因变量的共识问题四:观察图1.1-6中的散点图,红铃虫的产卵数y与温度x具有线性关系吗?除线性关系外,还学过哪些常见的函数关系?师:绘制散点图1.1-6,引导学生观察散点图的特点:随着自变量的增加,因变量也随之增加。引导学生探究红铃虫的产卵数y与温度x更可能是什么关系,选择几个模型,比如线性回归模型、二次函数模型、指数函数模型。而二次与指数函数模型是属于非线性回归模型。产卵数与温度的关系050100150200250300350202224262830323436温度产卵数y/个引导学生分析哪个变量作自变量,哪个变量作因变量引导学生根据散点图判断两个变量的关系,使学生了解不是任何两个变量都一定是线性关系。生:讨论、回忆一些常见函数图象的特点,判断红铃虫的产卵数y与温度x的可能关系从散点图中可以看到样本点分布在指数函数曲线xcecy21的周围。问题五:请学生思考能否把模型xcecy21经过变换后转化为另外两个变量的线性关系?师:提出问题,引导学生寻找变换的方法,在学生讨论后给出具体的方法。生:思考、讨论、解释。解答过程如下:对xcecy21两边取自然对数xeccexccececyxcxclnlnlnlnlnlnlnln21211122令yzln,建立z与x之间的线性回归方程xccz21ln问题六:经过变换后指数函数模型xcecy21转化为线性回归模型xccz21ln,你如何得到这个线性回归模型的参数估计?师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器)解答过程如下:令1lnca,2cb,即bxaz分析x与z之间的关系,通过画散点图(如下图),可知x与z之间是存在着线性回归关系,可以用最小二乘法求出线性回归方程bxaz使学生进一步体会把因变量与自变量的非线性关系经过变换后转化为另外两个变量的线性关系的方法。使学生熟悉线性回归模型的参数估计的方法列表计算出各个量编号1234567合计温度x/°C21232527293235192产卵数y/个711212466115325569z=lny1.9462.3983.0453.1784.1904.7455.78425.285xi2441529625729841102412255414xizi40.955.276.185.8121.5151.8202.4733.7x27.429z3.612niix125414niyiyx1733.71272.043.277541461.343.2777.733ˆ22121xnxzxnzxbniiniii843.3ˆˆxbza843.3272.0ˆxz问题七:我们的目标是建立红铃虫的产卵数y与温度x的模型,如何使得到的线性回归模型再变回红铃虫的产卵数y与温度x的模型?师:提出问题。生:进行变换,每组得到红铃虫的产卵数y与温度x的模型。因为yzln,所以843.3272.0ˆlnxy,即843.3272.0ˆxey。得出红铃虫的产卵数y与温度x的模型四、练习1.试对下列非线性模型进行适当的变形,使之线性化⑴axey;⑵bxay解:⑴对axey两边取自然对数,即eaxyeyaxlnlnlnln令yzln,则有axz巩固知识⑵令xt1,则有baty五、小结1.分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价模型拟合效果的好坏;2.注意回归方程适用的范围、时间。3.归纳非线性回归模型的求解步骤:⑴画出两个变量的散点图;⑵判断是否线性相关;⑶非线性相关模型要进行变换,转为线性回归模型;⑷求出回归模型的方程(利用最小二乘法)。练习与测试1.下面4个散点图中,不适合用线性回归模型拟合其中两个变量的是(A)A.B.C.D.2.将非线性模型xey32进行适当变形使之线性化。答案:2ln32lnln3lnxzexy3.已知回归方程35.0log21.1ˆ2xy,则样本点P(4,2.71)的残差为________________。答案:56.015.271.235.04log2.171.2ˆˆ2yye4.已知线性相关的两变量x,y的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则点C的残差是________。答案:xyAB3ˆ,12ˆCy,1ˆCe。5.若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足yi=bxi+a+ei(i=1、2.…n)若ei恒为0,则R2为答案:16.已知线性相关的两变量x,y的三个样本点A(0,0),B(1,3),C(4,11),若用直线AB作为其预测模型,则其相关指数2R________。答案:xyAB3ˆ,7y,0ˆ1y,3ˆ2y,12ˆ3y7ˆ1yy,4ˆ2yy,5ˆ3yy0ˆ1e,0ˆ2e,1ˆ3e989.090112R7.现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。其中体重和身高分别以磅和英寸为单位,已知1英寸≈2.5cm,1磅≈0.45kg,则该回归方程应该是______________。答案:体重预测值=0.72(kg/cm)×身高-58.5(kg)
本文标题:回归分析的基本思想及其初步应用第2课时
链接地址:https://www.777doc.com/doc-5875030 .html