您好,欢迎访问三七文档
第一章统计案例1.1回归分析的基本思想及其初步应用[学习目标]1.了解随机误差、残差、残差分析的概念(重点).2.会求线性回归方程.3.会用残差分析判断线性回归模型的拟合效果.4.通过对典型案例的探究,了解回归分析的基本思想方法和初步应用(重点、难点).1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归方程,并用回归方程进行预报.2.线性回归模型(2)线性回归模型y=bx+a+e,其中e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.温馨提示b^是回归直线的斜率的估计值,表示x每增加一个单位,y的平均增加单位数.3.刻画回归效果的方式1.思考判断(正确的打“√”,错误的打“×”)(1)求线性回归方程前可以不进行相关性检验.()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()(3)利用线性回归方程求出的值是准确值.()答案:(1)×(2)√(3)×2.散点图在回归分析过程中的作用是()A.B.C.D.解析:散点图可以直观判断两变量是否相关.答案:D3.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是()A.0.01B.0.02C.0.03D.0.04解析:(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.答案:C4.已知样本点(x1,y1),(x2,y2),…,(x5,y5),若=10,=5,且回归直线为y^=2x+a^则a^=________.解析:所以x-=2,y-=1,即样本点的中心为(2,1)因此1=2×2+a^,则a^=-3.答案:-35.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的序号是________.答案:①②③类型1概念的理解和判断(自主研析)[典例❶]设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x-,y-)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg解析:由回归方程为y^=0.85x-85.71知y随x的增大而增大,所以y与x具有正的线性相关关系;由最小二乘法建立回归方程的过程知y^=b^x+a^=b^x+y--b^x-(a^=y--b^x-),所以回归直线过样本点的中心(x-,y-);利用回归方程可以估计总体,所以D不正确.答案:D归纳升华1.求线性回归方程的三个步骤.(1)算:根据数据计算,(2)代:代入公式求b^,a^的具体数值.(3)求:由上面的计算结果求方程y^=b^x+a^.2.求线性回归方程的关键点.相关性的验证:求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的.提醒:回归直线一定过样本点的中心(x-,y-),这在很多问题的求解中起着很重要的作用.[变式训练]对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是()A.由样本数据得到的回归方程y^=b^x+a^必过样本点的中心(x-,y-)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数r=-0.9362,则变量y与x之间具有线性相关关系解析:R2的值越大,说明残差平方和越小,也就是模型的拟合效果越好,因此C是不正确的.答案:C类型2线性回归分析(互动探究)[典例2]为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图,并求线性回归方程;(2)求出R2;(3)进行残差分析.解:(1)散点图如图所示.x-=16×(5+10+15+20+25+30)=17.5,y-=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,所以R2≈1-0.0131814.6784≈0.9991,所以回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系.[迁移探究1](改变问法)在条件不变的情况下,画出残差图.解:由例题第(2)问,作出残差图如图所示由残差图知,残差是比较均匀地落在不超过0.15的狭窄的水平带状区域中.[迁移探究2](变换条件,改变结论)关于x与y有如下数据:x24568y3040605070为了对x、y两个变量进行统计分析,现有以下两种线性模型:甲模型y^=6.5x+17.5,乙模型y^=7x+17,试比较哪一个模型拟合的效果好.解:∵0.8450.82,∴甲选用的模型拟合效果好.归纳升华1.本题求解注意:(1)要根据散点图粗略判断是否线性相关,是否可以用线性回归模型来拟合数据.(2)正确计算b^,a^,R2,这是求解本题的关键.2.拟合效果分析:(1)R2是用来刻画回归效果的,由R2=1-可知,R2越大,残差平方和越小,回归模型的拟合效果越好.(2)残差图(表)也可刻画拟合效果,残差图均匀水平带状区域分布,带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.[典例3]在一次抽样调查中测得样本的5个样本点,数值如表:x0.250.5124y1612521类型3非线性回归分析(1)作出散点图;(2)根据散点图分布情况确定回归模型函数;(3)根据(2)试求出y与x之间的回归方程.解:(1)由数值表可作散点图如图.(2)根据散点图知样本点分布在一条反比例函数曲线的周围,所以可以确定回归模型函数为y=kx.(3)由y=kx,令t=1x得y=kt,则得变换后的数据表如下:t4210.50.25y1612521由置换后的数值表作散点图如下:所以t-=1.55,y-=7.2.所以b^=≈4.1344,a^=y--b^t-≈0.8.所以y^=4.1344t+0.8.所以y与x之间的回归方程是y^=4.1344x+0.8.归纳升华求非线性回归方程的步骤:1.确定变量,作出散点图.2.根据散点图,选择恰当的拟合函数.3.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.4.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.5.根据相应的变换,写出非线性回归方程.[变式训练]两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是()A.y=a·xbB.y=a+blnxC.y=a·ebxD.y=a·ehx解析:由散点图可知,此曲线类似对数函数型曲线,因此可用函数y=a+blnx模型进行拟合.答案:B1.对线性回归方程的理解:(1)从参数计算公式a^=y--b^x-中,我们可以看出,回归直线方程y^=b^x+a^一定经过点(x-,y-).我们把(x-,y-)称为样本点的中心.(2)线性回归方程y^=b^x+a^中的截距a^和斜率b^都是通过估计而得来的,存在着误差,这种误差可能导致预测结果的偏差.因此由回归方程可预测y的估计值.(3)线性回归方程y^=b^x+a^中的b^表示x增加1个单位时,y的平均变化量为b^.2.残差图中的可疑数据的特征表现:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.3.研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e^1,e^2,…,e^n来判断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果.
本文标题:2019秋高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课件 新人教A版选修1-
链接地址:https://www.777doc.com/doc-8246200 .html