您好,欢迎访问三七文档
第三章统计案例3.1回归分析的基本思想及其初步应用学习目标核心素养1.了解随机误差、残差、残差图的概念.(重点)2.会通过分析残差判断线性回归模型的拟合效果.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)1.通过回归分析的学习,培养了学生数据分析的素养.2.借助回归模型的建立,培养学生数学建模、数据分析及数学运算的素养.自主预习探新知1.回归分析的相关概念(1)回归分析回归分析是对具有___________的两个变量进行统计分析的一种常用方法.(2)回归直线方程方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数,其最小二乘估计分别为:相关关系b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x,其中x=1ni=1nxi,y=1ni=1nyi,________称为样本点的中心.i=1nxi-xyi-yi=1nxi-x2i=1nxiyi-nxyi=1nx2i-nx2(x,y)(3)线性回归模型线性回归模型为______________,其中_______为模型的未知参数,__称为随机误差,自变量x称为_____变量,因变量y称为_____变量.y=bx+a+ea和be解释预报思考:在线性回归模型y=bx+a+e中,e产生的原因主要有哪几种?[提示]随机误差产生的原因主要有以下几种:(1)所用的确定性函数不恰当引起的误差;(2)忽略了某些因素的影响;(3)存在观测误差.2.残差的概念对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=____________,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n,e^i称为相应于点(xi,yi)的______.残差yi-bxi-a3.刻画回归效果的方式残差图作图时纵坐标为_____,横坐标可以选为_________,或_________,或______________等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度_____,说明模型拟合精度越高,回归方程的预报精度越高残差样本编号身高数据体重的估计值越窄残差平方和残差平方和为__________,残差平方和______,模型的拟合效果越好相关指数R2R2=1-_____________,R2表示_____变量对于_____变量变化的贡献率,R2越接近于___,表示模型的拟合效果越好越小解释预报1i=1n(yi-y^i)2i=1nyi-y^i2i=1nyi-y21.在如图所示的四个散点图中,适合用线性回归模型拟合其中两个变量的是()A.①②B.①③C.②③D.③④B[结合散点图可知①③中的散点大体分布在一条直线的左右两侧,故选B.]A[R2越大拟合效果越好,故选A.]2.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.253.已知回归直线方程为y^=2x+1,而试验得到的一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是()A.0.01B.0.02C.0.03D.0.04C[当x=2时,y^=5;当x=3时,y^=7;当x=4时,y^=9,∴e^1=4.9-5=-0.1,e^2=7.1-7=0.1,e^3=9.1-9=0.1.∴i=13e^2i=(-0.1)2+(0.1)2+(0.1)2=0.03,故选C.]合作探究提素养求线性回归方程【例1】某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x681012y2356(1)请画出上表数据的散点图(要求:点要描粗);(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.[解](1)如图:(2)i=1nxiyi=6×2+8×3+10×5+12×6=158,x=6+8+10+124=9,y=2+3+5+64=4,i=1nx2i=62+82+102+122=344,b^=158-4×9×4344-4×92=1420=0.7,a^=y-b^x=4-0.7×9=-2.3,故线性回归方程为y^=0.7x-2.3.(3)由(2)中线性回归方程当x=9时,y^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.求线性回归方程的基本步骤1.列出散点图,从直观上分析数据间是否存在线性相关关系.2.计算:x,y,i=1nx2i,i=1ny2i,i=1nxiyi.3.代入公式求出y^=b^x+a^中参数b^,a^的值.4.写出线性回归方程并对实际问题作出估计.提醒:只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.1.某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:x/百万元24568y/百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额.[解](1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计xi2456825yi3040605070250xiyi601603003005601380x2i416253664145所以,x=255=5,y=2505=50,i=15x2i=145,i=15xiyi=1380.于是可得b^=i=15xiyi-5xyi=15x2i-5x2=1380-5×5×50145-5×52=6.5,a^=y-b^x=50-6.5×5=17.5.所以所求的线性回归方程为y^=6.5x+17.5.(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,y^=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.线性回归分析【例2】假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求R2,并说明残差变量对有效穗的影响占百分之几?(参考数据:i=15x2i=5101.56,i=15y2i=9511.43,i=15xiyi=6746.76)[解](1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y^=b^x+a^.x-=30.36,y-=43.5,i=15x2i=5101.56,i=15y2i=9511.43.x-y-=1320.66,x-2=921.7296,i=15xiyi=6746.76.则b^=i=15xiyi-5x-y-i=15x2i-5x-2≈0.29,a^=y--b^x-≈34.70.故所求的回归直线方程为y^=0.29x+34.70.当x=56.7时,y^=0.29×56.7+34.70=51.143.估计成熟期有效穗为51.143.(3)由于y^i=b^xi+a^,可以算得e^i=yi-y^i分别为e^1=0.35,e^2=0.718,e^3=-0.5,e^4=-2.214,e^5=1.624,残差平方和:i=15e^2i≈8.43.(4)i=15(yi-y-)2=50.18,故R2=1-8.4350.18≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.“相关指数R2、残差图”在回归分析中的作用1.相关指数R2是用来刻画回归效果的,由R2=1-i=1nyi-y^i2i=1nyi-y2可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.2.关于x与y有如下数据:x24568y3040605070有如下的两个线性模型:(1)y^=6.5x+17.5;(2)y^=7x+17.试比较哪一个拟合效果更好.[解]由(1)可得yi-y^i与yi-y的关系如下表:yi-y^i-0.5-3.510-6.50.5yi-y-20-1010020∴i=15(yi-y^i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,i=15(yi-y)2=(-20)2+(-10)2+102+02+202=1000.∴R21=1-i=15yi-y^i2i=15yi-y2=1-1551000=0.845.由(2)可得yi-y^i与yi-y的关系如下表:yi-y^i-1-58-9-3yi-y-20-1010020∴i=15(yi-y^i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,i=15(yi-y)2=(-20)2+(-10)2+102+02+202=1000.∴R22=1-i=15yi-y^i2i=15yi-y2=1-1801000=0.82,由于R21=0.845,R22=0.82,0.8450.82,∴R21R22.∴(1)的拟合效果好于(2)的拟合效果.非线性回归分析[探究问题]1.已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x123y35.9912.01①y=3×2x-1;②y=log2x;③y=4x;④y=x2.[提示]观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.2.如何将上题函数变换为线性函数?[提示]将y=3×2x-1两边取自然对数得lny=ln3+(x-1)ln2.令y′=lny,x′=x,则原方程变为y′=ln3+x′ln2-ln2=ln32+x′ln2.这样y′与x′成线性函数关系.【例3】为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:天数x/天123456繁殖个数y/个612254995190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:y^=a^+b^x与y=c1ec2x哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?(给出判断即可,不必说明理由)xyzi=16(xi-x)2i=16(xi-x)·(yi-y)i=16(xi-x)·(zi-z)3.562.833.5317.5596.50512.04其中zi=lnyi,z=16i=16zi.(2)根据(1)的判断最佳结果及表中的数据,建立y关于x的回归方程.参考公式:b^=i=1nxi-xyi-yi=1nxi-x2,a^=y-b^x.[思路点拨](1)根据收集数据,可得数据的散点图;(2)由散点图看出样本点分布在一条指数型曲线y=cebx(c0)的周围,则lny=bx+lnc.变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y对x的回归方程.[解](1)作出散点图,如图1所示.图1图2由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是选择y=c1ec2x.(2)令z=lny,则z^=b^x+a^.x123456z1.792.483.223.894.555.25相应的散点图如图2.从图2可以看
本文标题:2019-2020学年高中数学 第3章 统计案例 3.1 回归分析的基本思想及其初步应用课件 新人教
链接地址:https://www.777doc.com/doc-8289783 .html