您好,欢迎访问三七文档
1.1回归分析的基本思想及其初步应用第一章统计案例1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.第一章统计案例1.回归分析回归分析是对具有__________的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,___________________,并用回归直线方程进行_______.相关关系求回归直线方程预报2.线性回归模型(1)在线性回归方程y^=a^+b^x中,b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2,a^=y--b^x-,其中x-=_______,y-=_______,(x-,y-)称为_________________,回归直线过样本点的中心.(2)线性回归模型y=bx+a+e,其中e称为___________,自变量x称为解释变量,因变量y称为_______变量.1n∑ni=1xi1n∑ni=1yi样本点的中心随机误差预报3.刻画回归效果的方式方式方法计算公式刻画效果R2R2=1-∑ni=1(yi-y^i)2∑ni=1(yi-y-)2R2越___________,表示回归的效果越好残差图e^i称为相应于点(xi,yi)的残差,e^i=______残差点__________地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度______,回归方程的预报精度越高残差平方和∑ni=1(yi-y^i)2残差平方和越小,模型的拟合效果_______接近于1比较均匀yi-y^i越高越好1.虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.线性相关系数可以是正、负或零,线性相关系数为正时是正相关,为负时是负相关,反之也成立.2.线性回归方程是根据样本数据得到的一个确定性的函数关系,是用来对未知变量进行预测的,为了预测的效果更好,减小误差,应在求线性回归方程时尽量多地选取样本,选择代表性较强的样本,使得预测值尽量地接近真实值.判断(正确的打“√”,错误的打“×”)(1)求线性回归方程前可以不进行相关性检验.()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()(3)利用线性回归方程求出的值是准确值.()(4)用相关指数R2来刻画回归的效果,R2值越小,说明模型的拟合效果越好.()(5)比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.()答案:(1)×(2)√(3)×(4)×(5)√散点图在回归分析过程中的作用是()A.统计个体个数B.比较个体数据的大小C.研究个体分类D.粗略判断变量是否线性相关答案:D如图四个散点图中,适合用线性回归模型拟合其中两个变量的是()A.①②B.①③C.②③D.③④解析:选B.图①,③中的点大致在一条直线附近,适合用线性回归模型拟合.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同的模型,计算得R2如下表:甲乙丙丁R20.980.780.500.85则建立的回归模型拟合效果最好的同学是()A.甲B.乙C.丙D.丁解析:选A.R2越大,表示回归模型的拟合效果越好.故选A.已知样本点(x1,y1),(x2,y2),…,(x5,y5),若∑5i=1xi=10,∑5i=1yi=5,且回归直线为y^=2x+a^,则a^=________.解析:样本点的中心为(2,1),所以1=2×2+a^,所以a^=-3.答案:-3探究点1线性回归模型一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,收集的数据如下:零件个数x/个1234加工时间y/小时2358(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出零件个数x与加工时间y的线性回归方程;(3)现需生产20件此零件,预测需用多长时间.【解】(1)根据表中提供的数据可作出散点图如下:(2)x-=1+2+3+44=2.5,y-=2+3+5+84=4.5,∑4i=1xiyi=2+6+15+32=55,∑4i=1x2i=1+4+9+16=30,b^=∑4i=1xiyi-4x-y-∑4i=1x2i-4x-2=55-4×2.5×4.530-4×2.5×2.5=2,a^=y--b^x-=4.5-2×2.5=-0.5,所以所求回归直线方程为:y^=2x-0.5.(3)因为y^=2×20-0.5=39.5(小时),所以生产20件此零件,预测需用39.5小时.(1)求线性回归方程的三个步骤①算:根据数据计算x-,y-,∑ni=1x2i,∑ni=1xiyi;②代:代入公式求b^,a^的具体数值;③求:由上面的计算结果求方程y^=b^x+a^.(2)求线性回归方程的关键点相关性的验证:求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的.[提醒]回归直线一定过样本点的中心(x-,y-),这在很多问题的求解中起着很重要的作用.1.已知x与y之间的几组数据如表:x123456y021334假设根据表中数据所得线性回归方程y^=b^x+a^,若某同学根据表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′解析:选C.b′=2,a′=-2,由公式b^=∑6i=1(xi-x-)(yi-y-)∑6i=1(xi-x-)2求得.b^=57,a^=y--b^x-=136-57×72=-13,所以b^b′,a^a′.2.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积x(m2)1109080100120销售价格y(万元)3331283439(1)画出数据对应的散点图;(2)求线性回归方程;(3)根据(2)的结果估计当房屋面积为150m2时的销售价格.解:(1)数据对应的散点图如图所示:(2)x-=15∑5i=1xi=15(110+90+80+100+120)=100,y-=15∑5i=1yi=15(33+31+28+34+39)=33.∑5i=1x2i=1102+902+802+1002+1202=51000,∑5i=1xiyi=110×33+90×31+80×28+100×34+120×39=16740.所以b^=∑5i=1(xi-x-)(yi-y-)∑5i=1(xi-x-)2=∑5i=1xiyi-5x-y-∑5i=1x2i-5x-2=16740-5×100×3351000-5×1002=0.24,a^=y--b^x-=33-0.24×100=9.所以线性回归方程为y^=b^x+a^=0.24x+9.(3)根据(2)可知,当x=150时,销售价格的估计值为:y^=0.24×150+9=45(万元).探究点2线性回归分析为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.910.911.8(1)作出散点图并求线性回归方程;(2)用相关指数R2判断拟合效果;(3)进行残差分析.【解】(1)散点图如图.x-=16(5+10+15+20+25+30)=17.5,y-=16(7.25+8.12+8.95+9.9+10.9+11.8)≈9.487,∑6i=1x2i=2275,∑6i=1xiyi=1076.2,计算得,b^≈0.183,a^≈6.285,所求线性回归方程为y^=0.183x+6.285.(2)列表如下:yi-y^i0.050.005-0.08-0.0450.040.025yi-y--2.24-1.37-0.540.411.412.31所以∑6i=1(yi-y^i)2≈0.01318,∑6i=1(yi-y-)2=14.6784.所以R2=1-0.0131814.6784≈0.9991,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.1.保持本例条件不变,试画出残差图.解:如图所示:2.当x=35时,试估计y的值.解:当x=35时,y^=6.285+0.183×35=12.69.“相关指数R2、残差图”在回归分析中的作用(1)相关指数R2是用来刻画回归效果的,由R2=1-∑ni=1(yi-y^i)2∑ni=1(yi-y-)2可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果.解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.(2)可求得x-=39.25,y-=40.875,∑8i=1x2i=12656,∑8i=1xiyi=13180,所以b^=∑8i=1(xi-x-)(yi-y-)∑8i=1(xi-x-)2=∑8i=1xiyi-8x-y-∑8i=1x2i-8x-2≈1.0415,a^=y--b^x-≈-0.003875,所以线性回归方程为y^=1.0415x-0.003875.(3)作残差图如图所示:由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.探究点3非线性回归分析电容器充电后,电压达到100V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b0)表示,现测得时间t(s)时的电压U(V)如下表:t/s012345678910U/V100755540302015101055试求电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)【解】对U=Aebt两边取对数得lnU=lnA+bt,令y=lnU,a=lnA,x=t,则y=a+bx,得y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据作出散点图,如图所示,从图中可以看出,y与x具有较强的线性相关关系,由表中数据求得x-=5,y-≈3.045,进而可以求得b^≈-0.313,a^=y--b^x-=4.61,所以y对x的线性回归方程为y=4.61-0.313x.由y=lnU,得U=ey,U=e4.61-0.313x,因此电压U对时间t的回归方程为U=e4.61-0.313t.求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)根据相应的变换,写出非线性回归方程.(5)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.某校高二数学兴趣小组的同学,对某公司的一种产品的年销量与定价进行了统计,得到如下数据和散点图:定价x(元/kg)102030405060年销量y(kg)115064342426216586z=2lny14.112.912.111.110.28.9(参考数据:∑6i=1(xi-x-)·(yi-y-)=-34580,∑6i=1(xi-x-)·(zi-z-)=-175.5,∑6i=1(xi-x-)2=1750,∑6i=1(yi-y-)2=776840,∑6i=1(y
本文标题:2019-2020学年高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课件 新人教
链接地址:https://www.777doc.com/doc-8285734 .html