您好,欢迎访问三七文档
回归分析的基本思想及其初步应用预习课本P2~8,思考并完成以下问题1.什么是回归分析?2.什么是线性回归模型?3.求线性回归方程的步骤是什么?[新知初探]1.回归分析(1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn).设其回归直线方程为y^=b^x+a^,其中a^,b^是待定参数,由最小二乘法得b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.(3)线性回归模型线性回归模型y=bx+a+e,Ee=0,De=σ2,其中a,b为模型的未知参数,通常e为随机变量,称为随机误差.x称为解释变量,y称为预报变量.[点睛]对线性回归模型的三点说明(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=a+bx相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.(2)线性回归方程y^=b^x+a^中a^,b^的意义是:以a^为基数,x每增加1个单位,y相应地平均增加b^个单位.2.线性回归分析(1)残差:对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值e^i=yi-y^i称为相应于点(xi,yi)的残差,i=1n(yi-y^i)2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R2=1-i=1nyi-y^i2i=1nyi-y2越接近1,表示回归的效果越好.[小试身手]1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)残差平方和越小,线性回归方程的拟合效果越好.()(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.()(3)R2越小,线性回归方程的拟合效果越好.()答案:(1)√(2)×(3)×2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________.答案:正相关3.在残差分析中,残差图的纵坐标为________.答案:残差4.如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于________,解释变量和预报变量之间的相关系数等于________.答案:01或-1求线性回归方程[典例]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.[解](1)散点图如图:(2)i=1nxiyi=6×2+8×3+10×5+12×6=158,x=6+8+10+124=9,y=2+3+5+64=4,i=1nx2i=62+82+102+122=344.b^=158-4×9×4344-4×92=1420=0.7,a^=y-b^x=4-0.7×9=-2.3,故线性回归方程为y^=0.7x-2.3.(3)由(2)中线性回归方程知,当x=9时,y^=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.(2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.[活学活用]某工厂1~8月份某种产品的产量与成本的统计数据见下表:月份12345678产量(吨)5.66.06.16.47.07.58.08.2成本(万元)130136143149157172183188以产量为x,成本为y.(1)画出散点图;(2)y与x是否具有线性相关关系?若有,求出其回归方程.解:(1)由表画出散点图,如图所示.(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x和y线性相关关系显著,下面求其回归方程,首先列出下表.xiyix2ixiyi15.613031.36728.026.013636.00816.036.114337.21872.346.414940.96953.657.015749.001099.067.517256.251290.078.018364.001464.088.218867.241541.6∑54.81258382.028764.5计算得x=6.85,y=157.25.∴b^=i=18xiyi-8xyi=18x2i-8x2=8764.5-8×6.85×157.25382.02-8×6.852≈22.17,a^=y-b^x=157.25-22.17×6.85≈5.39,故线性回归方程为y^=22.17x+5.39.回归分析题点一:线性回归分析1.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:x1416182022y1210753求出y对x的回归直线方程,并说明拟合效果的程度.解:x=15(14+16+18+20+22)=18,y=15(12+10+7+5+3)=7.4.i=15x2i=142+162+182+202+222=1660,i=15xiyi=14×12+16×10+18×7+20×5+22×3=620,可得回归系数b^=i=15xiyi-5xyi=15x2i-5x2=620-5×18×7.41660-5×182=-1.15.所以a^=7.4+1.15×18=28.1所以回归直线方程:y^=-1.15x+28.1.列出残差表:yi-y^i00.3-0.4-0.10.2yi-y4.62.6-0.4-2.4-4.4则i=15(yi-y^i)2=0.3,i=15(yi-y)2=53.2.R2=1-i=15yi-y^i2i=15yi-y2≈0.994.所以回归模型的拟合效果很好.题点二:非线性回归分析2.为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天123456繁殖个数y612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程.解:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1=c1ec2x的周围,于是令z=lny,则x123456z1.792.483.223.894.555.25由计算器算得,z^=0.69x+1.112,则有y^=e0.69x+1.112.(1)当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求回归直线方程,否则要先判定相关性再求回归方程.判断拟合效果的好坏需要利用R2确定,R2越接近1,说明拟合效果越好.(2)非线性回归方程的求法①根据原始数据(x,y)作出散点图;②根据散点图,选择恰当的拟合函数;③作恰当的变换,将其转化成线性函数,求线性回归方程;④在③的基础上通过相应的变换,即可得非线性回归方程.层级一学业水平达标1.在对两个变量x,y进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是()A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③①解析:选D对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释;故正确顺序是②⑤④③①,故选D.2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是()A.0B.1C.2D.3解析:选D①选用的模型是否合适与残差点的分布有关;对于②③,R2的值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好.3.下图是根据变量x,y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是()A.①②B.①④C.②③D.③④解析:选D根据散点图中点的分布情况,可判断③④中的变量x,y具有相关的关系.4.(重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能为()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:选A依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5)代入A,B得A正确.5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y--b^x-.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元解析:选B由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).6.以下是某地区的降雨量与年平均气温的一组数据:年平均气温(℃)12.5112.8412.8413.6913.3312.7413.05年降雨量(mm)542507813574701432464根据这组数据可以推断,该地区的降雨量与年平均气温________相关关系.(填“具有”或“不具有”)解析:画出散点图,观察可知,降雨量与年平均气温没有相关关系.答案:不具有7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:18.下列说法正确的命题是________(填序号).①回归直线过样本点的中心(x,y);②线性回归方程对应的直线y^=b^x+a^至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点;③在残差图中,残差点分布的带状区域的宽度越宽,其模型拟合的精度越高;④在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好.解析:由回归分析的概念知①④正确,②③错误.答案:①④9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程y^=b^x+a^,其中b^=-20,a^=y-b^x;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)x=16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,从而a^=y+20x=80+20×8.5=250,故y^=-20x+250.(2)由题意知,工厂获得利润z=(x-4)y=-20x2+330x-1000=-20x-33
本文标题:2017-2018学年高中数学人教A版选修1-2:第一章 1.1 回归分析的基本思想及其初步应用 W
链接地址:https://www.777doc.com/doc-7541998 .html