您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 高中数学必修2-3第三章31回归分析的基本思想及其初步应用
第三章统计案例3.1回归分析的基本思想及其初步应用1.问题导航(1)回归分析的含义是什么?有哪些基本步骤?线性回归模型怎样用表达式表示?产生随机误差的原因是什么?(2)回归方程中a^与b^怎样求解?(3)刻画回归效果的方式有哪些?2.例题导读(1)例1由一些数据求出线性回归方程,利用所求方程预报女大学生的体重.(2)例2由一些数据求出非线性回归方程.1.回归分析回归分析是对具有________相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是________画出两个变量的散点图,________求回归方程,并用回归方程进行预报.2.线性回归模型(1)在线性回归方程y^=a^+b^x中,b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2,a^=________y--b^x-,其中x-=________1n∑ni=1xi,y-=________1n∑ni=1yi,(x,y)称为________样本点的中心,回归直线过样本点的中心.(2)线性回归模型y=bx+a+e,其中e称为________随机误差,自变量x称为________解释变量,因变量y称为________预报变量.3.刻画回归效果的方式方式方法计算公式刻画效果R2R2=________1-R2越________接近于1,表示回归的效果越好∑ni=1(yi-y^i)2∑ni=1(yi-y-)2残差图e^i称为相应于点(xi,yi)的残差,e^i=________yi-y^i残差点________比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度________越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni=1(yi-y^i)2残差平方和越________小,模型的拟合效果越好1.判断(对的打“√”,错的打“×”)(1)求线性回归方程前可以不进行相关性检验.()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()(3)利用线性回归方程求出的值是准确值.()答案:(1)×(2)√(3)×2.散点图在回归分析中的作用是()A.查找个体个数B.比较个体数据大小关系C.探究个体分类D.粗略判断变量是否相关答案:D3.变量x与y之间的回归方程表示()A.x与y之间的函数关系B.x与y之间的不确定性关系C.x与y之间的真实关系形式D.x与y之间的真实关系达到最大限度的吻合答案:D4.已知线性回归方程y^=0.75x+0.7,则x=11时,y的估计值为________.答案:8.951.对线性回归方程的理解(1)从参数计算公式a^=y--b^x-中,我们可以看出,回归直线方程y^=b^x+a^一定经过点(x-,y-).我们把(x-,y-)称为样本点的中心,因此,回归直线必过样本点的中心.(2)线性回归方程y^=b^x+a^中的截距a^和斜率b^都是通过估计而得来的,存在着误差,这种误差可能导致预测结果的偏差.(3)线性回归方程y^=b^x+a^中的b^表示x增加1个单位时,y的平均变化量为b^,而a^表示y不随x的变化而变化的量.(4)可以用线性回归方程y^=b^x+a^预测在x取某一个值时y的估计值.2.随机误差e产生的主要原因(1)所用的确定性函数不恰当引起的误差.(2)忽略了某些因素的影响.影响变量y的因素不只是变量x,可能还包括其他因素(例如,在描述身高和体重的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响).(3)存在观测误差.由于测量工具等原因,导致y的观测值产生误差.3.残差图中的可疑数据的特征表现(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.线性回归方程(2015·东莞高二检测)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积(m2)1109080100120销售价格(万元)3331283439(1)画出数据对应的散点图;(2)求线性回归方程;(3)据(2)的结果估计当房屋面积为150m2时的销售价格.[解](1)数据对应的散点图如图所示:(2)x-=15∑5i=1xi=15(110+90+80+100+120)=100,y-=15∑5i=1yi=15(33+31+28+34+39)=33.∑5i=1x2i=1102+902+802+1002+1202=51000,∑5i=1xiyi=110×33+90×31+80×28+100×34+120×39=16740.所以b^=∑5i=1(xi-x-)(yi-y-)∑5i=1(xi-x-)2=∑5i=1xiyi-5x-y-∑5i=1x2i-5x-2=16740-5×100×3351000-5×1002=0.24,a^=y-b^x=33-0.24×100=9.所以线性回归方程为y^=b^x+a^=0.24x+9.(3)据(2),当x=150m2时,销售价格的估计值为:y^=0.24×150+9=45(万元).1.求线性回归方程的三个步骤(1)算:根据数据计算x,y,∑ni=1x2i,∑ni=1xiyi.(2)代:代入公式求b^,a^的具体数值.(3)求:由上面的计算结果求方程y^=b^x+a^.2.求线性回归方程的三个关键点扫一扫进入91导学网()线性回归方程1.(2015·南昌高二检测)已知x,y的取值如表所示:x0134y2.24.34.86.7若从散点图分析,y与x线性相关,且y^=0.95x+a^,则a^的值等于()A.2.6B.6.3C.2D.4.5解析:选A.因为x=14(0+1+3+4)=2,y=14(2.2+4.3+4.8+6.7)=4.5.而回归直线方程过样本点的中心(2,4.5),所以a^=y-0.95x=4.5-0.95×2=2.6.线性回归分析为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求线性回归方程;(2)求出R2;(3)进行残差分析.[解](1)散点图如图.x=16(5+10+15+20+25+30)=17.5,y=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑6i=1x2i=2275,∑6i=1xiyi=1076.2,计算得,b^≈0.183,a^≈6.285,所求回归直线方程为y^=0.183x+6.285.(2)列表如下:yi-y^i0.050.005-0.08-0.0450.040.025yi-y-2.24-1.37-0.540.411.412.31所以∑6i=1(yi-y^i)2≈0.01318,∑6i=1(yi-y-)2=14.6784.所以,R2=1-0.0131814.6784≈0.9991,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.“相关指数R2、残差图”在回归分析中的作用:(1)相关指数R2是用来刻画回归效果的,由R2=1-∑ni=1(yi-y^i)2∑ni=1(yi-y)2可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.2.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x1416182022y1210753求y对x的回归直线方程,并说明回归模型拟合效果的好坏.解:x-=15(14+16+18+20+22)=18,y-=15(12+10+7+5+3)=7.4,∑5i=1x2i=142+162+182+202+222=1660,∑5i=1xiyi=14×12+16×10+18×7+20×5+22×3=620,所以b^=∑5i=1xiyi-5x-y-∑5i=1x2i-5x-2=620-5×18×7.41660-5×182=-1.15.a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.列出残差表:yi-y^i00.3-0.4-0.10.2yi-y4.62.6-0.4-2.4-4.4所以,∑5i=1(yi-y^i)2=0.3,∑5i=1(yi-y-)2=53.2,R2=1-∑5i=1(yi-y^i)2∑5i=1(yi-y-)2≈0.994,所以回归模型的拟合效果很好.非线性回归分析(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中wi=xi,w-=18i=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为[解](1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.3.在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程.解:由数值表可作散点图如图,根据散点图可知y与x近似地呈反比例函数关系,设y^=kx,令t=1x,则y^=kt,原数据变为:t4210.50.25y1612521由置换后的数值表作散点图如下:由散点图可以看出y与t呈近似的线性相关关系.列表如下:itiyitiyit2i1416641622122443155140.5210.2550.2510.250.0625∑7.753694.2521.3125所以t=1.55,y=7.2.a^=y-b^t≈0.8.所以y^=4.1344t+0.8.所以y与
本文标题:高中数学必修2-3第三章31回归分析的基本思想及其初步应用
链接地址:https://www.777doc.com/doc-1946565 .html