您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 3.1-回归分析的基本思想及其初步应用
数学第三章统计案例3.1回归分析的基本思想及其初步应用数学课标要求学法指导1.了解随机误差、残差、残差分析的概念.2.会用残差分析判断线性回归模型的拟合效果.3.掌握建立回归模型的步骤.4.通过对典型案例的探究,了解回归分析的基本思想方法和初步应用.结合具体事例,通过画散点图,直观地了解两个变量的关系,然后,通过最小二乘法建立回归模型,最后通过分析残差、相关指数等,评价模型的好坏.数学新课导入知识探究题型探究达标检测数学新课导入——实例引领思维激活实例:某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表.推销员编号12345工作年限x/年35679推销金额y/万元23345请问如何表示推销金额y与工作年限x之间的相关关系?解:画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.数学想一想实例中年推销金额y关于工作年限x的线性回归方程是什么?(设所求的线性回归方程为ˆy=ˆbx+ˆa,则ˆb=51521iiiiixxyyxx=1020=0.5,ˆa=y-ˆbx=0.4.所以年推销金额y关于工作年限x的线性回归方程为ˆy=0.5x+0.4)数学知识探究——自主梳理思考辨析1.线性回归模型(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线的斜率和截距的最小二乘估计公式分别为ˆb=1221niiiniixynxyxnx,ˆa=y-ˆbx,其中,xy称为样本点的中心.数学(3)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差,x称为解释变量,y称为预报变量.2.线性回归分析(1)残差的概念对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为ˆie=yi-ˆiy=ˆˆiiybxa,i=1,2,…,n,ˆie称为相应于点(xi,yi)的残差.数学(3)残差平方和残差平方和21ˆniiiyy,残差平方和,模型拟合效果越好.(2)残差图作图时为残差,可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.在残差图中,残差点地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度,说明模型拟合精度越高,回归方程的预报精度越高.纵坐标横坐标比较均匀越窄越小数学(4)利用R2刻画回归效果R2=1-2121ˆniiiniiyyyy;R2表示变量对于变量变化的贡献率.R2越接近于1,表示回归的效果越好.3.建立回归模型的基本步骤建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是,哪个变量是;解释预报解释变量预报变量数学(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程ˆy=ˆbx+ˆa);(2)画出确定好的解释变量和预报变量的,观察它们之间的关系(如是否存在线性关系等);(4)按一定规则(如最小二乘法)估计回归方程中的参数;(5)得出结果后分析是否有异常(如个别数据对应残差,残差呈现等),若存在异常,则检查数据是否有误,或模型是否合适等.散点图残差图过大不随机的规律性数学拓展提升:非线性回归模型转换为线性回归模型的常用方法:①将幂型函数y=axm(a为正的常数,x,y取正值)化为线性函数.如果将y=axm两边同取以10为底的对数,则有lgy=mlgx+lga,令u=lgy,v=lgx,lga=b,代入上式,得u=mv+b,其中m,b是常数,这是u,v的线性函数.如果以u为纵坐标,v为横坐标,则u=mv+b的图形就是一条直线.②将指数型函数y=cax(a0,c0且为常数)化为线性函数.将y=cax两边同取以10为底的对数,有lgy=xlga+lgc,令lgy=u,lga=k,lgc=b,得u=kx+b,其中k和b是常数,与幂型函数不同的是x依然保持原来的,只是用y的对数lgy代替了y.数学题型探究——典例剖析举一反三题型一求线性回归方程【例1】在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x345.54.25.863.5患癌症人数y15202824354434(1)画出表中数据的散点图;(2)求y对x的回归方程;(3)若一个村水源中砷超标的倍数为7,试估计这个村患癌症的人数.数学解:(1)散点图如图所示.(2)观察散点图,可知x、y成线性相关关系.计算得x=327,y=2007,根据求ˆb公式代入数据计算得数学ˆb≈6.065,ˆa=2007-6.065×327≈0.846.所以患癌症人数y对水源中砷超标的倍数x的回归直线方程为ˆy=6.065x+0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,ˆy=6.065×7+0.846≈43.即该村患癌症的人数约为43人.数学题后反思如果不明确两组数据之间是否线性相关,可以先作出散点图,观察它们是否线性相关.若线性相关则代入公式求回归直线方程,否则求得的回归直线方程无意义.数学跟踪训练11:有一台机床可以按各种不同的速度运转,其加工的零件有一些是二级品,每小时生产的二级品零件的数量随机床运转的速度而变化.下面是试验所得数据:机床运转速度x(转/秒)每小时生产二级品数量y(个)851281491611(1)作出散点图;(2)求出机床运转的速度x与每小时生产二级品数量y的回归直线方程;(3)若实际生产中每小时所允许生产的二级品数量不超过10个,那么机床的运转速度不得超过多少转/秒?数学解:(1)散点图如图所示.(2)易求得x=12.5,y=8.25,根据求ˆb公式代入相关数据计算得回归直线的斜率ˆb≈0.7286.截距ˆa=y-ˆbx=-0.8575,即所求回归直线的方程为ˆy=0.7286x-0.8575.(3)根据公式,要使y≤10,只要0.7286x-0.8575≤10,解得x≤14.9019,即机床的运转速度不能超过14.9019转/秒.数学题型二线性回归分析【例2】某运动员训练次数与成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数R2.解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.数学(2)x=39.25,y=40.875,821iix=12656,821iiy=13731,81iiixy=13180,∴ˆb=81822188iiiiixyxyxx≈1.0415,ˆa=y-ˆbx=-0.003875,∴回归方程为ˆb=1.0415x-0.003875.数学(3)残差分析某运动员训练次数与成绩之间的数据及相应的残差数据x3033353739444650y3034373942464851ˆe=y-ˆy-1.2411-0.36560.55140.46841.38540.17790.0949-1.0711作残差图如图所示.由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.数学(4)计算相关指数R2计算得相关指数R2=0.9855.说明了该运动员的成绩的差异有98.55%是由训练次数引起的.题后反思解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,若线性相关则利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.数学跟踪训练21:在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:价格x(元)1416182022需求量y(件)1210753求出y对x的回归直线方程,并说明拟合效果的好坏.解:x=15(14+16+18+20+22)=18,y=15×(12+10+7+5+3)=7.4,521iix=142+162+182+202+222=1660,数学521iiy=122+102+72+52+32=327,51iiixy=14×12+16×10+18×7+20×5+22×3=620,∴ˆb=51522155iiiiixyxyxx=26205187.41660518=4640=-1.15.数学ˆa=7.4+1.15×18=28.1.∴回归直线方程为ˆy=-1.15x+28.1.列出残差表为yi-ˆiy00.3-0.4-0.10.2yi-y4.62.6-0.4-2.4-4.4∴521ˆiiiyy=0.3,521iiyy=53.2,R2=1-521521ˆiiiiiyyyy≈0.994.因而拟合效果较好.数学题型三非线性回归分析【例3】在一化学反应过程中某化学物质的反应速度yg/min与一种催化剂的量xg有关,现收集了8组数据列于表中,试建立y与x之间的回归方程.催化剂量x(g)1518212427303336化学物质反应速度y(g/min)6830277020565350数学名师导引:画散点图判断两变量是否线性相关.解:根据收集的数据作散点图:根据样本点分布情况可选用两种曲线模型来拟合.①可认为样本点集中在某二次曲线y=c1x2+c2的附近,令t=x2,则变换后样本点应该分布在直线y=bt+a(b=c1,a=c2)的周围.数学由题意得变换后t与y样本数据表如下:t22532444157672990010891296y6830277020565350作y与t的散点图:由y与t的散点图可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程y=bt+a(b=c1,a=c2)来拟合,即不宜用二次曲线y=c1x2+c2来拟合y与x之间的关系.数学②根据x与y散点图也可以认为样本点集中在某一条指数型函数y=c12ecx的周围.令z=lny,由y与x的数据表可得z与x的数据表如下:x1518212427303336z1.7922.0793.4013.2964.2485.3234.1745.858作出z与x的散点图:数学由散点图可观察到样本数据点大致是在一条直线上,所以可用线性回归方程来拟合它.由z与x数据表,得到线性回归方程,ˆz=0.1812x-0.8492,所以非线性回归方程为ˆy=e0.1812x-0.8492,因此,该化学物质反应速度对催化剂的量的非线性回归方程为ˆy=e0.1812x-0.8492.题后反思(1)画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数作为回归模型来分析.(2)两个变量不是线性关系,不能直接利用回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型.数学跟踪训练31:下表是某年美国旧轿车价格的调查资料.使用年数12345678910平均价格(美元)2651194314941087765538484290226204观察表中的数据,试问平均价格与使用年数间存在什么样的关系?解:设x表示轿车的使用年数,y表示相应的平均价格,作出散点图,由散点图可以看出y与x具有指数关系,数学令z=lny,变换后得x12345678910z7.8837.5727.3096.9916.6406.2886.1825.6705.4215.318作出散点图:由图可知各点基本上处于一直线上,由表中数据可求出线性回归方程ˆz=8.166-0.298x.因为旧车的平均价格与使用年数具有指数关系,其非线性回归方程为ˆy=e8.166-
本文标题:3.1-回归分析的基本思想及其初步应用
链接地址:https://www.777doc.com/doc-5910488 .html