您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 回归分析的基本思想及初步应用
结束首页末页上一页下一页结束首页末页上一页下一页1.回归分析(1)函数关系是一种________关系,而相关关系是一种________关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做__________.线性回归模型[导入新知]1.1回归分析的基本思想及其初步应用确定性非确定性相关关系结束首页末页上一页下一页(2)由《数学3》的知识可知,回归分析是对具有线性相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是____________________,___________________,并用__________________进行预报.2.线性回归模型(1)线性回归模型y=____________,其中___和___是模型的未知参数,___称为随机误差.自变量x称为_________,因变量y称为_________.画出两个变量的散点图求回归直线方程回归直线方程bx+a+eabe解释变量预报变量结束首页末页上一页下一页(2)在回归方程y^=b^x+a^中,b^=___________________=i=1nxiyi-nx-y-i=1nx2i-nx-2,a^=__________.其中x-=_______,y-=_______,(x-,y-)称为样本点的_______.i=1nxi-x-yi-y-i=1nxi-x-2y--b^x-1ni=1nxi1ni=1nyi中心结束首页末页上一页下一页[化解疑难]对线性回归方程的理解(1)回归直线方程y^=b^x+a^一定经过点(x-,y-).我们把(x-,y-)称为样本点的中心,因此,回归直线必过样本点的中心.(2)线性回归方程y^=b^x+a^中的截距a^和斜率b^都是通过估计而得来的,存在着误差,这种误差可能导致预测结果的偏差.(3)当b^0时,变量y与x具有正的线性相关关系;当b^0时,变量y与x具有负的线性相关关系.结束首页末页上一页下一页线性回归分析[导入新知]1.残差分析(1)残差样本点(xn,yn)的随机误差ei=____________,其估计值为e^i=yi-y^i=____________,e^i称为相应于点(xi,yi)的残差(residual).(以上i=1,2,…,n)yi-bxi-ayi-b^xi-a^结束首页末页上一页下一页(2)残差图作图时,纵坐标为________,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图.(3)残差分析残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度_______,回归方程的预报精度_______.残差越高越高结束首页末页上一页下一页2.相关指数我们可以用相关指数R2来刻画回归的效果,其计算公式是:R2=____________________.1-i=1nyi-y^i2i=1nyi-y-2结束首页末页上一页下一页R2越大,残差平方和i=1n(yi-y^i)2越小,即模型的拟合效果______;R2越小,残差平方和i=1n(yi-y^i)2越大,即模型的拟合效果_______.在线性回归模型中,R2的取值范围为_____,R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于___,表示回归的效果越好.越好越差[0,1]1结束首页末页上一页下一页残差分析的注意点在残差图中,可疑数据的特征表现为:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误.如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.[化解疑难]结束首页末页上一页下一页[例1]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:(1)请画出上表数据的散点图(要求:点要描粗);线性回归分析x681012y2356结束首页末页上一页下一页(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)试根据求出的线性回归方程,预测记忆力为14的同学的判断力.结束首页末页上一页下一页解:(1)散点图如图所示.结束首页末页上一页下一页(2)x-=6+8+10+124=9,y-=2+3+5+64=4,i=14(xi-x-)2=9+1+1+9=20,i=14(xi-x-)(yi-y-)=(-3)×(-2)+(-1)×(-1)+1×1+3×2=14,结束首页末页上一页下一页b^=i=14xi-x-yi-y-i=14xi-x-2=1420=0.7,a^=y--b^x-=4-0.7×9=-2.3,故线性回归方程为y^=0.7x-2.3.结束首页末页上一页下一页(3)由(2)中线性回归方程知,当x=14时,y^=0.7×14-2.3=7.5,预测记忆力为14的同学的判断力约为7.5.结束首页末页上一页下一页[类题通法]求线性回归方程的步骤(1)列表表示xi,yi;(2)计算x-,y-,i=1n(xi-x-)(yi-y-),i=1n(xi-x-)2;(3)代入公式计算a^,b^的值;(4)写出回归直线方程.结束首页末页上一页下一页某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:(1)试根据数据预报广告费支出1000万元的销售额;(2)若广告费支出1000万元的实际销售额为8500万元,求误差.[活学活用]x24568y3040605070结束首页末页上一页下一页解:(1)从画出的散点图(图略)可看出,这些点在一条直线附近,可以建立销售额y对广告费支出x的线性回归方程.由题中数据计算可得x-=5,y-=50,由公式计算得b^=6.5,a^=17.5,所以y对x的线性回归方程为y^=6.5x+17.5.因此,对于广告费支出为1000万元(即10百万元),由线性回归方程可以预报销售额为y^=6.5×10+17.5=82.5(百万元).结束首页末页上一页下一页(2)8500万元即85百万元,实际数据与预报值的误差为85-82.5=2.5(百万元).结束首页末页上一页下一页[例2]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?残差分析编号12345678910零件数x/个102030405060708090100加工时间y/min626875818995102108115122结束首页末页上一页下一页解:(1)根据表中数据画出散点图,如图所示.由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为=0.668x+54.93.结束首页末页上一页下一页残差数据如下表:编号12345残差e^0.39-0.290.03-0.650.67编号678910残差e^-0.010.31-0.37-0.050.27结束首页末页上一页下一页(2)以零件数为横坐标,残差为纵坐标画出残差图,如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.结束首页末页上一页下一页[类题通法]残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e^1,e^2,…,e^n来判断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果.结束首页末页上一页下一页[活学活用]已知某种商品的价格x(元)与需求量y(件)之间的关系有如下几组数据:x1416182022y1210753求y关于x的回归直线方程,并说明回归模型拟合效果的好坏.结束首页末页上一页下一页解:x-=15×(14+16+18+20+22)=18,y-=15×(12+10+7+5+3)=7.4,i=15x2i=142+162+182+202+222=1660,i=15xiyi=14×12+16×10+18×7+20×5+22×3=620,结束首页末页上一页下一页所以b^=i=15xiyi-5x-y-i=15x2i-5x-2=620-5×18×7.41660-5×182=-1.15,a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.结束首页末页上一页下一页列出残差表:yi-y^i00.3-0.4-0.10.2yi-y-4.62.6-0.4-2.4-4.4所以i=15(yi-y^i)2=0.3,结束首页末页上一页下一页i=15(yi-y-)2=53.2,R2=1-i=15yi-y^i2i=15yi-y-2≈0.994,所以回归模型的拟合效果很好.结束首页末页上一页下一页非线性回归分析[例3]在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程.结束首页末页上一页下一页解:作出变量y与x之间的散点图,如图所示.由图可知变量y与x近似地呈反比例函数关系.结束首页末页上一页下一页设y=kx,令t=1x,则y=kt.由y与x的数据表可得y与t的数据表:t4210.50.25y1612521作出y与t的散点图,如图所示.结束首页末页上一页下一页由图可知y与t近似地呈线性相关关系.又t-=1.55,y-=7.2,i=15tiyi=94.25,i=15t2i=21.3125,b^=i=15tiyi-5t-y-i=15t2i-5t-2=94.25-5×1.55×7.221.3125-5×1.552≈4.1344,结束首页末页上一页下一页a^=y--b^t-=7.2-4.1344×1.55≈0.8,∴y^=4.1344t+0.8.所以y与x之间的回归方程是y^=4.1344x+0.8.结束首页末页上一页下一页非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[类题通法]结束首页末页上一页下一页结束首页末页上一页下一页某电容器充电后,电压达到100V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:试求电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)[活学活用]t/s012345678910U/V100755540302015101055结束首页末页上一页下一页解:对U=Aebt两边取对数得lnU=lnA+bt,令y=lnU,a=lnA,x=t,则y=a+bx,y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,结束首页末页上一页下一页由表中数据求得x-=5,y-≈3.045,由公式计算得b^≈-0.313,a^=y--b^x-=4.61,所以y对x的线性回归方程为y^=-0.313x+4.61.所以lnU^=-0.313t+
本文标题:回归分析的基本思想及初步应用
链接地址:https://www.777doc.com/doc-3217829 .html