您好,欢迎访问三七文档
第11讲回归分析与独立性检验1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(1)了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)了解回归的基本思想、方法及其简单应用.1.变量间的关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.(2)将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.(3)正相关、负相关.①在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.②在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.2.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性相关关系:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归直线的求法:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),通过求偏差的平方和Q=1(niyi-b^xi-a^)2的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法,则回归直线方程y^=b^x+a^的系数为:1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx其中x-=1n1niix,y-=1n1niiy,(x-,y-)称作______________.样本点的中心(4)线性相关强度的检验:①r=12211()()()()niiinniiiixxyyxxyy=1222211()()niiinniiiixynxyxnxyny叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.②当r0时,表明两个变量正相关;当r0时,表明两个变量________.负相关r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.R2=1-2121()()niiiniiyyyy.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2×2列联表n=______________为样本容量.(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中a+b+c+d1.第31届夏季奥林匹克运动会,中国获26金,18银,26铜共70枚奖牌居奖牌榜第二,并打破3次世界纪录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2548名男性公民中有1560名持反对意见,2452名女性公民中有1200人持反对意见,在运用这些数据说明中国的奖牌数与中国进入体育强国有无关)系时,用什么方法最有说服力(A.平均数与方差C.独立性检验B.回归直线方程D.概率解析:由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.答案:C2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B.故选A.答案:A3.对四组数据进行统计,获得以下关于其相关系数的比较,正确的是()A图9-6-1A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r34.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为()A.-1B.0C.12D.1Dx123456y021334考点1相关关系判断例1:已知x与y之间的几组数据如下表:假设根据上表数据所得回归直线方程为y^=b^x+a^.若某同学根据上表中前两组数据(1,0)和(2,2)求得的回归直线方程为y=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′解析:由表格知,x-=216=72,y-=136.则b^=1×0+2×2+3×1+4×3+5×3+6×4-6×72×13612+22+32+42+52+62-6×722=57,a^=y--b^x-=136-57×72=-13.由两组数据(1,0)和(2,2),得x-′=32,y-′=1.则b′=1×0+2×2-2×32×112+22-2×322=2,a′=y-′-b′x-′=1-2×32=-2.综上所述,b^b′,a^a′.故选C.答案:C【规律方法】回归直线方程为y^=b^x+a^,其中b^=1221niiiniixynxyxnx,a^=y--b^x-.其中x-=1n1niix,y-=1n1niiy,点(x-,y-)称为样本点的中心,回归直线都经过样本点的中心.x345678y4.02.5-0.50.5-2.0-3.0【互动探究】1.根据如下样本数据:得到的回归方程为y^=b^x+a^,则()A.a^0,b^0B.a^0,b^0C.a^0,b^0D.a^0,b^0解析:依题意,画散点图,如图D102,两个变量负相关,图D102答案:A所以b^0,a^0.x173170176y1701761822.某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为____cm.解析:由题意,得父亲身高xcm与儿子身高ycm对应关系如下表:则x=173+170+1763=173,y=170+176+1823=176,31(ixi-x)(yi-y)=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)×(182-176)=18,31(ixi-x)2=(173-173)2+(170-173)2+(176-173)2=18.∴b^=1818=1.∴a^=y-b^x=176-173=3.∴回归直线方程为y^=b^x+a^=x+3.∴可估计孙子身高为182+3=185(cm).答案:185考点2回归分析的综合运用例2:(2015年新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图(如图9-6-2)及一些统计量的值.图9-6-2(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;xyw81(ixi-x-)281(iwi-w-)281(ixi-x-)(yi-y-)81(iwi-w-)(yi-y-)46.65636.8289.81.61469108.8表中wi=xi,w=1881ii.(1)根据散点图判断,y=a+bx与y=c+dx,哪一个适合作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:①当年宣传费x=49时,年销售量及年利润的预报值是多少?②当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α^+β^u的斜率和截距的最小二乘估计公式分别为β^=121()()()niiiniiuuuu,α^=υ--β^u-.解:(1)由散点图可以判断,y=c+dx适合作为年销售y关于年宣传费用x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.∵d^=81821()()()iiiiiyy=108.81.6=68,∴c^=y--d^w-=563-68×6.8=100.6.∴y关于w的线性回归方程为y^=100.6+68w.∴y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值为:y^=100.6+6849=576.6,z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值为:z^=0.2(100.6+68x)-x=-x+13.6x+20.12.∴当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费用为46.24千元时,年利润的预报值最大.(2)回归分析是处理变量相关关系的一种数学方法.主要解决:①确定特定量之间是否有相关关系,如果有,就找出它们之间的数学表达式;②根据一组观察值,预测变量的取值及判断变量取值的变化趋势;③求出回归直线方程.【规律方法】(1)求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意回归直线方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同)x234567912y12334568【互动探究】3.已知某蔬菜商店买进的土豆x(单位:吨)与出售天数y(单位:天)之间的关系如下表所示:(1)请根据上表数据在所给网格纸中绘制散点图;图9-6-3(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^(其中b保留2位有效数字);(3)根据(2)中的计算结果,若该蔬菜商店买进土豆40吨,则预计可以销售多少天(计算结果保留整数)?附:b^=1221niiiniixynxyxnx,a^=y--b^x-.解:(1)散点图如图D103:图D103(2)依题意,得x=18(2+3+4+5+6+7+9+12)=6,y=18(1+2+3+3+4+5+6+8)=4,821iix=4+9+16+25+36+49+81+144=364,81iiixy=2+6+12+15+24+35+54+96=244,(3)由(2)可知当x=40时,y=0.68×40-0.08≈27,故买进土豆40吨,预计可销售27天.b^=81822188iiiiixyxyxx=244-8×6×4364-8×62=5276=0.68,∴a^=4-0.68×6=-0.08.∴回归直线方程为y^=0.68x-0.08.考
本文标题:2020年高考数学(理科)一轮复习课件:第九章-第11讲-回归分析与独立性检验(62张)
链接地址:https://www.777doc.com/doc-4766587 .html