您好,欢迎访问三七文档
第10讲回归分析与独立性检验考纲要求考点分布考情风向标1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解下列一些常见的统计方法、并能应用这些方法解决一些实际问题.(1)了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)了解回归分析的基本思想及其简单应用2012年新课标卷考查样本的相关系数;2014年新课标卷Ⅱ考查非线性拟合、线性回归方程求法、利用回归方程进行预报预测;2015年新课标卷Ⅰ考查非线性拟合、线性回归方程求法、利用回归方程进行预报预测由于该部分内容的特殊性,高考对该部分的考查一直非常慎重.高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.因此,复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式.此部分内容也可能结合概率统计的其他内容命制综合解答题.另外,复习时要把独立性检验作为重点1.变量间的关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.(3)正相关、负相关.在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系称为正相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.2.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性相关关系:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归直线的求法:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法,则回归直线方程的系数为:(xn,yn),通过求Q=1ni(yi-b^xi-a^)2的最小值而得到回归直线y^=b^x+a^样本点的中心1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx其中x-=1n1niix,y-=1n1niiy,(x-,y-)称作______________.(4)线性相关强度的检验:①r=12211()()()()niiinniiiixxyyxxyy=1222211()()niiinniiiixynxyxnxyny叫做y与x的相关系数,简称相关系数.②当r0时,表明两个变量正相关;当r0时,表明两个变量________.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.负相关R2=1-2121()()niiiniiyyyy.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=______________为样本容量.a+b+c+d(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.1.下面是2×2列联表:则表中a,b的值分别为()CA.94,72B.52,50C.52,74D.74,52解析:∵a+21=73,∴a=52.又a+22=b,∴b=74.项目y1y2合计x1a2173x2222547合计b461202.(2013年湖北)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:其中一定不正确的结论的序号是()DA.①②B.②③C.③④D.①④①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.项目男女总计爱好402060不爱好203050总计6050110n(ad-bc)23.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=算得,(a+b)(c+d)(a+c)(b+d)K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是()AA.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”P(K2≥k)0.0500.0100.001k3.8416.63510.8284.(2012年新课标)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点的样本相关系数为()DA.-1B.0C.12D.1解析:由题设知,这组样本数据完全正相关,故其相关系数为1.故选D.(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据12x123456y021334考点1线性回归分析例1:已知x与y之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中前两组数据(1,0)和(2,2)求得的线性回归直线方程为y=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′解析:由表格知,x-=216=72,y-=136.则b^=1×0+2×2+3×1+4×3+5×3+6×4-6×72×13612+22+32+42+52+62-6×722=57,a^=y--b^x-=136-57×72=-13.答案:C由两组数据(1,0)和(2,2),得x-′=32,y-′=1.则b′=1×0+2×2-2×32×112+22-2×322=2,a′=y-′-b′x-=1-2×32=-2.综上所述,b^b′,a^a′.故选C.【规律方法】回归直线方程为y^=b^x+a^,其中b^=1221niiiniixynxyxnx,a^=y--b^x-.其中x-=1n1niix,y-=1n1niiy,点(x-,y-)称为样本点的中心,回归直线都经过样本点的中心.x345678y4.02.5-0.50.5-2.0-3.0【互动探究】1.(2014年湖北)根据如下样本数据:得到的回归方程为y^=b^x+a^,则()A.a^0,b^0B.a^0,b^0C.a^0,b^0D.a^0,b^0解析:依题意,画散点图,如图D69,两个变量负相关,图D69答案:A所以b^0,a^0.考点2独立性检验例2:(2014年安徽)某高校共有15000人,其中男生有10500人,女生有4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9-10-1),其中样本数据分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.图9-10-1(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2.(a+b)(c+d)(a+c)(b+d)解:(1)应收集女生样本数据为300×450015000=90.(2)由频率分布直方图,得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4个小时的概率为0.75.P(K2≥k0)0.100.050.0100.005k02.7063.8416.6357.879项目男生女生总计每周平均体育运动时间不超过4个小时453075每周平均体育运动时间超过4个小时16560225总计21090300(3)由(2)知,300名学生中有300×0.75=225名学生每周平均体育运动时间超过4个小时,75名学生每周平均体育运动时间不超过4个小时,又因为该数据中有男生210名,女生90名,根据题意列表如下:每周平均体育运动时间与性别列联表结合列联表计算K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=300×(45×60-30×165)2≈4.7623.841.75×225×210×90因此有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.【规律方法】解决独立性检验问题的一般步骤:①制作列联表;②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算,近似计算要精确到小数点后三位;③查表得出结论,要选择满足条件P(K2k0)=α的k0作为拒绝域的临界值.项目不及格及格总计男61420女102232总计163652【互动探究】2.(2014年江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成绩项目不及格及格总计男41620女122032总计163652项目不及格及格总计男81220女82432总计163652表2表3视力智商项目不及格及格总计男14620女23032总计163652表4A.成绩C.智商阅读量B.视力D.阅读量解析:由公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算得A.52×8216×36×20×32,B.52×112216×36×20×32,C.52×96216×36×20×32,D.52×408216×36×20×32.显然D的值最大,说明阅读量与性别有关联的可能性最大.答案:D考点3回归分析的综合运用例3:(2015年新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图(如图9-10-2)及一些统计量的值.图9-10-2(1)根据散点图判断,y=a+bx与y=c+d,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:46.65636.8289.81.61469108.881i(xi-x-)281i(wi-w-)281i(xi-x-)(yi-y-)81i(wi-w-)(yi-y-)xywx表中wi=xi,w=1881ii.①当年宣传费x=49时,年销售量及年利润的预报值
本文标题:2017年《南方新课堂高考总复习》数学(理科)第九章第10讲回归分析与独立性检验[配套课件]
链接地址:https://www.777doc.com/doc-2952349 .html