您好,欢迎访问三七文档
第3讲变量间的相关关系、统计案例第十一章统计与统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是___________;与函数关系不同,___________是一种非确定性关系.相关关系相关关系2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有___________________,这条直线叫____________.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为__________,点分布在左上角到右下角的区域内,两个变量的相关关系为___________.(3)回归方程为y^=b^x+a^,其中b^=,a^=____________.线性相关关系回归直线正相关负相关y--b^x-(4)相关系数当r0时,表明两个变量________;当r0时,表明两个变量_________.r的绝对值越接近于1,表明两个变量的线性相关性______.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于_______时,认为两个变量有很强的线性相关性.正相关负相关越强0.753.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:y1y2总计x1ab_______x2cdc+d总计a+c_______a+b+c+d(2)K2统计量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量).a+bb+d判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件X,Y的关系越密切,由观测数据计算得到的K2的观测值越大.()(5)通过回归方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.()答案:(1)×(2)√(3)√(4)√(5)√某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()A.y^=-10x+200B.y^=10x+200C.y^=-10x-200D.y^=10x-200解析:选A.因为商品销售量y(件)与销售价格x(元/件)负相关,所以b^0,排除B,D.又因为x=0时,y0,所以应选A.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()附:P(K2≥k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828A.0.1%B.1%C.99%D.99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.下面是一个2×2列联表y1y2总计x1a2173x222527总计b46则表中a、b处的值分别为________.解析:因为a+21=73,所以a=52.又因为a+2=b,所以b=54.答案:52、54已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y^=0.95x+a^,则a^=________.x0134y2.24.34.86.7解析:由已知得x-=2,y-=4.5,因为回归方程经过点(x-,y-),所以a^=4.5-0.95×2=2.6.答案:2.6[典例引领]已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关相关关系的判断【解析】因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=b^y+a^,b^0,则z=b^y+a^=-0.1b^x+b^+a^,故x与z负相关.【答案】C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r0时,正相关;r0时,负相关.(3)线性回归方程中:b^0时,正相关;b^0时,负相关.[通关练习]1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.某公司在2017年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x12.314.515.017.019.820.6支出y5.635.755.825.896.116.18根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x与y有正线性相关关系.(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下三个命题角度:(1)由回归直线方程求参数值;(2)求回归直线方程;(3)利用回归方程进行预测.线性回归方程及其应用[典例引领]角度一由回归直线方程求参数值(2017·高考山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^.已知i=110xi=225i=110yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170【解析】由题意可知y^=4x+a^,又x-=22.5,y-=160,因此160=22.5×4+a^,所以a^=70,因此y^=4x+70.当x=24时,y^=4×24+70=96+70=166.【答案】C角度二、三求回归直线方程并进行预测(2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:i=17yi=9.32,i=17tiyi=40.17,i=17(yi-y-)2=0.55,7≈2.646.参考公式:相关系数r=回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为:【解】(1)由折线图中数据和附注中参考数据得2.89,r=2.890.55×2×2.646≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由y-=9.327≈1.331及(1)得b^==2.8928≈0.103,a^=y--b^t-≈1.331-0.103×4≈0.92.所以,y关于t的回归方程为y^=0.92+0.10t.将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.求回归直线方程的步骤[提醒]利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.(2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.[典例引领](2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;独立性检验(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k)0.0500.0100.001k3.8416.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【解】(1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.7056.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为(0.004+0.020+0.044)×5=0.340.5,箱产量
本文标题:2020版高考数学大一轮复习 第十一章 统计与统计案例 第3讲 变量间的相关关系、统计案例课件 理
链接地址:https://www.777doc.com/doc-8236110 .html