您好,欢迎访问三七文档
当前位置:首页 > 中学教育 > 高中教育 > 第二节 变量间的相关性与统计案例 课件
第二节变量间的相关性与统计案例核心素养立意下的命题导向1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程,凸显数学运算的核心素养.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其应用,凸显数学建模、数据分析的核心素养.4.了解回归分析的基本思想、方法及其简单应用,凸显数学建模、数据分析的核心素养.[理清主干知识]1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是_________;与函数关系不同,_________是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有_____________,这条直线叫________.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为______,点分布在左上角到右下角的区域内,两个变量的相关关系为_______.相关关系相关关系线性相关关系回归直线正相关负相关(3)回归方程为y^=b^x+a^,其中b^=∑ni=1xiyi-nxy∑ni=1x2i-nx2,a^=________.(4)相关系数当r0时,表明两个变量_______;当r0时,表明两个变量_______.r的绝对值越接近于1,表明两个变量的线性相关性____.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于_____时,认为两个变量有很强的线性相关性.y-b^x正相关负相关越强0.753.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:y1y2总计x1ab_____x2cdc+d总计a+c_____a+b+c+d(2)K2统计量K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).b+da+b[澄清盲点误点]一、关键点练明1.(分类变量)为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析B.均值与方差C.独立性检验D.概率解析:“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.答案:C2.(回归分析)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间具有线性相关关系,设其回归直线方程为y^=b^x+a^.已知∑10i=1xi=225,∑10i=1yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170解析:易知x=22510=22.5,y=160010=160.因为b^=4,所以160=4×22.5+a^,解得a^=70,所以回归直线方程为y^=4x+70,当x=24时,y^=96+70=166.故选C.答案:C3.(独立性检验)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%二、易错点练清1.(独立性检验理解不当)某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是()A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”解析:由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.故选C.答案:C2.(忽视回归直线过样本点中心)已知变量x和y的统计数据如下表:x34567y2.5344.56根据上表可得回归直线方程为y^=b^x-0.25,据此可以预测当x=8时,y^=()A.6.4B.6.25C.6.55D.6.45解析:由题意知x=3+4+5+6+75=5,y=2.5+3+4+4.5+65=4,将点(5,4)代入y^=b^x-0.25,解得b^=0.85,则y^=0.85x-0.25,所以当x=8时,y^=0.85×8-0.25=6.55,故选C.答案:C考点一相关关系的判断[典例](1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关(2)某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x12.314.515.017.019.820.6支出y5.635.755.825.896.116.18根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系[解析](1)由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.(2)月收入的中位数是15+172=16,收入增加,支出增加,故x与y有正线性相关关系.[答案](1)C(2)C[方法技巧]判断相关关系的2种方法散点图法如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系相关系数法利用相关系数判定,当|r|越趋近于1时,相关性越强[针对训练]1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④解析:正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.答案:D2.(2021·宁德质检)在一组数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组样本数据的相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是()A.y=-12x+1B.y=x-1C.y=x+1D.y=-x2解析:∵这组样本数据的相关系数为-1,∴这一组数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关,∴可排除B、C、D,故选A.答案:A考点二回归分析考法(一)线性回归方程[例1](2021·龙岩月考)某手机厂商在销售200万台某型号手机时开展“手机碎屏险”活动.活动规则如下:用户购买该型号手机时可选购“手机碎屏险”,保费为x元.若在购机后一年内发生碎屏可免费更换一次屏幕.该手机厂商将在这200万台该型号手机全部销售完毕一年后,在购买碎屏险且购机后一年内未发生碎屏的用户中随机抽取1000名,每名用户赠送1000元的红包.为了合理确定保费x的值,该手机厂商进行了问卷调查,统计后得到下表(其中y表示保费为x元时愿意购买该“手机碎屏险”的用户比例):x1020304050y0.790.590.380.230.01(1)根据上面的数据求出y关于x的回归直线方程;(2)通过大数据分析,在使用该型号手机的用户中,购机后一年内发生碎屏的比例为0.5%.已知更换一次该型号手机屏幕的费用为800元,若该手机厂商要求在这次活动中因销售该“手机碎屏险”产生的利润不少于70万元,能否把保费x定为5元?参考数据:表中x的5个值从左到右分别记为x1,x2,x3,x4,x5,相应的y值分别记为y1,y2,y3,y4,y5,经计算有∑5i=1(xi-x)(yi-y)=-19.2,其中x=15∑5i=1xi,y=15∑5i=1yi.[解](1)由x=30,y=0.4,∑5i=1(xi-x)(yi-y)=-19.2,∑5i=1(xi-x)2=1000,得b^=∑5i=1xi-xyi-y∑5i=1xi-x2=-0.0192,a^=y-b^x=0.976,所以y关于x的回归直线方程为y=-0.0192x+0.976.(2)能把保费x定为5元.理由如下:若保费x定为5元,则估计y=-0.0192×5+0.976=0.88,估计该手机厂商在这次活动中因销售该“手机碎屏险”产生的利润为2000000×0.88×5-2000000×0.88×0.5%×800-1000×1000=0.76×106(元)=76(万元)70(万元),所以能把保费x定为5元.考法(二)相关系数[例2]我国大力发展校园足球,为了解某地区足球特色学校的发展状况,社会调查小组得到如下统计数据:年份x20142015201620172018足球特色学校y(百个)0.300.601.001.401.70(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱;(已知:0.75≤|r|≤1,则认为y与x的线性相关性很强;0.3≤|r|<0.75,则认为y与x的线性相关性一般;|r|≤0.25,则认为y与x的线性相关性较弱)(2)求y关于x的线性回归方程,并预测该地区2021年足球特色学校的个数(精确到个).参考数据:i=15(xi-x)2=10,i=15(yi-y)2=1.3,i=15(xi-x)·(yi-y)=3.6,13≈3.6056.[解](1)由题得x=15×(2014+2015+2016+2017+2018)=2016,y=15×(0.30+0.60+1.00+1.40+1.70)=1,∴r=i=15xi-xyi-yi=15xi-x2i=15yi-y2=3.610×1.3≈3.63.6056≈0.998>0.7.∴y与x的线性相关性很强.(2)设y关于x的线性回归方程为y^=a^+b^x,则b^=i=15xi-xyi-yi=15xi-x2=3.610=0.36,a^=y-b^x=1-0.36×2016=-724.76,∴y关于x的线性回归方程是y^=0.36x-724.76.当x=2021时,y^=0.36×2021-724.76=2.8,故预测该地区2021年足球特色学校有280个.考法(三)非线性回归分析[例3]已知某地区某种昆虫产卵数和温度有关.现收集了一只该品种昆虫的产卵数y(个)和温度x(℃)的7组观测数据,其散点图如图所示:根据散点图,结合函数知识,可以发现产卵数y和温度x可用方程y=ebx+a来拟合,令z=lny,结合样本数据可知z与温度x可用线性回归方程来拟合.根据收集到的数据,计算得到如下值:xyzi=17(xi-x)2i=17(zi-z)2i=17(xi-x)(zi-z)27743.53718211.946.418表中zi=lnyi,z=17i=17zi.(1)
本文标题:第二节 变量间的相关性与统计案例 课件
链接地址:https://www.777doc.com/doc-12779573 .html