您好,欢迎访问三七文档
第三节变量间的相关关系与统计案例教材细梳理知识点1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种____________关系.(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为____________,点散布在左上角到右下角的区域内,两个变量的相关关系称为____________.非确定性正相关负相关知识点2两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有________________________,这条直线叫做回归直线.(2)回归直线方程①最小二乘法:通过求Q=i=1n(yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做____________.线性相关关系最小二乘法②回归方程:方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.a^=y-b^x,b^=i=1nxi-xyi-yi=1nxi-x2,其中x=1ni=1nxi,y=1ni=1nyi,(x,y)称为样本点的中心.(3)相关系数r①r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2;②当r>0时,表明两个变量____________;当r<0时,表明两个变量____________.正相关负相关r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.当r的绝对值大于0.75时,认为两个变量有很强的线性相关关系.知识点3独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d可构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中____________________为样本容量.n=a+b+c+d(3)独立性检验利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断标准:统计学研究表明:当K2≤3.841时,认为X与Y无关;当____________时,有95%的把握说X与Y有关;当____________时,有99%的把握说X与Y有关;当____________时,有99.9%的把握说X与Y有关.K2>3.841K2>6.635K2>10.828[拓展]1.线性回归直线的斜率为正(负)时,两个变量正(负)相关.2.线性回归直线一定经过样本点的中点.(x,y)3.独立性检验的结论随机变量K2的观测值k,查表确定临界值k0:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.四基精演练1.思考辨析(在括号内打“√”或“×”)(1)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系来表示.()(2)通过回归方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.()(3)任何一组数据都对应着一个回归直线方程.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()√√×√2.(知识点1)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()⇐源自必修三P90例题A.y^=-10x+200B.y^=10x+200C.y^=-10x-200D.y^=10x-200A3.(知识点2)为了研究某班学生的脚长x(单位:cm)与身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据得回归方程为y^=4x+70,该班某学生的脚长为24,据此估计其身高为()⇐源自必修三P94A组T2A.160B.163C.166D.170C4.(知识点3)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:⇐源自选修2-3P97A组T1理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案:5%5.(知识点2)有一个同学开了一家小卖部,他为了研究气温对热饮销量的影响,经过统计计算,得到卖出的热饮杯数依当天气温(℃)变化的回归直线方程为y^=146-3x,下列判断正确的是________(填序号)⇐源自必修三P90例题(1)当天气温为26℃时,卖出的热饮杯数为68.(2)当天气温升高1℃时,卖出的热饮杯数约减少3杯.(3)当天气温升高1℃时,卖出的热饮杯数约增加3杯.(4)当天气温为28℃时,卖出的热饮杯数约为62.答案:(2)(4)考点一相关关系的判断[基础练通]1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C解析:选C.因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=b^y+a^,b^>0,则z=b^y+a^=-0.1b^x+b^+a^,故x与z负相关.2.对变量x,y有观测数据(xi,yi)(i=1,2,3,4,5),得表1;对变量u,v有观测数据(ui,vi)(i=1,2,3,4,5),得表2.由这两个表可以判断()表1:x12345y2.93.33.64.45.1表2:u12345v2520211513DA.变量x与y正相关,u与v正相关B.变量x与y负相关,u与v正相关C.变量x与y负相关,u与v负相关D.变量x与y正相关,u与v负相关解析:选D.由题意可知,随着x的增大,对应的y值增大,其散点图呈上升趋势,故x与y正相关;随着u的增大,v减小,其散点图呈下降趋势,故u与v负相关.3.下列语句表示的事件中的因素具有相关关系的是________(填序号)(1)瑞雪兆丰年.(2)名师出高徒.(3)喜鹊叫喜,乌鸦叫丧.(4)头发长见识短.(5)树老根多,人老识多.解析:瑞雪对小麦有好处,可能使得小麦丰收,所以瑞雪兆丰年具有相关关系.名师出高徒,树老根多,人老识多也具有相关关系,而喜鹊叫喜,乌鸦叫丧,头发长度与见识短则没有必然的关系,所以不具有相关关系.答案:(1)(2)(5)判断相关关系的两种方法1.散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2.相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.考点二线性回归分析[多维贯通]命题点1线性回归方程的拟合分析[例1](2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.命题点2非线性关系的拟合分析[例2]某地级市共有200000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元.经济学家调查发现,当地人均可支配收入较上一年增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式y=C1·2C2x,其中C1,C2为常数.(2013年至2019年该市中学生人数大致保持不变)yki=15(ki-k)2i=15(yi-y)2i=15(xi-x)(yi-y)i=15(xi-x)·(ki-k)2.31.23.14.621其中ki=log2yi,k=15i=15ki.(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程v^=β^u+α^的斜率和截距的最小二乘估计分别为β^=i=1nui-uvi-vi=1nui-u2,α^=v-β^u.②2-0.72-0.320.121.721.821.90.60.81.13.23.53.73解:(1)因为x=15×(13+14+15+16+17)=15,所以i=15(xi-x)2=(-2)2+(-1)2+02+12+22=10.由k=log2y得k=log2C1+C2x,所以C2=i=15xi-xki-ki=15xi-x2=110,log2C1=k-C2x=1.2-110×15=-0.3,所以C1=2-0.3=0.8,所以y=0.8×2x10.当x=18时,y=0.8×21.8=0.8×3.5=2.8(万元).即该市2018年人均可支配收入为2.8万元.(
本文标题:2020高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例课件理新人教A版
链接地址:https://www.777doc.com/doc-4354405 .html