您好,欢迎访问三七文档
当前位置:首页 > 中学教育 > 高中教育 > 第27讲 统计案例和回归方程(原卷版)
第27讲统计案例和回归方程【知识点总结】一、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa的求法为()()()1122211nniiiiiinniiiixxyyxynxybxxxnxaybx其中,11niixxn,11niiyyn,(x,y)称为样本点的中心。步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变量的回归直线,直线斜率k0,称两个变量正相关;k0,称两个变量负相关。二、独立性独立性检验是判断两个分类变量是否存在相关关系的案例分析方法。步骤为列出22列联表(如表13-8所示),求出()()()()()22nadbcKabcdacbd,并判断:A1A2合计B1aca+cB2bdb+d合计a+bc+dn=a+b+c+d若K210.828,有99.9%把握称“A取A1或A2”对“B取B1,B2”有关系;若10.828K26.635,有99%把握称“A取A1或A2”对“B取B1,B2”有关系;若6.635K23.841,有95%把握称“A取A1或A2”对“B取B1,B2”有关系;若K23.841,没有把握称A与B相关。【典型例题】例1.(2022·全国·高三专题练习(文))在对两个变量x,y进行回归分析时有下列步骤:①对所求出的回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是()A.①②④③B.③②④①C.②③①④D.②④③①例2.(2022·全国·高三专题练习)对于数据组,1,2,3,...,iixyin,如果由线性回归方程得到的对应于自变量ix的估计值是iy,那么将iiyy称为相应于点,nixy的残差.某工厂为研究某种产品产量x(吨)与所需某种原材料y吨)的相关性,在生产过程中收集4组对应数据,xy如下表所示:x3456y2.534m根据表中数据,得出y关于x的线性回归方程为0.7yxa,据此计算出样本点处的残差为-0.15,则表中m的值为()A.3.3B.4.5C.5D.5.5例3.(2022·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x(xN,且09x≤≤)表示是否下雨:当0,xkkZ时表示该地区下雨,当1,9xk时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:332714740945593468491272073445992772951431169332435027898719(1)求出k的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:时间2016年2017年2018年2019年2020年年份t12345降雨量y2827252322经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量y与年份t具有线性相关关系,求回归直线方程ybta.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:1122211nniiiiiinniiiittyytyntybtttnt,aybt$$.例4.(2022·全国·高三专题练习(理))某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:x12345678y1126144.53530.5282524根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型byax和指数函数模型edxyc分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为0.296.54eˆ,lnxyy与x的相关系数10.94r.(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本.参考数据:81iiiuyu2u821iiu81iiy821iiy0.616185.52e183.40.340.1151.5336022385.561.40.135参考公式:对于一组数据1122,,,,,,nnuvuvuv,其回归直线ˆˆˆvu的斜率和截距的最小一乘估计分别为:1221ˆniiiniiuvnuvunu,ˆˆvu,相关系数1222211niiinniiiiuvnuvrunuvnv例5.(2022·全国·高三专题练习)如图是某小区2020年1月至2021年1月当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2020年1月~2021年1月).根据散点图选择yabx和lnycdx两个模型进行拟合,经过数据处理得到两个回归方程分别为0.93690.0285yx和0.95540.0306lnyx,并得到以下一些统计量的值:0.93690.0285yx0.95540.0306lnyx残差平方和1321iiiyy0.0005910.000164总偏差平方和1321iiyy0.006050(1)请利用相关指数2R判断哪个模型的拟合效果更好;(2)估计该小区2021年6月份的二手房均价.(精确到0.001万元/平方米)参考数据:ln20.69,ln31.10,ln172.83,ln192.94,21.41,31.73,174.12,194.36.参考公式:相关指数221211niiiniiyyRyy.例6.(2022·全国·高三专题练习)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用yabx或dycx建立y关于x的回归方程,令sx,1tx得到如下数据:xyst10.15109.943.040.16113niiisysy13113iiityty1322113ikss1322113iitt1322113iiyy13.94-2.111.670.2121.22且(is,iy)与(it,iy)(i=1,2,3,…,13)的相关系数分别为1r,2r,且2r=﹣0.9953.(1)用相关系数说明哪种模型建立y与x的回归方程更合适;(2)根据(1)的结果及表中数据,建立y关于x的回归方程;(3)已知蕲艾的利润z与x、y的关系为1202zyx,当x为何值时,z的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.6374=15.7365,对于一组数据(iu,iv)(i=1,2,3,…,n),其回归直线方程vu的斜率和截距的最小二乘法估计分别为1221niiiniiuvnuvunu,vu,相关系数1222211niiinniiiiuvnuvrunuvnv.例7.(2022·河北张家口·高三期末)已知某区A、B两所初级中学的初一年级在校学生人数之比为9:11,该区教育局为了解双减政策的落实情况,用分层抽样的方法在A、B两校初一年级在校学生中共抽取了100名学生,调查了他们课下做作业的时间,并根据调查结果绘制了如下频率分布直方图:(1)在抽取的100名学生中,A、B两所学校各抽取的人数是多少?(2)该区教育局想了解学生做作业时间的平均时长(同一组中的数据用该组区间的中点值作代表)和做作业时长超过3小时的学生比例,请根据频率分布直方图,估计这两个数值;(3)另据调查,这100人中做作业时间超过3小时的人中的20人来自A中学,根据已知条件填写下面列联表,并根据列联表判断是否有99%的把握认为“做作业时间超过3小时”与“学校”有关?做作业时间超过3小时做作业时间不超过3小时合计A校B校合计附表:2pKk0.100.050.0250.0100.001k2.7063.8415.0246.63510.828附:22nadbcKabcdacbd.【技能提升训练】一、单选题1.(2022·全国·高三专题练习)某工厂的每月各项开支x与毛利润y(单位:万元)之间有如下关系,y与x的线性回归方程6.5yxa,则a()x24568y3040605070A.17.5B.17C.15D.15.52.(2021·重庆南开中学高三阶段练习)对两个变量y和x进行回归分析,得到一组样本数据:11(,)xy,22(,)xy,…,(,)nnxy,则下列说法中不正确的是()A.由样本数据得到的回归方程ybxa必过样本中心,xyB.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系3.(2021·黑龙江·漠河市高级中学高三阶段练习(文))某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作量与当天平均气温,并制作了对照表:气温(℃)181310-1用电量(度)24343864由表中数据得到线性回归方程2yxa,当气温为4℃时,预测用电量均为A.68度B.52度C.12度D.28度4.(2022·全国·高三专题练习)关于线性回归的描述,有下列命题:①回归直线一定经过样本中心点;②相关系数r的绝对值越大,拟合效果越好;③相关指数2R越接近1拟合效果越好;④残差平方和越小,拟合效果越好.其中正确的命题个数为()A.1B.2C.3D.45.(2022·全国·高三专题练习)下列表述中,正确的个数是()①将一组数据中的每一个数据都加上同一个常数后,方差不变;②设有一个回归方程35yx,变量x增加1个单位时,y平均增加5个单位;③设具有相关关系的两个变量x,y的相关系数为r,那么r越接近于0,x,y之间的线性相关程度越高;④在一个22列联表中,根据表中数据计算得到2K的观测值k,若k的值越大,则认为两个变量间有关的把握就越大.A.0B.1C.2D.36.(2022·全国·高三专题练习(文))对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.0.2B.0.8C.-0.98D.-0.77.(2022·全国·高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()A.24310rrrrB.42130rrrrC.42310rrrrD.24130rrrr8.(2022·全国·高三专题练习(理))如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说法错误的是()A.解释变量和预报变量是一次函数关系B.相关系数1rC.相关指数21RD.残差平方和为09.(2022·全国·高三专
本文标题:第27讲 统计案例和回归方程(原卷版)
链接地址:https://www.777doc.com/doc-12797073 .html