您好,欢迎访问三七文档
【一轮复习讲义】2024年高考数学高频考点题型归纳与方法总结(新高考通用)第49讲成对数据的统计分析(精讲)题型目录一览①相关关系的判断②线性回归方程③非线性回归方程④残差和相关指数的问题⑤独立性检验一、变量间的相关关系1.变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2.散点图将样本中的n个数据点(,)(1,2,,)iixyin描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.一、知识点梳理3.相关系数若相应于变量x的取值ix,变量y的观测值为(1)iyin,则变量x与y的相关系数112222221111()()()()nniiiiiinnnniiiiiiiixxyyxynxyrxxyyxnxyny,通常用r来衡量x与y之间的线性关系的强弱,r的范围为11r.(1)当0r时,表示两个变量正相关;当0r时,表示两个变量负相关.(2)r越接近1,表示两个变量的线性相关性越强;r越接近0,表示两个变量间几乎不存在线性相关关系.当||1r时,所有数据点都在一条直线上.(3)通常当0.75r时,认为两个变量具有很强的线性相关关系.二、线性回归1.线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程ybxa的求法为1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx其中,11niixxn,11niiyyn,(x,y)称为样本点的中心.2.残差分析对于预报变量y,通过观测得到的数据称为观测值iy,通过回归方程得到的y称为预测值,观测值减去预测值等于残差,ˆie称为相应于点(,)iixy的残差,即有ˆieˆiiyy.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点ˆ,iixe比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和21ˆ()niiiQyy分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:22121ˆ()1()niiiniiyyRyy.2R越接近于1,说明残差的平方和越小,也表示回归的效果越好.三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1.建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.四、独立性检验1.分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为1y2y总计1xabab2xcdcd总计acbdabcd从22列表中,依据aab与ccd的值可直观得出结论:两个变量是否有关系.2.等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现aab与ccd相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义:利用独立性假设、随机变量2K来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.(2)公式:22()()()()()nadbcKabcdacbd,其中nabcd为样本容量.(3)独立性检验的具体步骤如下:①计算随机变量2K的观测值k,查下表确定临界值0k:20pKk0.50.400.250.150.100.050.0250.0100.0050.0010k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828②如果0kk,就推断“X与Y有关系”,这种推断犯错误的概率不超过20pKk;否则,就认为在犯错误的概率不超过20pKk的前提下不能推断“X与Y有关系”.【常用结论】常见的非线性回归模型(1)指数函数型xyca(0a且1a,0c)两边取自然对数,lnlnxyca,即lnlnlnycxa,令lnyyxx,原方程变为lnlnycxa,然后按线性回归模型求出lna,lnc.(2)对数函数型lnybxa令lnyyxx,原方程变为ybxa,然后按线性回归模型求出b,a.(3)幂函数型nyax两边取常用对数,lglgnyax,即lglglgynxa,令lglgyyxx,原方程变为lgynxa,然后按线性回归模型求出n,lga.(4)二次函数型2ybxa令2yyxx,原方程变为ybxa,然后按线性回归模型求出b,a.(5)反比例函数型byax型令1yyxx,原方程变为ybxa,然后按线性回归模型求出b,a.题型一相关关系的判断策略方法判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b^0时,正相关;b^0时,负相关.【典例1】(多选题)对小明在连续9次高考模拟数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.他的同桌小刚根据散点图对他的数学成绩的分析中,正确的有().二、题型分类精讲A.小明的数学成绩总的趋势是在逐步提高B.小明在这连续9次测试中的最高分与最低分的差超过40分C.小明的数学成绩与测试序号具有线性相关性,且为负相关D.小明的数学成绩与测试序号具有线性相关性,且为正相关【典例2】(多选题)在下列所示的四个图中,每个图的两个变量间具有相关关系的是().A.B.C.D.【题型训练】一、单选题1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系2.某生物兴趣小组为研究一种红铃虫的产卵数y与温度x(单位:℃)的关系.现收集了7组观测数据,1,2,,7iixyiL得到下面的散点图:由此散点图,在20℃至36℃之间,下面四个回归方程类型中最适宜作为红铃虫产卵数y和温度x的回归方程类型的是()A.yabxB.byaxC.exyabD.lnyabx3.根据身高和体重散点图,下列说法正确的是()A.身高越高,体重越重B.身高越高,体重越轻C.身高与体重成正相关D.身高与体重成负相关4.在如图所示的散点图中,若去掉点P,则下列说法正确的是()A.样本相关系数r变大B.变量x与变量y的相关程度变弱C.变量x与变量y呈正相关D.变量x与变量y的相关程度变强5.变量X与Y相对应的一组数据为10,1,11.3,2,11.8,3,12.5,4,13,5;变量U与V相对应的一组数据为10,5,11.3,4,11.8,3,12.5,2,13,1.1r表示变量Y与X之间的线性相关系数,2r表示变量V与U之间的线性相关系数,则().A.210rrB.210rrC.210rrD.21rr6.在研究急刹车的停车距离问题时,通常假定停车距离等于反应距离(1d,单位:m)与制动距离(2d,单位:m)之和.如图为某实验所测得的数据,其中“KPH”表示刹车时汽车的初速度v(单位:km/h).根据实验数据可以推测,下面四组函数中最适合描述1d,2d与v的函数关系的是()A.1dv,2dvB.1dv,22dvC.1dv,2dvD.1dv,22dv题型二线性回归方程策略方法求线性回归方程的一般步骤【典例1】某工厂生产某种产品的月产量(单位:千件)与单位成本(单位:元/件)的数据如下:月份产量x/千件单位成本y/(元/件)127323723471437354696568(1)计算产量与单位成本的相关系数;(2)建立产量与单位成本的回归方程;(3)若该工厂计划7月份生产7千件该产品,则单位成本预计是多少?【题型训练】一、单选题1.对四组数据进行统计,获得如下散点图,将四组数据相应的相关系数进行比较,正确的是()A.2431rrrrB.4231rrrrC.4213rrrrD.2413rrrr2.变量x,y之间有如下对应数据:x44.55.56y121110m已知变量y对x呈线性相关关系,且回归方程为ˆ1.417.5yx,则m的值是()A.10B.9C.8D.73.某公司一种型号的产品近期销售情况如表:月份x23456销售额y(万元)15.116.317.017.218.4根据上表可得到回归直线方程ˆ0.75yxa,据此估计,该公司7月份这种型号产品的销售额为()A.18.85万元B.19.3万元C.19.25万元D.19.05万元4.已知某生产商5个月的设备销售数据如下表所示:时间代码x12345销售台数y(单位:百台)5781416.5生产商发现时间代码和销售台数有很强的相关性,决定用回归方程ˆˆˆyabx进行模拟,则ˆb的值是()参考数据、公式:5150.5iiy;51181.5iiixy;若ˆˆˆyabx,则1221121ˆnniinniiiiiiiixxyyxxxxynxybxnA.3.2B.3.1C.3D.2.95.某社区
本文标题:第49讲 成对数据的统计分析(精讲)【一轮复习讲义】2024年高考数学高频考点题型归纳与方法总结(新
链接地址:https://www.777doc.com/doc-12821390 .html