您好,欢迎访问三七文档
01统计案例本章方略总结1.回归直线方程y^=a^+b^x过(x,y)点,点(x,y)又叫样本点的中心.2.样本相关系数r的计算公式为r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2=i=1nxiyi-nxyi=1nx2i-nx2i=1ny2i-ny2当r0时表明两个变量正相关,当r0时,表明两个变量负相关,r的绝对值越接近于1,表明两个变量线性相关性越强.,r的绝对值越接近于0,说明两个变量几乎不存在线性相关关系,通常在r大于0.75时,认为两个变量有很强的线性相关关系.3.相关性检验的一般步骤:(1)作统计假设.(2)求出r的值.(3)作统计推断.(4)求回归直线方程.(5)作残差分析.4.建立回归模型的一般步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察他们之间的关系(如是否存在线性关系).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系.则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数.(如最小二乘法).(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性,等等),若残差存在异常,则检查数据是否有误,或模型是否合适等.5.在独立性检验中,对K2的观测值的计算一定要正确运用公式,必须准确,计算无误.6.在实际问题中,经常会面临需要推断的问题,在作推断时,我们不能仅凭主观意愿作出结论,而是需要通过试验来收集数据,并根据独立性检验的原理作出合理的推断.7.统计方法是可能犯错误的,不管是回归分析还是独立性检验,得到的结论都可能犯错误,好的统计方法就是要尽量降低犯错误的概率,比如在推断吸烟与患肺癌是否有关时,通过收集数据,整理分析数据得出的结论是“吸烟与患肺癌有关”,而且这个结论犯错误的概率在0.01以下,实际上,这是统计思维与确定性思维差异的反应,这是数学问题,不一定在实际中得到验证.一、回归分析【例1】为了了解某地母亲身高X与女儿身高Y的相关关系,现随机抽取了10对母女测得相应的身高如下表所示:母亲身高xcm159160160163159154159158159157女儿身高ycm158159160161161155162157162156(1)画出散点图.(2)对X与Y进行回归分析.(3)预报母亲身高为170cm时女儿的身高为多少?【解析】(1)作出散点图为图1.图1(2)作回归分析:从画出的散点图中我们可以看出,X与Y具有线性关系,设回归方程为y=bx+a,可求得b=0.78,a=35.2,因此回归直线方程为y=0.78x+35.2.(3)预报x=170时,y=0.78×170+35.2≈168cm.【例2】某班一次期中考试之后,从全班同学中随机抽出5位,这5位同学的数学、物理分数见下表:学生编号12345数学分数x7075808590物理分数y7377808886先完成下面(1)~(2)的统计分析,将结果直接写在题中横线上,然后解答第(3)小题.(1)研究变量y与x的相关关系时,计算得r≈0.94,这说明y与x的相关程度是_______.(2)求得y与x的线性回归方程之后,该方程所表示的直线一定过点__________.(3)求得回归方程y=0.74x+21.6后,请估计该班本次考试数学成绩为60分的学生的物理成绩.【解析】(1)具有较强的正相关(2)(80,80.8)(3)将x=60代入方程y=0.74x+21.6,得y=66,所以,估计本次考试数学成绩为60分的学生的物理成绩为66分.二、独立性检验先假设两个分类变量无关系,再求K2的观测值k与临界值比较对照,从而确定范围及相关无关的程度.【例3】考察小麦种子经过灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:种子灭菌种子未灭菌合计黑穗病26184210无黑穗病50200250合计76384460试按照原试验目的作统计分析推断.【解析】假设种子灭菌与黑穗病没有关系,则有a=26,b=184,c=50,d=200,a+b=210,c+d=250,a+c=76,b+d=384,n=460,代入公式求得k=nad-bc2a+bc+da+cb+d=460×26×200-184×502250×210×76×384=4.804.因为k=4.8043.841,因此我们有95%的把握认为种子灭菌与小麦黑穗病有关系.【例4】为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积[60,65)[65,70)[70,75)[75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积[60,65)[65,70)[70,75)[75,80)[80,85)频数1025203015完成下面4×4列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.表3:疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aa=b=注射药物Bc=d=合计n=附:K2=nad-bc2a+bc+da+cb+dP(K2≥k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828【解析】表3:疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aa=70b=30100注射药物Bc=35d=65100合计10595n=200K2=200×70×65-35×302100×100×105×95≈24.56由于K210.828,所以99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.本章要求学生在以前学习的基础上通过对典型案例的分析和讨论,进一步了解和使用一些常见的统计方法去解决有关的回归分析和独立性检验问题.进一步体会运用统计方法解决实际问题的思想和方法,认识统计分析在决策中的重要作用,认识数据处理的过程,培养对数据的直观感觉,认识统计方法的有关特点,体会统计方法的应用的广泛性,并要注意合理建模,准确运用所学知识来解决实际问题.【例1】为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知i=110xi=225,i=110yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170【解析】由题意可知y^=4x+a^,又x-=22.5,y-=160,因此160=22.5×4+a^,∴a^=70,因此y^=4x+70.当x=24时,y^=4×24+70=96+70=166.【答案】C【例2】(2017年高考·课标全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x-=116i=116xi=9.97,s=116i=116xi-x-2=116i=116x2i-16x-2≈0.212,i=116i-8.52≈18.439,i=116(xi-x-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x--3s,x-+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(x--3s,x-+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,…,n)的相关系数r=i=1nxi-x-yi-y-i=1nxi-x-2i=1nyi-y-2.0.008≈0.09.【解析】(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=i=116xi-x-i-8.5i=116xi-x-2i=116i-8.52=-2.780.212×16×18.439≈-0.18.由于|r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于x-=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02,i=116x2i=16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为115(1591.134-9.222-15×10.02)2≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.【例3】(2018年高考·课标全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图2所示的茎叶图:图2(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.0500.0100.001k3.8416.63510.828【解析】(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟;用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟,因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟;用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟,因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由
本文标题:2019-2020学年高中数学 第1章 统计案例本章方略总结课件 新人教A版选修1-2
链接地址:https://www.777doc.com/doc-8291945 .html