您好,欢迎访问三七文档
第一章统计案例1.2独立性检验的基本思想及其初步应用[学习目标]1.了解分类变量的意义,会列出2×2的列联表,会计算K2,并理解其意义(重点).2.了解实际推理和假设检验的基本思想(难点).3.通过典型案例分析,能进行简单的独立性检验(重点、难点).1.分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表,称为列联表.②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表分类y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)公式:K2=________________________________,其中n=a+b+c+d为样本容量.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)1.思考判断(正确的打“√”,错误的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)事件A与B的独立性检验无关,即两个事件互不影响.()(3)K2的大小是判断分类变量A与B是否相关的统计量.()答案:(1)√(2)×(3)√2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强()A.aa+b与cc+dB.ac+d与ca+bC.aa+d与cb+cD.ab+d与ca+c解析:aa+b与cc+d相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.答案:A3.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是()A.散点图B.等高条形图C.2×2列联表D.以上均不对解析:等高条形图可粗略地判断两个分类变量是否有关.答案:B4.在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是()①若K2的观测值k6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概念不超过0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故①不正确;②中对“确定容许推断犯错误概率的上界”理解错误,③正确.答案:C5.有2×2列联表:分类BB-总计A544094A-326395总计86103189由上表可计算K2的观测值k≈________.解析:k=189(54×63-32×40)294×95×86×103≈10.76.答案:10.76类型1等高条形图与2×2列联表(自主研析)[典例1]某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[自主解答]列出2×2列联表:分类性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.归纳升华1.利用等高条形图判断两个分类变量是否有关:(1)等高条形图直观粗略判定两个分类变量是否有关.(2)在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性越大.2.利用等高条形图判断两个分类变量是否相关的步骤.[变式训练]网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人进行调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人期末考试不及格.利用图形判断学生经常上网与学习成绩是否有关.解析:根据题目所给的数据得到如下2×2列联表:分类经常上网不经常上网总计不及格80120200及格120680800总计2008001000得出等高条形图如图所示.比较图中深色条的高可以发现经常上网不及格的频率明显高于经常上网及格的概率,因此可以认为经常上网与学习成绩有关.类型2独立性检验[典例2]为了考察某种中药预防流感的效果,抽样调查40人,得到如下数据:服用中药的有20人,其中患流感的有2人,而未服用中药的20人中,患流感的有8人.(1)根据以上数据建立2×2列联表;(2)能否在犯错误不超过0.05的前提下认为该药物有效?参考:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)2×2列联表如下:分类患流感未患流感总计服用中药21820未服用中药81220总计103040(2)根据列联表,计算得K2=40×(2×12-8×18)210×30×20×20=4.83.841,所以在犯错误不超过0.05的前提下认为该药物有效.归纳升华独立性检验问题的一般步骤:1.通过列联表确定a、b、c、d、n的值,根据实际问题需要的可信程度确定临界值k0;2.利用K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)求出K2的观测值k;3.如果k≥k0,就推断“两个分类变量有关系”.这种推断犯错误的概率不超过a;否则就认为在犯错误的概率不超过a的前提下不能推断“两个分类变量有关系”.[变式训练]在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?项目晕机不晕机总计男人243155女人82634总计325789解:根据列联表中的数据,要得K2的观测值为k=89×(24×26-31×8)255×34×32×57≈3.689.因为P(K2≥3.841)≈0.05,且3.689<3.841,所以不能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机.类型3独立性检验的综合应用(规范解答)[典例3](本题满分12分)某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况.采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.100.050.0100.005k02.7063.8416.6357.879审题指导:(1)由分层抽样的意义,确定样本数据,根据频率分布直方图频率分布估计概率;(2)完成2×2列联表,计算k2的观测值,进行独立性检验.[规范解答](1)300×450015000=90,所以应收集90位女生的样本数据.(2分)失分警示:此处若不理解分层抽样的含义致误,扣2分.(2)由频率分布直方图得:1-2×(0.100+0.25)=0.75.(5分)失分警示:此处若注意不到频率分布直方图纵轴的含义,导致运算错误,扣3分.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(5分)(3)由(2)知,300名学生中有300×0.75=225人的每周平均体育运动时间超过4个小时,75人的每周平均体性别运动时间男生女生总计每周平均体育运动时间不超过4个小时453075每周平均体育运动时间超过4个小时16560225总计21090300(8分)育运动时间不超过4个小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:平均体育运动时间与性别列联表结合列联表可算得K2的观测值k=300×2250275×225×210×90=10021≈4.7623.841失分警示:此处K2错误,至少扣3分.(10分)在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.(12分)归纳升华1.频率分布直方图是通过图来反映题目信息的,借助图我们可以得出组距及每个数据段上的频率.2.列联表中数据的获取应结合具体情境具体分析,如本题中时间应以“每周平均体育运动时间是否超过4个小时”为切入点分类提取.3.(1)在解答独立性检验题目中,数据有时比较多,一定不要混淆,要分辨清楚,否则会影响解题的下一步,如体例2×2列联表中数据极易混淆.(2)计算中,有时公式复杂,要记忆准确,同时计算不能失误.[类题尝试](2017·全国卷Ⅱ选编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:项目箱产量<50kg箱产量≥50kg旧养殖法新养殖法附:P(K2≥k)0.0500.0100.001k3.8416.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表:项目箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.1.独立性检验是对两个分类变量间是否有关系的一种案例分析方法,其分析方法有:等高条形图法和利用假设的思想方法,计算出来一个随机变量K2的观测值来进行判断.2.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例为aa+b,也可以估计满足条件X=x2的个体中具有Y=y2的个体所占的比例为cc+d,两个比例的值相差越大,两个分类变量相关的可能性就越大.3.独立性检验的关注点:(1)2×2列联表用于研究两类变量之间是否相互独立,表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.(2)使用K2统计量作独立性检验时,2×2列联表中的数据a,b,c,d都要大于5.(3)独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量K2应该很
本文标题:2019秋高中数学 第一章 统计案例 1.2 独立性检验的基本思想及其初步应用课件 新人教A版选修1
链接地址:https://www.777doc.com/doc-8246198 .html