您好,欢迎访问三七文档
独立性检验的基本思想及其初步应用预习课本P10~15,思考并完成以下问题1.分类变量与列联表分别是如何定义的?2.独立性检验的基本思想是怎样的?3.独立性检验的常用方法有哪些?[新知初探]1.与列联表相关的概念(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量.(2)列联表:①列出的两个分类变量的频数表,称为列联表.②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.2.等高条形图等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列表数据的频率特征.3.独立性检验的基本思想(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.[小试身手]1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.()(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中K2取值则可通过统计表从数据上说明两分类变量的相关性的大小.()(3)独立性检验的方法就是反证法.()答案:(1)×(2)√(3)×2.与表格相比,能更直观地反映出相关数据总体状况的是()A.列联表B.散点图C.残差图D.等高条形图答案:D3.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足()附表:P(K2≥k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828A.k>6.635B.k>5.024C.k>7.879D.k>3.841答案:A4.下面是一个2×2列联表:y1y2总计x1a2173x222527总计b46100则表中a,b的值分别为________.答案:52,54等高条形图的应用[典例]为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?[解]等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.两个比例的值相差越大,X与Y有关系成立的可能性就越大.[活学活用]某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.两个变量的独立性检验[典例]为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?[解]根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算得随机变量K2的观测值k=361×138×52-73×982211×150×236×125≈1.871×10-4.因为1.871×10-42.706,所以在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.独立性检验的步骤(1)确定分类变量,获取样本频数,得到列联表.(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(3)利用公式K2=nad-bc2a+bc+da+cb+d计算随机变量K2的观测值k0.(4)作出判断.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[活学活用]在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2的列联表;并估计,以运动为主的休闲方式的人的比例;(2)能否在犯错误的概率不超过0.025的前提下,认为性别与休闲方式有关系?附表:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828K2=n()ad-bc2()a+b()c+d()a+c()b+d.解:(1)由所给的数据得到列联表休闲方式性别看电视运动总计女432770男213354总计6460124所以以运动为主要的休闲方式的人的比例为15∶31.(2)根据列联表中的数据计算得随机变量K2的观测值,k=124×43×33-27×21270×54×64×60≈6.201,因为k5.024,所以在犯错误的概率不超过0.025的前提下认为休闲方式与性别有关.独立性检验的综合应用[典例]某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如图.记成绩不低于90分者为“成绩优秀”.(1)在乙班样本的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据作出列联表,并判断能否在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.[解](1)由题意知本题是一个等可能事件的概率,试验发生包含的事件是从不低于86分的成绩中随机抽取两个包含的基本事件是:(86,93),(86,96),(86,97),(86,99),(86,99),(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共有15种结果,符合条件的事件数(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共有10种结果,根据等可能事件的概率得到P=1015=23.(2)由已知数据得甲班乙班总计成绩优秀156成绩不优秀191534总计202040根据列联表中的数据,计算得随机变量K2的观测值k=40×1×15-5×1926×34×20×20≈3.137,由于3.1372.706,所以在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.(1)独立性检验问题是常与统计、概率相结合,解题时一定要认真审题,找出各数据的联系.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.[活学活用]某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A模式,少数学生参与的为B模式,多数学生参与的为C模式,A,B,C三类课的节数比例为3∶2∶1.(1)为便于研究分析,教育专家将A模式称为传统课堂模式,B,C统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)高效非高效总计新课堂模式603090传统课堂模式405090总计10080180请根据统计数据回答:有没有99%的把握认为课堂教学效率与教学模式有关?并说明理由.(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B模式和C模式课堂中随机抽取2节课,求至少有一节课为C模式课堂的概率.参考临界值有:P(K2≥k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.解:(1)由列联表中的统计数据计算随机变量K2的观测值为:∵k=180×60×50-40×302100×80×90×90=96.635,由临界值表P(K2≥6.635)≈0.010,∴有99%的把握认为课堂效率与教学模式有关.(2)样本中的B模式课堂和C模式课堂分别是4节和2节.从中任取两节有C26=15种取法,其中至少有一节课为C模式课堂取法有C26-C24=9种,∴至少有一节课为C模式课堂的概率为915=35.层级一学业水平达标1.以下关于独立性检验的说法中,错误的是()A.独立性检验依赖于小概率原理B.独立性检验得到的结论一定准确C.样本不同,独立性检验的结论可能有差异D.独立性检验不是判断两事物是否相关的唯一方法解析:选B根据独立性检验的原理可知得到的结论是错误的情况是小概率事件,但并不一定是准确的.2.观察下列各图,其中两个分类变量之间关系最强的是()解析:选D在四幅图中,D图中两个阴影条的高相差最明显,说明两个分类变量之间关系最强,故选D.3.在列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大()A.aa+b与dc+dB.ca+b与ac+dC.aa+b与cc+dD.aa+b与cb+c解析:选C由等高条形图可知aa+b与cc+d的值相差越大,|ad-bc|就越大,相关性就越强.4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选BK2的观测值k越大,“X与Y有关系”的可信程度越大.因此,A、C、D都不正确.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的解析:选B由K2=407×32×213-61×101293×314×133×274≈0.164<2.706,即没有把握认为是否经过处理跟是否生病有关.6.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有
本文标题:2017-2018学年高中数学人教A版选修1-2:第一章 1.2 独立性检验的基本思想及其初步应用
链接地址:https://www.777doc.com/doc-7542000 .html