您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 12独立性检验的基本思想及其初步应用学案(人教A版选修1-2)
1.2独立性检验的基本思想及其初步应用课标解读1.了解独立性检验的基本思想、方法及其简单应用.(重点)2.通过收集数据,并依据独立性检验的原理作出合理推断,培养学生良好的思维习惯.(难点)分类变量与列联表【问题导思】吸烟变量有几种类别?国籍变量呢?【提示】吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别,如中国、美国、法国…….1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表(1)定义:列出的两个分类变量的频数表,称为列联表.(2)2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d等高条形图【问题导思】表格和图形哪一个更能直观地反映出两个分类变量间是否相互影响?【提示】图形.(1)定义:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.(2)特征:等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(3)用法:观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.用2×2列联表分析两变量间的关系在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.【思路探究】对变量进行分类→求出分类变量的不同取值→作出2×2列联表→计算aa+b与cc+d的值作出判断【自主解答】2×2列联表如下:年龄在六十岁以上年龄在六十岁以下总计饮食以蔬菜为主432164饮食以肉类为主273360总计7054124将表中数据代入公式得aa+b=4364=0.671875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.2.作2×2列联表时,关键是对涉及的变量分清类别.题中条件不变,尝试用|ad-bc|的大小判断饮食习惯与年龄是否有关.【解】将本例2×2列联表中的数据代入可得|ad-bc|=|43×33-21×27|=852.相差较大,可在某种程度上认为饮食习惯与年龄有关系.用等高条形图分析两变量间的关系某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【思路探究】作出2×2列联表―→根据列联表数据作等高条形图―→对比乘积的差距判断两个分类变量是否有关【自主解答】作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.1.利用列联表中数据计算出各类变量取值对应频率,作出等宽度且高度均为1的等高条形图.2.利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,使对结论的判断不出现偏差.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响.【解】根据题目所给数据得如下2×2列联表:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500相应的等高条形图如图所示.图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.独立性检验下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.【思路探究】求出k2的值―→与临界值作比较―→作出判断.【自主解答】(1)假设H0:传染病与饮用水无关.把表中数据代入公式得:K2的观测值k=830×52×218-466×942146×684×518×312≈54.21.在H0成立的情况下,P(K210.828)≈0.001,是小概率事件,所以拒绝H0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:得病不得病总计干净水55055不干净水92231总计147286此时,K2的观测值k=86×5×22-50×9214×72×55×31≈5.785.因为5.7855.024,P(K25.024)≈0.025,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.解决一般的独立性检验问题的步骤:(1)通过列联表确定a、b、c、d、n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用K2=nad-bc2a+bc+da+cb+d求出K2的观测值k;(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.某社区医疗服务部门为了考察人的高血压病是否与食盐摄入量有关,对该社区的1633人进行了跟踪测查,得出以下数据:患高血压未患高血压合计喜欢较咸食物34220254喜欢清淡食物2613531379合计6015731633问能否判断在犯错误的概率不超过0.001的前提下,认为患高血压与食盐摄入量有关?【解】提出假设H0:该社区患有高血压病与食盐的摄入量无关.由公式计算K2的观测值为k=1633×34×1353-220×26260×1573×254×1379≈80.155.因为80.155>10.828,因此在犯错误的概率不超过0.001的前提下,我们认为该社区患有高血压病与食盐的摄入量有关.因未理解P(K2≥k0)的含义而致误某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?【错解】由题目数据列出如下列联表:多动症无多动症总计男生9882180女生25052总计100132232k=232×98×50-2×822100×132×180×52≈42.11710.828.所以有0.1%的把握认为多动症与性别有关系.【错因分析】应该是有(1-P(K2≥10.828))×100%=(1-0.001)×100%的把握,而不是P(K2≥10.828)×100%=0.001×100%的把握.【防范措施】本题的错误之处在于不能正确理解独立性检验步骤的含义,当计算的K2的观测值k大于临界值k0时,就可推断在犯错误的概率不超过α的前提下说两分类变量有关系.这一点需牢记,才能避免类似错误.【正解】由题目数据列出如下列联表:多动症无多动症总计男生9882180女生25052总计100132232由表中数据可得到:k=232×98×50-2×822100×132×180×52≈42.11710.828.所以有99.9%的把握认为多动症与性别有关系.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是()A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有【解析】独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.【答案】D2.(2013·威海高二检测)分类变量X和Y的列联表如下,则()y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dA.ad-bc越小,说明X与Y的关系越弱B.ad-bc越大,说明X与Y的关系越强C.(ad-bc)2越大,说明X与Y的关系越强D.(ad-bc)2越接近于0,说明X与Y的关系越强【解析】由K2的计算公式可知,(ad-bc)2越大,则K2越大,故相关关系越强.【答案】C3.观察下列各图,其中两个分类变量x、y之间关系最强的是()【解析】在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.【答案】D4.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:患慢性气管炎未患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339【解】从题目的2×2列联表中可知:a=43,b=162,c=13,d=121,a+b=205,c+d=134,a+c=56,b+d=283,n=a+b+c+d=339,代入公式:K2=nad-bc2a+bc+da+cb+d,得k=339×43×121-162×132205×134×56×283≈7.469.因为7.4696.635,所以我们有99%的把握认为50岁以上的人患慢性气管炎与吸烟习惯有关系.一、选择题1.有两个分类变量X与Y的一组数据,由其列联表计算得k≈4.523,则认为“X与Y有关系”犯错误的概率为()A.95%B.90%C.5%D.10%【解析】P(K2≥3.841)≈0.05,而k≈4.5233.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.【答案】C2.(2013·大连高二检测)在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率【解析】判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.【答案】C3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关
本文标题:12独立性检验的基本思想及其初步应用学案(人教A版选修1-2)
链接地址:https://www.777doc.com/doc-3060007 .html