您好,欢迎访问三七文档
1.2独立性检验的基本思想及其初步应用我们经常听到这些说法:吸烟对患肺癌有影响;数学好的人物理一般也很好;性别与是否喜欢数学课程之间有关系;人的血型会决定人的性格;星座与人的命运之间有某种联系;这些说法都有道理吗?1.理解独立性检验的基本思想.(重点)2.会从列联表、等高条形图直观判断吸烟与患肺癌有关.(难点)3.了解随机变量K2的含义,理解独立性检验的基本思想及实施步骤.(难点)探究点1独立性检验的基本思想对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,这样的变量称为.分类变量在现实生活中是大量存在的,如是否吸烟、是否患肺癌、宗教信仰、国别、年龄、出生月份等.分类变量吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)在吸烟者中患肺癌的比重是_______.说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.0.54%2.28%在不吸烟者中患肺癌的比重是_______,通过图形直观判断两个分类变量是否相关:0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌患肺癌比例不患肺癌比例等高条形图通过数据和图形分析,得到结论是:吸烟与患肺癌有关,那么这种判断是否可靠呢?我们可以通过统计分析回答这个问题.假设H0:吸烟与患肺癌之间没有关系,吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d如果“吸烟与患肺癌没有关系”,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多.所以ac,a+bc+d所以ac+dca+b,adbc0.adbc即22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)引入一个随机变量它是检验在多大程度上可以认为“两个变量有关系”的标准.︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱,︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.其中n=a+b+c+d为样本容量.吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965通过公式计算22K9965(777549422099)k56.632.78172148987491上面探究中,的观测值为已知在成立的情况下,0H2(6.635)0.010PK即在成立的情况下,K2的观测值大于6.635的概率非常小,近似为0.010,是一个小概率事件.0H思考:这个值到底告诉我们什么呢?现在K2的观测值k≈56.632,远远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.独立性检验的定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.独立性检验的一般步骤(1)假设两个分类变量X与Y没有关系;(2)计算出K2的观测值k;(3)把k的值与临界值比较确定X与Y有关的程度或无关系.设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d22()()()()nadbcKabcdacbd()如P(k010.828)=0.001表示在犯错误的概率不超过0.001的前提下,认为“X与Y有关系”.如P(k06.635)=0.01表示在犯错误的概率不超过0.01的前提下,认为“X与Y有关系”.临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.82820()PKk0k独立性检验的基本思想类似反证法(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下随机变量K2应该很小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,如由实际计算出的k10.828.说明假设不合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.在一次独立性相关检验中,若能在犯错误的概率不超过0.005的前提下认为两个分类变量X与Y有关系,则k的取值范围是()A.[5.024,6.635)B.[6.635,7.879)C.[7.879,10.828)D.[7.879,+)D【即时训练】探究点2独立性检验的初步应用例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶.而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.利用图形判断秃顶与患心脏病是否有关系.能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关系?解:根据题目所给数据得到如下列联表:患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437相应的等高条形图如下所示,秃顶不秃顶不患心脏病患心脏病21437(214597175451)16.3736.635.3891048665772k因此,在犯错误的概率不超过0.010的前提下,认为秃顶与患心脏病有关系.根据列联表中的数据,得到y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d思考:考察下表,定义.dccbaaW根据独立性检验原理,如何用W构造一个判断X和Y是否有关系的规则,使得在该规则下把“X和Y没有关系”错判成“X和Y有关系”的概率不超过0.010?由W的定义可以发现:它越大,越有利于结论“X和Y有关系”;它越小,越有利于结论“X和Y没有关系”.因此可以建立如下的判断规则:当W的观测值ω≥ω0时,就判断“X和Y有关系”;否则,判断“X和Y没有关系”.这里ω0为正实数,满足如下条件:在“X和Y没有关系”的前提下,0()0.010.PW思考:若在“X和Y没有关系”的情况下有,010.0)(02kKP可以通过来确定吗?00k事实上,22()(),()()nabcdKWacbd其中.nabcd200()(),()()因此,等价于即可取acbdKkWknabcd.))(())((00dcbandbcak例1在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.利用图形判断秃顶与患心脏病是否有关系.能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?【解题关键】由题意列出2×2列联表,利用公式求得K2后与临界值比较,得出结论后要注意这组数据是来自于住院的病人,而不是随机对全体人群采样.【解析】由题意列出2×2列联表如下:由公式得K2≈16.373.K26.635.所以有99.9%的把握认为“秃顶与患心脏病有关”.患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计665772143722()()()()()nadbcKabcdacbd有甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下列联表:优秀不优秀总计甲班103545乙班73845总计177390能否在犯错误的概率不超过0.01的前提下认为成绩与班级有关?【变式练习】【解析】假设H0:成绩与班级无关.根据列联表中的数据得:290(1038357)17734545k0.6536.635因此不能在犯错误的概率不超过0.01的前提下认为成绩与班级有关.1.下列说法中正确的是()①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断;③独立性检验一定能给出明确的结论.A.①②B.①③C.②③D.①②③A2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强()acacABabcdcdabacacCDadbcbdac.与.与.与.与A3.如果在犯错误的概率不超过0.05的前提下认为事件A和B有关,那么具体算出的数据满足()A.K23.841B.K23.841C.K26.635D.K26.635A4.下列变量中不属于分类变量的是()A.性别B.吸烟C.宗教信仰D.国籍B5.有两个分类变量X与Y的一组数据,由其列联表计算得K2≈4.523,则认为X与Y有关系是错误的可信度为()A.95%B.90%C.5%D.10%C6.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2的列联表.(2)判断休闲方式与性别是否有关系.解:(1)2×2列联表如下:性别看电视运动总计女432770男213354总计6460124休闲方式(2)假设“休闲方式与性别无关”计算K2=124×43×33-27×21270×54×64×60≈6.201.因为K2≥5.024,所以有理由认为假设“休闲方式与性别无关”是不合理的.故在犯错误的概率不超过0.025的前提下,认为性别与休闲方式有关系.分类变量之间关系条形图柱形图列联表独立性检验背景分析有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的。——笛卡儿
本文标题:高中数学人教版选修12同课异构教学课件12独立性检验的基本思想及其初步应用情境互动课型
链接地址:https://www.777doc.com/doc-5887619 .html