您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 高中数学选修2-3-独立性检验
3.2独立性检验的基本思想及其初步应用(共计3课时)授课类型:新授课一、教学内容与教学对象分析通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。①通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。②通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、方法及其初步应用。二.学习目标1、知识与技能通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。2、过程与方法在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。最后介绍了独立性检验思想的综合运用。3、情感、态度与价值观通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。明确数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供自主学习、独立探究、合作交流的机会。养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。三.教学重点、难点教学重点:理解独立性检验的基本思想;独立性检验的步骤。教学难点;1、理解独立性检验的基本思想;2、了解随机变量K2的含义;3、独立性检验的步骤。四、教学策略教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。教学手段:多媒体辅助教学五、教学过程:对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表3-7吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响吗?像表3一7这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54%患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3.2一1是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.图3.2一2是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?为了回答上述问题,我们先假设H0:吸烟与患肺癌没有关系.用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设H0等价于PAB)=P(A)+P(B).把表3一7中的数字用字母代替,得到如下用字母表示的列联表:表3-8吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d在表3一8中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有aabacnnn,其中nabcd为样本容量,(a+b+c+d)≈(a+b)(a+c),即ad≈bc.因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量22nadbcKabcdacbd(1)其中nabcd为样本容量.若H0成立,即“吸烟与患肺癌没有关系”,则K“应该很小.根据表3一7中的数据,利用公式(1)计算得到K“的观测值为22996577754942209956.63278172148987491K,这个值到底能告诉我们什么呢?统计学家经过研究后发现,在H0成立的情况下,2(6.635)0.01PK.(2)(2)式说明,在H0成立的情况下,2K的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件.现在2K的观测值k≈56.632,远远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系”.在上述过程中,实际上是借助于随机变量2K的观测值k建立了一个判断H0是否成立的规则:如果k≥6.635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论“H0成立”错判成“H0不成立”的概率不会超过2(6.635)0.01PK,即有99%的把握认为从不成立.上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即H0:“两个分类变量没有关系”成立.在该假设下我们所构造的随机变量2K应该很小.如果由观测数据计算得到的2K的观测值k很大,则在一定可信程度上说明H0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H0的充分证据.怎样判断2K的观测值k是大还是小呢?这仅需确定一个正数0k,当0kk时就认为2K的观测值k大.此时相应于0k的判断规则为:如果0kk,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的0k为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为20()PKk.在实际应用中,我们把0kk解释为有20(1())100%PKk的把握认为“两个分类变量之间有关系”;把0kk解释为不能以20(1())100%PKk的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量2K来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?一般地,假设有两个分类变量X和Y,它们的可能取值分别为{12,xx}和{12,yy},其样本频数列联表(称为2×2列联表)为:表3一92×2列联表1y2y总计1xabab2xcdcd总计acbdabcd若要推断的论述为Hl:X与Y有关系,可以按如下步骤判断结论Hl成立的可能性:1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.①在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.②在二维条形图中,可以估计满足条件X=1x的个体中具有Y=1y的个体所占的比例aab,也可以估计满足条件X=2x的个体中具有Y=2y,的个体所占的比例ccd.“两个比例的值相差越大,Hl成立的可能性就越大.2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:①根据实际问题需要的可信程度确定临界值0k;②利用公式(1),由观测数据计算得到随机变量2K的观测值k;③如果0kk,就以20(1())100%PKk的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.在实际应用中,要在获取样本数据之前通过下表确定临界值:表3一10(四)、举例:例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系.(2)能够以99%的把握认为秃顶与患心脏病有关系吗?为什么?解:根据题目所给数据得到如下列联表:(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.20()PKk0.500.400.250.150.100.050.0250.0100.0050.0010k0.4550.7081.3232.0721.3232.7063.8415.0246.63510.828(2)根据列联表3一11中的数据,得到21437(214597175451)3891048665772k≈16.3736.因此有99%的把握认为“秃顶与患心脏病有关”.例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:表3一12性别与喜欢数学课程列联表喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300由表中数据计算得2K的观测值4.514k.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:分别用a,b,c,d表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例aab与女生中喜欢数学课的人数比例ccd应该相差很多,即||||()()acadbcabcdabcd应很大.将上式等号右边的式子乘以常数因子()()()()()abcdabcdacbd,然后平方得22()()()()()nadbcKabcdacbd,其中nabcd.因此2K越大,“性别与喜欢数学课之间有关系”成立的可能性越大.另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A={2K≥3.841}的概率为P(2K≥3.841)≈0.05,因此事件A是一个小概率事件.而由样本数据计算得2K的观测值k=4.514,即小概率事件A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5%.所以,约有95%的把握认为“性别与喜欢数学课之间有关系”.补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?患心脏病未患心脏病合计每一晚都打鼾30224254不打鼾2413551379合计5415791633解:略。补充例题2:对196个接受心脏搭桥手术的病人和
本文标题:高中数学选修2-3-独立性检验
链接地址:https://www.777doc.com/doc-4349657 .html