您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 人教版A选修1-2第一章统计案例12++++独立性检验的基本思想及其初步应用
定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义.如身高、体重、考试成绩、温度等等.变量定量变量分类变量两个定量变量的相关关系分析:回归分析(画散点图、相关指数R2、残差分析)(定性变量)对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.在日常生活中,主要考虑分类变量之间是否有关系:如是否吸烟、宗教信仰、是否患肺癌、国籍等等.例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等.它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表2×2在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是0.54%2.28%不吸烟吸烟00.10.20.30.40.50.60.70.80.91不吸烟吸烟患肺癌比例不患肺癌比例等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例.问题1:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?问题3:能否用数量刻画出“有关”的程度?独立性检验H0:吸烟和患肺癌之间没有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何?吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+dac≈,a+bc+dac+d≈ca+b,adbc吸烟的人中不患肺癌的比例:baa不吸烟的人中不患肺癌的比例:dcc若H0成立0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量:卡方统计量作为检验在多大程度上可以认为“两个变量有关系”的标准。dcban其中dbcadcbabcadnK22通过公式计算的观测值吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965632.569198742148781720994249777599652k2Kk已知在成立的情况下,0H故有99%的把握认为H0不成立,即有99%的把握认为“患肺癌与吸烟有关系”。即在成立的情况下,大于6.635概率非常小,近似为0.0100H2K现在的=56.632的观测值远大于6.635,出现这样的观测值的概率不超过0.010。k010.0)635.6(2KPa+b+c+db+da+c总计c+ddca+bba总计一般地,对于两个分类变量X和Y。X有两类取值:即类和(如吸烟与不吸烟);Y也有两类取值:即类和(如患病与不患病)。于是得到下列样本频数的2×2列联表为:x1x2y2y1y1y2x1x2用卡方统计量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为这两个分类变量的独立性检验。要推断“X和Y有关系”,可按下面的步骤进行:(1)提出假设H0:X和Y没有关系;(3)查对临界值,作出判断。(2)根据2×2列联表与公式计算的值;k10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.502()PKk(1)如果k10.828,就有99.9%的把握认为“X与Y有关系”;(2)如果k7.879,就有99.5%的把握认为“X与Y有关系”;(3)如果k6.635,就有99%的把握认为“X与Y有关系”;(4)如果k5.024,就有97.5%的把握认为“X与Y有关系”;(5)如果k3.841,就有95%的把握认为“X与Y有关系”;(6)如果k2.706,就有90%的把握认为“X与Y有关系”;(7)如果k=2.706,就认为没有充分的证据显示“X与Y有关系”.临界值反证法原理与独立性检验原理反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0不成立。假设检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率。例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?秃顶与患心脏病列联表患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437有99%的把握认为“秃顶与患心脏病有关”635.6373.167726651048389)451175597214(14372k说明:在熟悉独立性检验的原理后,可以通过直接计算K²的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题,但是,借助图形更直观。犯错误的概率是指将“秃顶与患心脏病有关系”错判成“秃顶与心脏病没有关系”的概率例2为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取300名学生。得到如下列联表:性别与喜欢数学课程列联表喜欢不喜欢总计男3785122女35143178总计72228300由表中数据计算得到K2的观测值k≈4.514。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?解:在假设“性别与是否喜欢数学课程之间没有关系”的前提下,应该很小,并且而我们所得到的的观测值超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”。2K2K2K05.0)841.3(2KP514.4k练习:甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下列联表:优秀不优秀总计甲班103545乙班73845总计177390画出列联表的条形图,并通过图形判断成绩与班级是否有关.利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。作业:P16习题1.2第1题第2题
本文标题:人教版A选修1-2第一章统计案例12++++独立性检验的基本思想及其初步应用
链接地址:https://www.777doc.com/doc-2704664 .html