您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 选修2-3.3.2独立性检验的基本思想及其初步应用
3.2独立性检验的基本思想及其初步应用高二数学选修2-3第三章统计案例2020/4/191v:pzyandong2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。两种变量:独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。2020/4/192v:pzyandong吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表分类变量2020/4/193v:pzyandong吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是吸烟者和不吸烟者都可能患肺癌,吸烟者患肺癌的可能性较大0.54%2.28%分类变量42/78172020/4/194v:pzyandong94%95%96%97%98%99%100%不吸烟吸烟患肺癌不患肺癌通过图形直观判断两个分类变量是否相关:等高条形图在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是0.54%2.28%2020/4/195v:pzyandong不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+dn=a+b+c+d独立性检验在不吸烟者中不患肺癌的比重是在吸烟者中不患肺癌的比重是baadccH0:假设吸烟和患肺癌没有关系dccbaa则0bcad即2020/4/198v:pzyandong因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。独立性检验H0:假设吸烟和患肺癌没有关系dccbaa则0bcad即作为检验在多大程度上可以认为“两个变量有关系”的标准。若H0(吸烟和患肺癌没有关系)成立,则K2应该很小.构造随机变量(卡方统计量)))()()(()(22dbcadcbabcadnK2020/4/199v:pzyandong因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。独立性检验H0:假设吸烟和患肺癌没有关系吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965632.5691987421487817)422099497775(996522K2020/4/1910v:pzyandongP(K2≧k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828210.828K26.635K22.706K0.1%把握认为A与B无关1%把握认为A与B无关99.9%把握认A与B有关99%把握认为A与B有关90%把握认为A与B有关10%把握认为A与B无关随机变量-----卡方统计量为样本容量其中dcbandbcadcbabcadnK))()()(()(222020/4/1911v:pzyandong2(6.635)0.01PK即在H0成立的情况下,K2大于6.635概率非常小,近似为0.01现在的K2≈56.632的观测值远大于6.635,小概率事件的发生说明假设H0不成立!P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828临界值表独立性检验H0:假设吸烟和患肺癌没有关系所以吸烟和患肺癌有关!2020/4/1912v:pzyandong1.对分类变量X与Y的随机变量K2的观测值k,说法正确的是()A.k越大,“X与Y有关系”可信程度越小B.k越小,“X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大B2020/4/1913v:pzyandong例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437在秃顶中患心脏病的比重是在不秃顶中患心脏病的比重是55.01%43.03%2020/4/1917v:pzyandong例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437根据联表的数据,得到所以有99%的把握认为“秃顶与患心脏病有关”。635.6373.167726651048389)451175597214(143722k2020/4/1918v:pzyandong知识点一分类变量和列联表[梳理](1)分类变量变量的不同“值”表示个体所属的__________,像这样的变量称为__________.(2)列联表①定义:列出的两个分类变量的__________,称为列联表.不同类别分类变量频数表2020/4/1920v:pzyandong②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2020/4/1921v:pzyandong【想一想】1.如何理解分类变量?提示:(1)这里的“变量”和“值”都应作为“广义”的变量和值来理解.例如:对于性别变量,其取值有“男”和“女”两种,这里的“变量”指的是“性别”,这里的“值”指的是“男”或“女”.因此这里说的“变量”和“值”不一定是取具体的数值.(2)分类变量是大量存在的.例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.2020/4/1922v:pzyandong知识点二等高条形图[梳理](1)定义:将列联表中的__________用高度相同的两个条形图表示出来,其中两列的__________分别对应不同的颜色,这就是等高条形图.(2)特征:等高条形图与表格相比,更能直观地反映出两个分类变量间是否__________,常用等高条形图展示列联表数据的__________.数据数据相互影响频率特征(3)用法:观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.2020/4/1923v:pzyandong【想一想】2.利用等高条形图能否精确地判断两个分类变量是否有关系?为什么?提示:不能,因为通过等高条形图,可以粗略地判断两个分类变量是否有关系,但这种判断无法精确地给出所得结论的可靠程度.2020/4/1924v:pzyandong知识点三独立性检验[梳理]定义利用随机变量K2来判断“________________________”的方法称为独立性检验公式K2=nad-bc2a+bc+da+cb+d,其中n=____________________为样本容量两个分类变量有关系a+b+c+d2020/4/1925v:pzyandong具体步骤①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定________________.②利用公式计算随机变量K2的____________.③如果__________,就推断“X与Y有关系”,这种推断_________________不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_________________支持结论“X与Y有关系”临界值k0观测值kk≥k0犯错误的概率没有发现足够证据2020/4/1926v:pzyandong附:独立性检验临界值表.P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706P(K2≥k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.8282020/4/1927v:pzyandong【想一想】3.在判断两变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?提示:两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.2020/4/1928v:pzyandong1.利用列联表中的数据计算出各类变量取值对应的频率,作出等宽度且高度均为1的等高条形图.2.利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关,是判断变量相关的常见方法之一.等高条形图的应用2020/4/1929v:pzyandong为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?组别阳性数阴性数总计铅中毒病人29736对照组92837总计3835732020/4/1930v:pzyandong解:等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.2020/4/1931v:pzyandong[规律方法]一般地,在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.作等高条形图时可以用列联表来寻找相关数据,作图要精确,这样易于观察,使对结论的判断不出现偏差.2020/4/1932v:pzyandong1.某学校对高三学生作了一项调查,发现:在平时的模拟考试中,426名性格内向的学生中有332人在考前心情紧张,594名性格外向的学生中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计42659410202020/4/1933v:pzyandong相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关.2020/4/1934v:pzyandong两个分类变量相关性检验方法利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度,具体的做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系
本文标题:选修2-3.3.2独立性检验的基本思想及其初步应用
链接地址:https://www.777doc.com/doc-4899003 .html