您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 3.2独立性检验的基本思想及其初步应用
3.2独立性检验的基本思想及其初步应用高二数学选修2-3第三章统计案例2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。两种变量:独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表分类变量1.下面是一个2×2列联表:y1y2总计x1a2173x222527总计b46100则表中a、b的值分别为()A.94、96B.52、50C.52、54D.54、52C吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是吸烟者和不吸烟者都可能患肺癌,吸烟者患肺癌的可能性较大0.54%2.28%分类变量42/78170%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌通过图形直观判断两个分类变量是否相关:等高条形图在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是0.54%2.28%不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+dn=a+b+c+d独立性检验在不吸烟者中不患肺癌的比重是在吸烟者中不患肺癌的比重是baadccH0:假设吸烟和患肺癌没有关系dccbaa则0bcad即ad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强独立性检验H0:假设吸烟和患肺癌没有关系dccbaa则0bcad即ad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)构造随机变量(卡方统计量)作为检验在多大程度上可以认为“两个变量有关系”的标准。若H0(吸烟和患肺癌没有关系)成立,则K2应该很小.独立性检验H0:假设吸烟和患肺癌没有关系吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965632.5691987421487817)422099497775(996522k随机变量-----卡方统计量22(),()()()()其中为样本容量。nadbcKabcdacbdnabcd0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k0)k2P(K临界值表210.828K26.635K22.706K0.1%把握认为A与B无关1%把握认为A与B无关99.9%把握认A与B有关99%把握认为A与B有关90%把握认为A与B有关10%把握认为A与B无关2(6.635)0.01PK即在成立的情况下,K2大于6.635概率非常小,近似为0.010H现在的K2≈56.632的观测值远大于6.635,小概率事件的发生说明假设H0不成立!0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k0)k2P(K临界值表独立性检验H0:假设吸烟和患肺癌没有关系所以吸烟和患肺癌有关!1.对分类变量X与Y的随机变量K2的观测值k,说法正确的是()A.k越大,“X与Y有关系”可信程度越小B.k越小,“X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大B例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437在秃顶中患心脏病的比重是在不秃顶中患心脏病的比重是55.01%43.03%例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437根据联表的数据,得到所以有99%的把握认为“秃顶与患心脏病有关”。635.6373.167726651048389)451175597214(143722k课堂练习1:通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由22()()()()()nadbcKadcdacbd算得,22110(40302020)7.860506050K附表:2()pKk0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”A课堂练习2.某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,可以有%的把握认为该学校15至16周岁的男生的身高和体重之间有关系。超重不超重合计偏高415不偏高31215合计71320独立性检验临界值表:P(K2≥k0)0.0250.0100.0050.001k05.0246.6357.87910.828独立性检验随机变量2K值的计算公式:22()()()()()nadbcKabcdacbd所以根据列联表的数据,可以有%的把握认为该学校15至16周岁的男生的身高和体重之间有关系。独立性检验临界值表:P(K2≥k0)0.0250.0100.0050.001k05.0246.6357.87910.828超重不超重合计偏高415不偏高31215合计7132097.522nadbcKabcdacbd由独立性检验随机变量2K值的计算公式得:220412135157135.9341.(2013·深圳二模)2013年3月14CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25530使用未经淡化海砂151530总计402060(1)根据表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐参考数据:P(k2≥k)0.100.0500.0250.0100.001k2.7063.8415.0246.63510.828解析:(1)提出假设H0:使用淡化海砂与混凝土耐久性是否达标无关.根据表中数据,求得K2的观测值∴能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.(2)用分层抽样的方法在使用淡化海砂的样本中抽取6个,其中应抽取“混凝土耐久性达标”的为×6=5,“混凝土耐久性不达标”的为6-5=1“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性不达标”的记为B.2530在这6个样本中任取2个,有以下几种可能:(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,B),(A2,A3),(A2,A4),(A2,A5),(A2,B),(A3,A4),(A3,A5),(A3,B),(A4,A5),(A4,B)(A5,B),共15种.设“取出的2个样本混凝土耐久性都达标”为事件A,它的对立事件A为“取出的2个样本至少有1个混凝土耐久性不达标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B),共5种可能.2.(2011·揭阳一模)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:克),重量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本的频率分布直方图.产品重量/克频数(490,495]6(495,500]8(500,505]14(505,510]8(510,515]4表1甲流水线样本频数分布表(1)根据上表数据作出甲流水线样本的频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?甲流水线乙流水线合计合格品a=b=不合格品c=d=合计n=附:下面的临界值表供参考:p(K2≥k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828(参考公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d)解析:(1)甲流水线样本的频率分布直方图如下:(2)由表1知甲样本中合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为=0.75,3040乙样本合格品的频率为=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)2×2列联表如下:3640甲流水线乙流水线合计合格品a=30b=3666不合格品c=10d=414合计4040n=80∴在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.∵K2=nad-bc2a+bc+da+cb+d=80×120-360266×14×40×40≈3.1172.706.课堂练习3:为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计男生5女生10合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35(1)请将上面的列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为,求的分布列与期望.解:(1)列联表补充如下:----------------------------------------3分喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050(2)∵2250(2015105)8.3337.879302025
本文标题:3.2独立性检验的基本思想及其初步应用
链接地址:https://www.777doc.com/doc-3720676 .html