您好,欢迎访问三七文档
研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。两种变量:独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量的之间是否有关系2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——独立性检验2定量变量——回归分析(画散点图、相关系数r、变量相关指数R、残差分析)分类变量——独立性检验日常生活中我们关心这样一些问题:1.吸烟与患呼吸道疾病有无关系?2.饮食与心脏病之间有无关系?3.性别与喜欢数学课之间有无关系?以上问题用什么知识来解决呢?统计学中检验两个变量是否有关系的一种统计方法———独立性检验学习目标1.会列2×2列联表,会画等高条形图2.会从2×2列联表,等高条形图中直观的判断出两个分类变量之间是否有关?3.了解独立性检验的基本思想和步骤•某医疗机构为了了解患呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果是:吸烟的220人中37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中21人患病,274人未患病。●根据这些数据能否断定:患呼吸道疾病与吸烟有关?吸烟与患呼吸道疾病列联表患病不患病总计吸烟37183220不吸烟21274295总计58457515为了调查吸烟是否对呼吸道有影响,某医疗研究所随机地调查了515人,得到如下结果(单位:人)列联表在不吸烟者中患病的比重是在吸烟者中患病的比重是7.12%16.82%不患肺癌患肺癌不吸烟吸烟050100150200250300不吸烟吸烟不患病患病1)通过图形直观判断三维柱状图050100150200250300350不吸烟吸烟患肺癌不患肺癌不患病患病2)通过图形直观判断二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌不患病患病3)通过图形直观判断患病比例不患病比例问题1:吸烟与不吸烟,患病的可能性的大小是否有差异?吸烟者和不吸烟者患呼吸道疾病的可能性存在差异,吸烟者患呼吸道疾病的可能性大问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?问题3:能否用数量刻画出“有关”的程度?初步结论:思考交流:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。①数据整理;(列2×2联表)②做出相反的假设;(“患病与吸烟没有关系”)③计算;④查临界值表;⑤下结论。统计学对此类问题提供了这样的方法:①数据整理;(列2×2联表)②做出相反的假设;(“患病与吸烟没有关系”)③计算;④查临界值表;⑤下结论。))()()(()(22dbcadcbabcadn)(为样本量dcban2统计学对此类问题提供了这样的方法:2`吸烟与患呼吸道疾病关系列联表患病不患病总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+d1、列2×2联表H0:吸烟和患呼吸道疾病没有关系通过数据和图表分析,得到结论是:吸烟与患呼吸道病有关结论的可靠程度如何?2、做出相反的假设3、计算2吸烟的人中患病的比例:baa不吸烟的人中患病的比例:dcc吸烟与患呼吸道疾病关系列联表患病不患病总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+dac≈,a+bc+dac+d≈ca+b,若H0成立0bcad吸道疾病关系越弱;越小,说明吸烟与患呼||bcad吸道疾病关系越强;越大,说明吸烟与患呼||bcad作为检验在多大程度上可以认为“两个变量有关系”的标准。dcban其中dbcadcbabcadn22统计学家为了消除样本量对上式的影响,引入了卡方统计量2通过公式计算8634.1129522045758183212743751522吸烟与患呼吸道疾病列联表患病不患病总计吸烟37183220不吸烟21274295总计58457515dcban其中dbcadcbabcadn224、查表1)如果P(10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(3.841)=0.05表示有95%的把握认为”X与Y”有关系;6)如果P(2.706)=0.10表示有90%的把握认为”X与Y”有关系;7)如果P(≤2.706),就认为没有充分的证据显示”X与Y”有关系;2222222已知在成立的情况下,0H故有99.9%的把握认为H0不成立,即有99.9%的把握认为“患呼吸道疾病与吸烟有关系”。以下001.0)8634.11(2P5、下结论网络链接——检验结果DNA是从几滴血,腮细胞或培养的组织纤内提取而来.用畴素将DNA样本切成小段,放进喱胶内,用电泳槽推动DNA小块使之分离--最细的在最远,最大的最近.之後,分离开的基因放在尼龙薄膜上,使用特别的DNA探针去寻找基因,相同的基因会凝聚于一,然後,利用特别的染料,在X光的环境下,便显示由DNA探针凝聚于一的黑色条码.小孩这种肉眼可见的条码很特别----一半与母亲的吻合,一半与父亲的吻合.这过程重覆几次,每一种探针用于寻找DNA的不同部位并影成独特的条码,用几组不同的探针,可得到超过99,9%的父系或然率或分辨率.DNA亲子鉴定的原理和程序DNA亲子鉴定的结果孩子会有一条纹与亲生母亲相同而另一条码与待证实父亲1号(AF1)相同,此人是生父;被排除的男子(AF2),则与小孩并无相同的条码.肯定父系关系=99.99%或更大的生父或然率(法律上证明是生父)否定父系关系=0%生父或然率(100%排除为生父)例1.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000解:设H0:感冒与是否使用该血清没有关系。075.7500500526474216242284258100022因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。P(χ≥x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828P(χ≥x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828有效无效合计口服584098注射643195合计12271193解:设H0:药的效果与给药方式没有关系。3896.19598711224064315819322因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设H0,即不能作出药的效果与给药方式有关的结论。<2.072例2:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的193个病人的数据,能否作出药的效果和给药方式有关的结论?P(χ≥x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828例3:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?有效无效合计复方江剪刀草18461245胆黄片919100合计27570345解:设H0:两种中草药的治疗效果没有差异。098.11100245702759161918434522因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握认为,两种药物的疗效有差异。小结:1、独立性检验的基本思想2、独立性检验是用统计量研究一类问题的方法。23、用统计量研究问题的步骤2由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用进行独立性检验,可以对推断的正确性的概率作出估计,样本量n越大,估计越准确。2例1:随着《新还珠格格》的热播,又掀起了一场“还珠热”。为了了解喜爱看《新还珠格格》是否与性别有关,小欣随机抽查了140名男性和160名女性,调查发现,男性和女性中分别有80人和120人喜爱看,其余人不喜爱看。(2)利用图形判断性别与是否喜爱看《新还珠格格》有关?(1)根据以上数据建立一个2×2的列联表;为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300解:在假设“性别与是否喜欢数学课程之间没有关系”的前提下K2应该很小,并且例3.性别与喜欢数学课由表中数据计算K2的观测值k4.513。在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?2(3.841)0.05,PK而我们所得到的K2的观测值k4.513超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”。例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?秃顶与患心脏病列联表患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437患心脏病患其他病秃顶不秃顶0100200300400500600秃顶不秃顶有99%的把握认为“秃顶与患心脏病有关”221437(214597175451)16.3736.6353891048665772例2.为考察高中生的性别与是否喜欢数学课程之间的关系。在某城市的某校高中生随机抽取300名学生。得到如下列联表:性别与喜欢数学课程列联表喜欢不喜欢总计男3785122女35143178总计72228300由表中数据计算得到的观测值≈4.514。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?22解:在假设“性别与是否喜欢数学课程之间没有关系”的前提下,应该很小,并且而我们所得到的的观测值超过3.841,这就意味着“性别与是否喜欢数学课程之间有关系”这一结论是错误的可能性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间有关系”。2222(3.841)0.05P24.514练习:甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下列联表:优秀不优秀总计甲班103545乙班73845总计177390画出列联表的条形图,并通过图形判断成绩与班级是否有关.利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。
本文标题:《独立性检验》
链接地址:https://www.777doc.com/doc-6954320 .html