您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 《独立性检验》公开课课件
第三章独立性检验的基本思想及其初步应用1.会列2×2列联表,2.会从2×2列联表,直观粗略的判断出两个分类变量之间是否有关?3.了解独立性检验的基本思想和步骤学习目标我们经常听到这些说法:吸烟对患肺癌有影响;数学好的人物理一般也很好;是否喜欢数学课程与性别之间有关系;人的血型会决定人的性格;星座与人的命运之间有某种联系.这些说法都有道理吗?独立性检验的基本思想对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为.分类变量在现实生活中是大量存在的,如是否吸烟、是否患肺癌、宗教信仰,国籍等.分类变量x是变量吗?x表示性别,则x的取值有哪些?某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817人,调查结果是:吸烟的2148人中49人患肺癌,;不吸烟的7817人中42人患肺癌.根据这些数据能否断定:患肺癌与与吸烟有关?吸烟与患肺癌列联表患肺癌不患肺癌总计吸烟4920997817不吸烟4277752148总计9874919965为了调查吸烟是否患肺癌有影响,某医疗研究所随机地调查了9965人,得到如下结果(单位:人)列联表在吸烟者中患肺癌的比例是在不吸烟者中患肺癌的比例是0.54%2.28%0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌患肺癌比例不患肺癌比例等高条形图练习:观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是()ABCDD独立性检验假设H0:吸烟和患肺癌之间没有关系通过数据和图表分析,得到结论是:吸烟与患呼吸道疾病有关结论的可靠程度如何?吸烟与呼吸道疾病列联表患肺癌不患肺癌总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+d吸烟的人中不患肺癌的比例:baa不吸烟的人中不患肺癌的比例:dccac≈,a+bc+dadbc吸烟的人中患肺癌的比例:baa不吸烟的人中患肺癌的比例:dcc若H0成立ad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强(江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()(《三维设计》P664)A.成绩B.视力C.智商D.阅读量D为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量-----卡方统计量22(),()()()()nadbcKabcdacbdnabcd其中为样本容量。(1)独立性检验通过公式计算22996577754942209956.63278172148987491K吸烟与呼吸道疾病列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么这个值到底能告诉我们什么呢?独立性检验的定义上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。问题:如何用独立性检验的方法来检验两个分类变量X和Y是否有关系呢?一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d要推断“X和Y有关系”,可按下面的步骤进行:(1)提出假设H0:X和Y没有关系;(3)查对临界值,作出判断。(2)根据2×2列表与公式计算的值;2K练习:对于“有99%以上的把握认为吸烟与患肺癌是有关的”,以下理解正确的是________.(1)100个吸烟的人中有99个患有肺癌;(2)吸烟者有可能不患肺癌,不吸烟者可能患肺癌;(3)吸烟者一定患肺癌,不吸烟者一定不患肺癌;(4)“吸烟与患肺癌有关系”这一结论准确性在99%以上.(2)(4)•[练习]某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:•根据表中数据,问能否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.项目喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100[解]假设H0:南方学生和北方学生在选用甜品的饮食习惯方面没有差异K2=nad-bc2a+bc+da+cb+d=100×60×10-20×10270×30×80×20=10021≈4.762.由于4.7623.841,故在犯错误的概率不超过0.05的前提下认为南方学生和北方学生在选用甜品的饮食习惯方面有差异.[类题通法]根据题意列出2×2列联表,计算K2的观测值.如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.这需要给出正确的计算,避免计算失误.1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大练习B2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定断言“X和Y有关系”的可信度。如果K25.024,那么就有把握认为“X和Y有关系”的百分比为()P()0.100.050.0250.0100.0052.7063.845.0246.6357.879kK2kA.25%B.75%C.2.5%D.97.5%D3.下列关于K2的说法中,正确的有________.①K2的值越大,两个分类变量的相关性越大;②K2的计算公式是③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则做出拒绝H0的推断.③④独立性检验的一般步骤:(1)假设两个分类变量X与Y没有关系;(2)计算出K2的观测值k;(3)把k的值与临界值比较确定X与Y有关的程度或无关系.请你能说出独立性检验的一般步骤。
本文标题:《独立性检验》公开课课件
链接地址:https://www.777doc.com/doc-7589236 .html