您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 3.2独立性检验的基本思想及其初步应用(收藏)
对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.生活中的分类变量是否吸烟,宗教信仰,国籍…两个分类变量之间是否有关系性别是否喜欢数学课程吸烟患肺癌为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对肺癌有影响?吸烟与患肺癌列联表列出两个分类变量的频数表,称为列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965%54.0%100781742%28.2%100214849吸烟者与不吸烟者患肺癌的可能性存在差异00.10.20.30.40.50.60.70.80.91不吸烟吸烟患肺癌不患肺癌从上面数据和图形可以看出吸烟和患肺癌有关从上面数据和图形可以看出吸烟和患肺癌有关我们能够有多大的把握认为“吸烟与患肺癌有关”?吸烟患肺癌吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设H0:吸烟与患肺癌没有关系A:不吸烟B:不患肺病P(AB)=P(A)(B)a:事件AB发生的频数a+b:事件A发生的频数a+c:事件B发生的频数H0成立时ncanbana(n=a+b+c+d)(a+b+c+d)a≈(a+b)(a+c)ad-bc≈0|ad-bc|越小吸烟与患肺癌之间的关系越弱|ad-bc|越大吸烟与患肺癌之间的关系越强构造一个随机变量dbcadcbabcadnK22建立统一标准(n=a+b+c+d)若H0成立K2应该很小根据前面数据632.569198742148781720994249777599652kK2的观察值在“吸烟与患肺癌没有关系”成立的条件下可以估算出01.0)635.6(2KPk≈56.6326.635远大于99%的把握认为“吸烟与患肺癌有关系”利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.确认“两个分类变量有关系”成立的可信程度•假设该结论不成•由观测数据计算K2的观测值k•通过概率评价该假设不合理的程度k6.635,假设不合理程度约为99%y1y2总计x1aba+bx1cdc+d总计a+cb+da+b+c+d假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表2×2列联表若要推断的论述为H1:“X与Y有关系”可以按如下步骤判断结论H1成立的可能性1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠度11211,XY,XY.,.xayabxycHcd在二维条形图中可以估计满足条件的个体中具有的个体所占的比例也可以估计满足条件的个体中具有的个体所占的比例两个比例值相差越大成立的可能性就越大2.可以利用独立性检验来考察两个分类变量是否有关系并且能较精确地给出这种判断的可靠程度.根据观测数据计算检验随机变量K2的观察值kP(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828当得到的观测数据a,b,c,d都不于5时,可以通过查阅下表来确定其可信程度在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437解根据数据得到如下列联表秃顶与患心脏病列联表635.6373.167726651048389451175597214143722K认为“秃顶与患心脏病有关”这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.研究人员表示,掉头发在很大程度上是由日渐增大的工作压力、不能充分休息、不正确饮食和睡眠不足等因素引起的。在接受调查的人群中,有41%的受秃头威胁的人表示,他们一日睡觉时间不足4小时.秃顶=心脏病?为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300由表中数据计算得K2≈4.513.高中生的性别与是否喜欢数学课程之间是否有关系?为什么?解认为“性别与喜欢数学课之间有关系”.利用独立性检验的基本思想P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828•假设该结论不成•由观测数据计算K2的观测值k•通过概率评价该假设不合理的程度作业课本习题3.2题1,2实习作业1.我校学生的体重与身高之间的关系可以用什么模型刻画?2.中学生喜欢文科还是理科与性别有关吗?是否喜欢看足球比赛与性别有关吗?是否喜欢音乐与性别有关吗?
本文标题:3.2独立性检验的基本思想及其初步应用(收藏)
链接地址:https://www.777doc.com/doc-1908561 .html