您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 8.3.2独立性检验
8.3列联表与独立性检验8.3.2独立性检验讲课人:邢启强2我们将下表这种形式的数据统计表称为2×2列联表(contingencytable).复习回顾2×2列联表给出了成对分类变量数据的交叉分类频数,以下表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX讲课人:邢启强3复习回顾两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中𝑎𝑎+𝑏与𝑐𝑐+𝑑值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.讲课人:邢启强4“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.考虑以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(nullhypothesis).P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)=P(X=1,Y=1)P(X=1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0).①讲课人:邢启强5考虑以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设(nullhypothesis).P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。由条件概率的定义可知,零假设H0等价于P(X=0,Y=1)P(X=0)=P(X=1,Y=1)P(X=1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0).①注意到(X=0)和(X=1)为对立事件,于是P(X=0)=1-P(X=1).再由概率的性质,我们有P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).由此推得①式等价于P(X=1)P(Y=1)=P(X=1,Y=1).因此,零假设H0等价于{X=1}与{Y=1}独立。根据已经学过的概率知识,下面的四条性质彼此等价:{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;{X=1}与{Y=0}独立;{X=1}与{Y=1}独立。学习新知讲课人:邢启强6以上性质成立,我们就称分类变量X和Y独立,这相当于下面四个等式成立;P(X=0,Y=0)=P(X=0)P(Y=0);P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0);P(X=1,Y=1)=P(X=1)P(Y=1).我们可以用概率语言,将零假设改述为H0:分类变量X和Y独立.假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示。n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX对于随机样本,表中的频数a,b,c,d都是随机变量,而表中的相应数据是这些随机变量的一次观测结果。表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是样本容量。②讲课人:邢启强7思考:如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?P(X=0,Y=0)=P(X=0)P(Y=0);P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0);P(X=1,Y=1)=P(X=1)P(Y=1).n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX在零假设H0成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概率P(X=0)和P(Y=0)对应的频率的乘积(a+b)(a+c)n2估计概率P(X=0,Y=0),而把(a+b)(a+c)n2视为事件{X=0.Y=0}发生的频数的期望值(或预期值).这样,该频数的观测值a和期望值(a+b)(a+c)n应该比较接近.讲课人:邢启强8综合②中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:|𝑎−(a+b)(a+c)n|,|b−(a+b)(b+d)n|,|𝑐−(c+d)(a+c)n|,|d−(c+d)(b+d)n|③反之,当这些量的取值较大时,就可以推断H0不成立。分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断H0是否成立.一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:𝜒2=(𝑎−(a+b)(a+c)n)2(a+b)(a+c)n+(b−(a+b)(b+d)n)2(a+b)(b+d)n+(𝑐−(c+d)(a+c)n)2(c+d)(a+c)n+(d−(c+d)(b+d)n)2(c+d)(b+d)n该表达式可化简为𝜒2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).讲课人:邢启强9统计学家建议,用随机变量𝜒2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.那么,究竟𝜒2大到什么程度,可以推断H0不成立呢?或者说,怎样确定判断𝜒2大小的标准呢?根据小概率事件在一次试验中不大可能发生的规律,可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了𝜒2的近似分布,忽略𝜒2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(𝜒2≥xα)=α④我们称xα为α的临界值,这个临界值就可作为判断𝜒2大小的标准,概率值α越小,临界值xα越大,当总体很大时,抽样有、无放回对𝜒2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.由④式可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件𝜒2不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.讲课人:邢启强10独立性检验公式及定义:提出零假设(原假设)H0:分类变量X和Y独立假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,在列联表中,如果零假设H0成立,则应满足𝑎𝑎+𝑏≈𝑐𝑐+𝑑,即ad-bc≈0.因此|ad−bc|越小,说明两个分类变量之间关系越弱;|ad−bc|越大,说明两个分类变量之间关系越强.2=2()()()()()nadbcabcdacbdχ为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量学习新知χ2独立性检验中几个常用的小概率值和相应的临界值.10.8287.8796.6353.8412.706xα0.0010.0050.010.050.1αn=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX讲课人:邢启强11临界值的定义:对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.χ2独立性检验中几个常用的小概率值和相应的临界值.基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.10.8287.8796.6353.8412.706xα0.0010.0050.010.050.1α用χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.讲课人:邢启强12例2:依据小概率值𝛂=0.1的𝝌𝟐独立性检验,分析上节课例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788因为所以𝝌𝟐=𝟖𝟖(𝟑𝟑×𝟕−𝟏𝟎×𝟑𝟖)𝟐𝟕𝟏×𝟏𝟕×𝟒𝟑×𝟒𝟓≈𝟎.𝟖𝟑𝟕𝟐.𝟕𝟎𝟔=x0.1根据小概率值𝛂=0.1的𝝌𝟐独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异。讲课人:邢启强13思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分,在本例中,我们用𝝌𝟐独立性检验对零假设H0进行了检验,通过计算,发现𝝌𝟐≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出两校学生的数学优秀率没有显著差异的结论,这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的,因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。由此可见,相对于简单比较两个频率的推断,用𝝌𝟐独立性检验得到的结果更理性、更全面,理论依据也更充分。当我们接受零假设H0时,也可能犯错误。我们不知
本文标题:8.3.2独立性检验
链接地址:https://www.777doc.com/doc-8531256 .html