您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 8.3.1-分类变量与列联表
8.3列联表与独立性检验8.3.1分类变量与列联表讲课人:邢启强2回顾旧知21(,)()niiiQabybxa2.残差平方和:1122211()()()nniiiiiinniiiixxyyxynxybxxxnxˆˆˆaybx3.最小二乘法将称为Y关于x的经验回归方程,ˆˆˆybxa4.判断模型拟合的效果:残差分析21212()11()ˆniiniiiyyyRy决定系残差平方和.总偏差平方和数R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型y=bx+a+e含有随机误差e,其中x为解释变量,y响应变量残差:yi-𝑦𝑖是随机误差的估计值讲课人:邢启强3前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.新课引入讲课人:邢启强4如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法,我们先看下面的具体问题。问题1.为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?新课引入这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设𝑓0=经常锻炼的女生数女生总数,𝑓1=经常锻炼的男生数男生总数那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到𝑓0=331523≈0.633,𝑓1=473601≈0.787.由f1-f0≈0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼.讲课人:邢启强5新课引入用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令𝑋=0,该生为女生1,该生为男生,y=0,该生不经常锻炼1,该生经常锻炼,我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).为了清楚起见,我们用表格整理数据讲课人:邢启强6学习新知我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有由P(Y=1|X=1)P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。P(Y=1|X=0)=n(X=0,Y=1)n(X=0)=331523≈0.633P(Y=1|X=1)=n(X=1,Y=1)n(X=1)=473601≈0.787讲课人:邢启强7在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingencytable).2×2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。讲课人:邢启强8例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.典型例题解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:𝑋=0,该生来自甲校1,该生来自乙校,y=0,该生数学成绩不优秀1,该生数学成绩优秀,我们将所给数据整理成表(单位:人)学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)乙校(X=1)合计左表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;33104338745711788讲课人:邢启强9甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为3343≈0.7674和1043≈0.2326;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为3845≈0.8444和745≈0.1556我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校讲课人:邢启强102.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中𝑎𝑎+𝑏与𝑐𝑐+𝑑值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.讲课人:邢启强11分数段29~4041~5051~6061~7071~8081~9091~100午休考生人数23473021143114不午休考生人数1751671530173及格人数不及格人数总计午休不午休总计【例2】在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:(1)根据上述表格完成列联表:(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?典型例题计算可知,午休的考生及格率为P1=49,不午休的考生的及格率为P2=1340,则P1P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.讲课人:邢启强12问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.独立性检验方法讲课人:邢启强131.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联,你能举出更多的描述生活中两种属性或现象之间关联的成语吗?2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?巩固练习水涨船高、登高望远不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误,因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率。讲课人:邢启强143.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么(1)吸烟是否对每位烟民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟,这种说法对吗?巩固练习3.(1)从已掌握的知识来看,吸烟会损害身体的健康。但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果,吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者,因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.(2)这种说法不正确,虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.讲课人:邢启强154.(1)根据列联表中的数据,计算得女生中不经常锻炼和经常锻炼的频率分别为520=0.25和1520=0.75.男生中不经常锻炼和经常锻炼的频率624=0.25和1824=0.75通过对比发现,女生中不经常锻炼和经常锻炼的频率与男生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1).因此,可以认为性别对体育锻炼的经常性没有影响.(2)推断可能犯错误.因为样本
本文标题:8.3.1-分类变量与列联表
链接地址:https://www.777doc.com/doc-8531310 .html