您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 社会统计学(卢淑华)-第十章
第十讲列联表第一节概念1、研究内容1)研究两定类变量的关系2)为研究y的分类是否与x之分类有关,将数据先按x分类,再分别统计x分类情况下y的分类。3)按两个定类变量进行交叉分类的频次分配表,即二维列联表。4、列联表的一般形式Nij:x=xiy=yj时所具有的频次yxy1y2x1N11N12x2N21N22.........xcNc1Nc2............yrN1rN2r...Ncr学生上网调查(统计各项比例,能发现什么问题?)男生女生聊天玩游戏网恋学习2050151520501515Nij后者可以通过前者求出pNNp1i1j12、列联表中变量的分布1)联合分布对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y两个变量的取值。(x1y1N11)(x2y2N12)(x1yrN1r)此称联合分布(xiyjNij)(xcyrNcr)Nij表示频次时联合频次分布表Pij表示概率时联合概率分布表ijNijcri1j1crij2)边缘分布:对联合分布进行简比,只研究其中某一变量的分布,而不管另一变量的取值,这样就得到边缘分布。按行加总y的边缘分布:PyyrP1rP2rPcrPr按列加总x的边缘分布:PxxcPc1P2cPcrPc3)条件分布:将其中一个变量控制起来取固定值,再看另一变量的分布,即条件分布。控制x时,条件分布中的每一项都以边缘分布的N1*N2*Nc*为分母控制y时,条件分布中的每一项都以边缘分布的N*1N*2N*r为分母3、列联表中的相互独立性:1)列联表研究定类变量之间的关系,实际上是通过条件分布的比较进行的。如果两个变量之间没有关系,则称变量之间是相互独立的。2)如果两个变量之间是相互独立的,则必然存在变量的条件分布与其边缘分布相同。条件分布=边缘分布是列联表检验的基础:(控制x时)N*jNNNi*NijNN*jNNijNi*N*1NN21N2*N11N1*PijPi*P*jninjPˆi第二节列联表的检验一、原假设:将总体中变量间无关系或相互独立作为检验的原假设。H0:pijpi*p*j总体pi*和p*j未知时,用样本pˆi和Pj代替。Pjnn22cr22ijEijni*n*jnEnp*jij统计量的讨论1、对于2×2列联表,由于格数过少,为减少作为离散观测值与作为连续型变量x值之间的偏差,可作连续性修正:2222Eij2、二项总体222E1E2p0为总体成数12男女泡吧8030逛商店2070男女休闲爱好xniEixr14、使用统计量x对列联表迚行检验,每一格值的E值时nijEij值的波劢就会较大。2那么在计算3、对多项总体:~Ei2统计量:r2i12pEii0nij2要保持在一定数目乊上。如果有的格值Eij过小,2xEij每格要求:处理方法:将期望值偏小的格值合并。右例,做检验。Eij203031nij182942Eij5注意:列联表就其检验内容来看是双边检验,但从形式上看,却又很像单边检验。其判断的内容仅是变量间是否存在关系。至于方向,由于列联表属定类变量,因此是不存在的。niEixEi1xr1列联表检验步骤~1、H0H1i222、统计量:r23、4、比较例:以下是老、中、青三代对某影片的抽样,能否认为三代人对该影片评价有显著差异老中青很高一般454739262122第三节列联强度一、变量间的相关1、列联表中的频次分布情况,不仅是检验是否存在关系的依据,同时也是度量变量间关系强弱的依据。相关性程度越高,说明社会现象与社会现象间的关系愈密切。2、列联表中变量间的关系的强度分析,可以将频次转化为条件分布,然后比较自变量取不同值时,因变量条件分布的不同。例右表中,男生上网玩游生;想一想,当x取值大于2时,怎样比较?戏的比例高于女生;而上网聊天的比例低于女y\x男生女生聊天玩游戏4067%1025%3033%3075%即:adbc二、2×2表——系数和Q系数列联表中两个变量都只有二种取值时,就是2×2表yxacbdx1x2y1y2当变量间无关系时(独立)abacbd对于2×2表,无论系数或Q系数,都以差值adbc为基础进行的讨论,同时,也把关系强度的取值范围定义在1,1之间。1、系数adbcabcdacbd0——当两变量相互独立1——b、c为零,值最大1a、d为零,值最小-11——一般情况前例中计算Q2、Q系数ad-bcadbc当a、b、c、d中有一个是零时,则Q1对应的实际情况是配对样本研究3、、Q系数的选择当自变量的不同取值都会影响因变量时,用系数。当存在控制组时,用Q系数xx值构成系数4、rc列联表222Eij期望频次Eij是基于无相关前提下计量出来的,2因愈大,表示变量间距离无相关性愈远。2x2n其与2×2表中系数是一致,2×2表中是rc表中系数的特例。xnc值在[0,1]但永远小于1,又出现了v系数:由于rc表的数增多后,值增加,没有上限,无法比较,因此以c系数修正。xc222minr1,c1V1V的取值:oV表示所减少的相对误差,越大表示y与x关2)以减少误差比例为基础的相关性测量PRE不受变量层次的限制,通过现象之间的关系研究,从一个现象预测另一个现象。PREE1E2E1E1:不知y与x有关系时,预测y的全部误差E2:知道y与x有关系后,用x去预测y的全部误差E1E2E1系越密切。误差为:jnnmax为nnmaxEPRE的取值范围:PRE=0:两变量是无相关(知道x与否无助于y的预测,1E2误差不变)PRE=1:两变量是完全相关的(知道x与y有关系后,可以消除预测的全部误差)0PRE1:其他E1:不知y与x有关,用y的边缘和n的最大值去猜y值,猜中的频次会更多。全部E2:知道有关后,先看它属于x的哪一类,然后用这一类的众值去猜y值,误差ciji1jmaxnmaxnnmaxn两种系数:*jij*jci11)系数E1E2E1即:每列最高频次之和y边缘和中最高频次观察总数y边缘和中最高频次的取值范围:x与y无相关:0;x与y全相关:1PRE,所得值称作y,NDPRE,所得值称作x,NDDyDxDDyDDx值的非对称性:1)以x为自变量,用对y的预测来定义yyy2)以y为自变量,用对x的预测来定义xxx3)如果x和y孰因孰果不明显的情况,这时可同时计算y和x,并取其平均值,作为x和y间的相关程度。xxNyNDyDyxyx边缘分布所提供的信息。crn1nEnnEi1j1j11nnEn系数又有修正:系数:对E1和E2的定义比当不知道x与y有关系预测y时,充分考虑到y值2rij2*j12i*r21*jj1的取值范围:x与y无相关:0(边缘分布与条件分布相同)x与y全相关:1(各行、各列均只有一个不为0的频次)以前例为参照的推导:1、不知x与y有关:猜游戏与聊天:用边缘分布:40%,60%随机指派40人,猜对游戏的人数40×40/100=16猜错的人数40-40×40/100=40(1-40/100)=24同理:随机指派60人,猜对聊天的人数60×60/100=36猜错的人数60-60×60/100=60(1-60/100)=24j1n*jE1即为猜错人数之和。推广:1r2nnn*2n)n*2(1n*1nE1n*1(1)n*r(知道x与y有关后:用y的条件分布来猜y值当x=男生时随机10人,猜对聊天的人数:10×10/50猜错的人数:10-10×10/50随机40人,猜对游戏的人数:40×40/50猜错的人数:40-40×40/50猜错二者相加:=(10-10×10/50)+(40-40×40/50)=50-1/50×(102+402)同理:当x=女生时?j1E2即为全部误差之和。推广:1rn1*n2ijni*E2(n1*nn21j)(n2*)c值称y以x为自变量,用对y的预测来定义PRE,所得值的非对称性:以y为自变量,用对x的预测来定义PRE,所得y与x是不对称的,因此是非对称的。例:值已知列联表,求yx3012015030602014050200x1x2y12ya0.025
本文标题:社会统计学(卢淑华)-第十章
链接地址:https://www.777doc.com/doc-4774077 .html