您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 投融资/租赁 > 高级社会统计学第九部分列联表
高级社会统计学闵学勤minxueqin@nju.edu.cn第九部分列联表(定类-定类变量)一、什么是列联表table)(crosstab,..,,,,,,,,:,,,::,212121简称列联表即二维的列联表表行交叉分类的频次分配数据按两个定类变量进这样就得到了的分类情况下然后分别统计当分类我们可以将数据先按之分类有关之分类是否与为了研究定类变量定类变量类可分为定类变量类可以分作设定类变量yxxxxxxxxyyyyyxxxxrycxcrc一、什么是列联表rNNNx112111rNNNx222212rNNNx332313crcccNNNx21xy321yyy时所具有的频次是其中jiijyyxxN,一、什么是列联表例如,对某单位网民进行了抽样调查,根据不同年龄档和上网类型进行了如下的统计分类:青年中年老年看新闻202610交友23153网游1261第九部分列联表二、列联表中变量的分布),,(),,(),,(),,(),,(:,,,,)(1112211111crrcijjirrNyxNyxNyxNyxNyxyx称作联合分布两个变量的取值和同时具有必须集合中的变量值为了知道分布对于二变量来说联合分布一cirjijijijijijNNNNp联合概率分布表p联合频次分布表N11,.,.,其关系为列联表就是则其列表示的是概率当集合对中的最后一项所作成的列联表就是那么表示的是频次对当集合对中的最后一项二、列联表联合概率分布表1112111ppppxr2222212ppppxr3332313ppppxrccrcccppppx21xyjyyy321121rippp111cirjijp第九部分列联表二、列联表中变量的分布rcrrrrccppppyypppppyypppppyypyy2122221221121111)()()(:,::.,,,)(边缘分布的就得到关于行加总起来把联合分布中的概率按的边缘分布关于边缘分布共有两个这样就得到边缘分布变量的取值而不管另一分布只研究其中某一变量的化研究如果对联合分布进行简边缘分布二第九部分列联表二、列联表中变量的分布ccrcccrrppppxxpppppxxpppppxxpxx2122222121112111)()()(:,,)(边缘分布的就得到关于来布中的概率按列加总起的边缘分布是把联合分关于同理边缘分布二:(,,,.,,,)()rcrycx列比例个条件分布就可以有那么从理论上说个取值共有变量个取值共有如果变量布这样就得到一个条件分变量的分布再看另一变量控制起来取固定值我们还可以将其中一个除了边缘分布条件分布三)(:)(:)(:21ypyxxypyxxypyxxcccNNyNNyNNy1122111111ccNNyNNyNNy2222211222ccrrrrrrNNyNNyNNy2211:,,)()(xy行比例的条件分布也可研究值如果控制类似地条件分布三)(:)(:)(:21xpxyyxpxyyxpxyyrrNNxNNxNNx12121211111rrNNxNNxNNx2222221212rcrcccrcNNxNNxNNx2211第九部分列联表二、列联表中变量的分布例,求上述上网目的表频次的联合分布,求概率的联合分布,边缘分布和条件分布.青年中年老年看新闻20261056交友2315341网游126119554714N=116ciNNNNrjijicirjij,,2,1,,:111以及边缘和必须求出总数为了求得分布解)(jN边缘和)(iN边缘和频次联合分布表老年中年青年看新闻20/11626/11610/116交友23/11615/1163/116网游12/1166/1161/116概率联合分布表的边缘分布表上网目的关于)(y看新闻交友网游56/11641/11619/116)(ypy的边缘分布表年龄档关于)(x青年中年老年55/11647/11614/116)(xpx)(,1青年共有三个的条件分布关于xxy看新闻交友网游20/5523/5512/55)(ypy)(2中年xx看新闻交友网游26/4715/476/47)(ypy)(3老年xx看新闻交友网游10/143/141/14)(ypy第九部分列联表三、列联表中变量的相互独立性如果把关于y的条件分布和边缘分布合写在一张表上,可以比较出三代人上网的不同目的青年中年老年边缘和看新闻20/55=0.3626/47=0.5510/14=0.7156/116=0.48交友23/55=0.4215/47=0.323/14=0.2241/116=0.35网游12/55=0.226/47=0.131/14=0.0719/116=0.17边缘和55/116=0.4747/116=0.4114/116=0.121显然,如果选择不同上网目的的比例,对于三代人都是一样的话,那就表示变量“上网目的”和变量”代际”之间是没有关系的,这种情况,称变量之间是相互独立的。第九部分列联表三、列联表中变量的相互独立性可以证明的是,如果列联表的二变量相互独立的话,联合分布与边缘分布存在如下关系式:jiijppp四、列联表的检验(一)列联表检验的原假设表示样本的频率分布作为它的点估计值样本中的边缘频率分布因此可以用一般都是未知的是总体的边缘分布和由于其中jijjjiiijijiijP、PrjnnPpcinnPppprjcipppHˆˆ,2,1,ˆ,2,1,ˆ:,,,2,1;,2,1,:0四、列联表的检验(二)列联表检验的统计量——2.,.,,,2,1,ˆ,2,1,ˆ,:000真实情况很可能不反映反之差距很大的话相差不多的可能性较大次那么实测频次与期望频为真的话如果总体中可以想象的期望频次然后求出列联表中合格用样本的边缘和求出设首先根据列联表的原假HHnnnpnpnpErjnnPpcinnPppppHjijiijjjjiiijiijij四、列联表的检验(二)列联表检验的统计量——例,某乡镇研究职业代际流动。调查了共140人,其结果如下:问父辈职业与子辈职业是否有关?2)1)(1(~)(:21122crEEncirjijijij统计量来表示上述讨论可以用以下的父辈职业脑力体力农业边缘和子辈职业脑力205530体力10301050农业555060边缘和354065n=140计算期望频次的列联表以及样本的边缘和根据关子辈职业与父辈职业有关子辈职业与父辈职业无解,.:,::010HHH父辈脑力体力农业子辈脑力35×30/140=7.540×30/140=8.5765×30/140=13.93体力35×50/140=12.540×50/140=14.2965×50/140=2321农业35×60/140=7.540×60/140=8.5765×63/140=13.93四、列联表的检验(二)列联表检验的统计量——2辈职业是有关系的可以认为子辈职业与父临界值自由度值计算49.922.8649.9)4(4)13)(13()1)(1(22.8686.27)86.2750(93.13)93.135(57.8)57.85(5.7)5.720(205.0222222crk第九部分列联表四、列联强度(一)变量间的相关上节谈到通过统计量值检验列联表变量间是否存在关系.在确定了存在关系之后,进一步要问的问题将是关系的程度如何.相关程度的度量方法根据变量层次不同而有所不同.具体来说,由于列联表研究对象仅是定类变量,因此列联表中的频次分布情况,不仅是检验是否存在关系的依据,同时也是度量变量间关系强弱的依据.相关程度越高,说明变量间的关系越密切.2第九部分列联表四、列联强度(二)系数系数和表Q—22表作都只有两种取值时就称当列联表中的两个变量22xy1x2x1y2yabbacddccadbdcban四、列联强度1,0,,,,,)(,2,1,,,1,0))()()((,11,1,,22QdcbaQbcadbcadQQdacbdbcadcbabcadbcadQ则中有一个是只要系数对于较适合配对样本系数一般情况同时为零同时为零或当两变量相互独立系数的取值范围定义为同时也都是把关系强度讨论的为基础系数都是以差值系数或无论表对于四、列联强度新药安慰药未感冒5028患感冒022系数系数和对下表求例Q,.,,1050220502253.0)2228)(050)(220)(2850(2250:系数应更有效列联表上的频次看因此从预防感冒是否有效由于我们更关注新药对解QQ四、列联强度系数选用配对研究类似实验性研究系数适合选用都有影响否则两者对选科除非男生全报考理科报考文理科之间的关系例如研究性别对系数则应选用变量时的不同取值都会影响因当自变量系数取决于研究对象系数和如何选择一般情况下QQ,,.,,,.,.,.,,)(;,,)(2因此更具有普遍意义究的相关统一起来进行研的变量的准则可以把各种层次由于后者变量间的相关性为准则来讨论例另一类是以减少误差比变量的相关性值为基础来讨论一类是以有两类讨论方法列联表对于列联表三PREPREcrcr四、列联强度我们知道社会现象的研究,旨在探索现象与现象之间的联系或称关系.而现象间关系的研究,可以帮助我们从一个现象预测另一现象.其中关系密切者,在预测中通过某一现象预测另一现象时,其盲目性比关系不密切者为少.因此,变量间的相关程度,可以通过不知两变量有关系时,预测其中一变量时的误差,与知道两变量有关系时,由一变量预测另一变量的误差之相对差值来度量之,又称减少误差比例法(PRE,Proportionalreductioninerror)四、列联强度系数系数和系数种的定义方法所形成的两和两种下面介绍列联表中根据一般相关与完全相关与无关与或者说相关程度越高越密切与则表示越大表示所减少的相对误差而所减少的误差预测有关系后与表示知道因此的全部误差预测用有关系后与知道的全部误差预测有关系时与不知式中—10,,31,0,,20,,,1.,,.,,:;,:,212211211212121121EEPRExyPREExyPREEExyxyEEEEEEyxyEEyxxyEyxyEEEEPRE四、列联强度xyjcijijPREyxyxyxyynnnnEEE同理可求得值称作所得定义的预测来对为自变量值都是以上述值具有非对称性全相关与无关与的取值范围边缘和中最高频次观察总数边缘和中最高频次每列最高频次之和系数,,,,1,;0,:)max()max()max(:1121四、列联强度例,为了研究饮食习惯与地区之关系.作了100人的抽样调查地区南方北方边缘和饮食习惯面食103040米食402060边缘和5050n=100问:饮食习惯是否与地区有关()?关系程度如何?05.0四、列联强度%25,,25.025.040106010060)3040()max()max()max(:.,84.37.16,84.3)1(7.161005060)100506020(1005060)100506040(1005040)100504030(1005040)100504010()()(1121205.022221121122可以减少预测误差的习惯之不同表示用地区去解释饮食系数地区差异的可以认为饮食习惯是有
本文标题:高级社会统计学第九部分列联表
链接地址:https://www.777doc.com/doc-1952693 .html