您好,欢迎访问三七文档
西南交通大学1西南交通大学李裕奇西南交通大学2一观测数据随机化的检验二独立性的检验三rs列联表西南交通大学3一观测数据随机化的检验基本思想:检验问题:H0:对某一总体的观测是随机性的H1:对某一总体的观测不是随机性的对于某一总体的观测数据:12,,,Nxxx1、利用游程总数检验法来检验这批数据的随机性西南交通大学41)对于一组观测数据,首先按得到数据的先后次序排列数据序列;2)再确定这组观测数据的中位数,并按顺序与中位数逐个比较,小于中位数的,记为“-”元素,大于中位数的,记为“+”元素,并按次顺序排成一个“+”与“-”元素序列:3)连续出现“+”元素为一个+游程,连续出现“-”元素为一个-游程,游程总数记为U,最大游程长度数记为L。如上例U=8,L=4西南交通大学5由定理3.2知,在m个“+”元素与n个“-”元素的任一排列出现的概率相等的假定下,“+”与“-”序列的游程总数U具有下列分布律:11{2}2/1mnmnPUkkkm1111{21}/11mnmnmnPUkkkkkm1,2,,min{,}kmn西南交通大学64)当H0真时,即m个“+”元素与n个“-”元素的任一排列出现的概率相等,即数据序列中“+”与“-”是随机出现的,因此U有偏大的趋势,故此时可按U的分布确定H0的拒绝域:(1)/2[](1)(1)/2/22{}{}/2uiuPUuPUi(1)/212(,)Uunn或(2)/212(,)Uunn(2)/22min(,)1(2)(2)/2/21{}{}/2mniuuPUuPUi12min{,},max{,}nmnnmn西南交通大学7随机化数据检验法步骤:1)提出统计假设:2)显著性水平?样本容量?4)判断:将样本数据按上述排成“+”与“-”组成的元素序列,得出游程总数,并与临界值比较得结论H0:对某一总体的观测是随机性的H1:对某一总体的观测不是随机性的3)H0的拒绝域:(1)/2Uu或(2)/2Uu西南交通大学8其中样本中位数为(1)()(1)21ˆ1[]22kmnkkXmnkXXmnk西南交通大学9例4.1对某段公路上一段时间内通过汽车车辆数的观测,得到这段时间内通过的汽车辆数,连续记录了24天,所获数据如下:158471814214843225336389156356642630335036041试就这组数据判断观测是否随机的?(0.05)西南交通大学102、利用游程长度检验法来检验这批数据的随机性步骤1)提出统计假设:2)显著性水平?样本容量?4)判断:将样本数据按上述排成“+”与“-”组成的元素序列,得出最大游程长度,并与临界值比较得结论H0:对某一总体的观测是随机性的H1:对某一总体的观测不是随机性的3)H0的拒绝域:LL西南交通大学11例4.2对某一总体进行观测,得到的数据按其获得的先后次序排列如下:251837142148922153638265330385843564150606463试用最大游程长度L作检验统计量,检验这组数据判断观测是否随机的?(0.05)西南交通大学12二独立性的检验1二事件的独立性检验基本思想:检验问题:H0:事件A与B是相互独立的H1:事件A与B是相依的进行n次观察,每次观察只有四种可能结果:ABABABAB西南交通大学13若H0真时,由事件独立性知识可知1..11..2()()PABppPABpp2..12..2()()PABppPABpp故若H0真时,在n次观察中事件A与B实际出现与否的次数,与事件独立情况下理论出现的次数应是一致,不会偏离太多,因此可利用卡方检验法检验A与B的独立性。西南交通大学14列变量(B)总计B行变量AAn11n12n11+n12=n1.n21n22n21+n22=n2.总计n11+n21=n.1n12+n22=n.2nn次观察结果如下(22列联表)BA西南交通大学15其中11122122,,,nnnn分别表示ABABABAB在n次观察中实际出现的次数1.2.1.2..1.2.1.2ˆˆ()(),ˆˆ()()nnpPApPAnnnnpPBpPBnn则事件的概率的估计为ABAB西南交通大学162..12..222(),()nnnnPABPABnn为理论概率P(AiBj)的估计值1..11..12()nnnnPABnnn故知1..21..22()nnnnPABnnn西南交通大学17故实际频数与理论频数之差为:nnnnjiij..nnnnnnnjiji..2..事件发生的实际频数为nijABABABAB而事件发生的理论频数为:ABABABAB西南交通大学18)1(~)(22121..2..2ijjijiijnnnnnnn对22列联表,构造统计量故可利用此统计量建立H0的拒绝域西南交通大学19独立性检验法步骤:1)提出统计假设:2)显著性水平?样本容量?4)判断:将样本数据由卡方计算表计算卡方值,并与临界值比较得结论3)H0的拒绝域:22(1)H0:事件A与B是相互独立的H1:事件A与B是相依的西南交通大学20例4.3:分析吸烟量与年龄关系调查结果:级别60岁以上60岁以下∑20支以上/日50156520支以下/日102535∑6040100西南交通大学2116.221004035)100403525(1004065)100406515(1006035)100603510(1006560)100656050(22222计算卡方统计量的值:西南交通大学22其自由度为1,对于显著性水平α=0.01时,临界值635.6)1(201.0显然,635.6)1(16.22201.02所以我们应拒绝H0,即认为吸烟量与年龄有关。西南交通大学232二随机变量的独立性检验基本思想:检验问题:H0:二随机变量X与Y是相互独立的H1:二随机变量X与Y是相依的1)首先把X的一切可能值的集合A与Y的一切可能值的集合B进行分割:11()()riijisjijjAAAAijBBBBij西南交通大学242)对(X,Y)进行n次独立观测,分别记录事件,ijXAYB出现的频数,所得结果列成rs格列联表:B1B2Bs∑A1A2Arn11n12n1sn21n22n2snr1nr2nrsn1.n2.nr.∑n.1n.2n.sn西南交通大学25故实际频数与理论频数之差为:nnnnjiij..事件发生的实际频数为nij而事件发生的理论频数为:nnnnnnnjiji..2..,ijXAYB,ijXAYB西南交通大学26..222..11()~((1)(1))ijrsijijijnnnnrsnnn对rs列联表,统计量3)若H0真时,在n次观察中事件AiBj实际出现的次数,与事件Ai与Bj独立情况下理论出现的次数应是一致,不会偏离太多,因此可利用卡方检验法检验X与Y的独立性。西南交通大学27随机变量独立性检验法步骤:1)提出统计假设:2)显著性水平?样本容量?4)判断:将样本数据由卡方计算表计算卡方值,并与临界值比较得结论3)H0的拒绝域:22((1)(1))rsH0:事件X与Y是相互独立的H1:事件X与Y是相依的西南交通大学28例4.4:从某系四个年级中随机抽取155人,征求对教学改革的意见,分三种情况统计如下:年级(A)态度(B)∑赞成不赞成无所谓一年级30101252二年级2461444三年级202830四年级184729∑922241155西南交通大学29计算卡方统计量的值:4131..2..4131..2..2)()(ijjijiijijjijiijnnnnnnnnnnnnnn59.12)23(404.3205.02所以可以认为各年级不同意见的构成比没有显著差异。西南交通大学30三rs格列联表1r2格列联表的卡方值的化简式B1B2∑A1A2Arm1n1-m1m2n2-m2mrnr-mrn1n2nr∑n.1n.2n西南交通大学312221ˆ()~(1)ˆˆriiimnprnpq对r2列联表,统计量其中11ˆˆˆ1riipmqpn西南交通大学32随机变量独立性检验法步骤:1)提出统计假设:2)显著性水平?样本容量?4)判断:将样本数据由卡方计算表计算卡方值,并与临界值比较得结论3)H0的拒绝域:22(1)rH0:事件X与Y是相互独立的H1:事件X与Y是相依的西南交通大学33例4.5下表为某地某年12个月中出生的婴儿数,试问各月中男婴的出生率是否一样?见P97西南交通大学34222格列联表连续性修正222()~(1)()()()()nadbcabcdacbdA1A2∑B1aba+bB2cdc+d∑a+cb+dn西南交通大学35耶茨连续性修整统计量:222(0.5)~(1)()()()()nadbcnabcdacbd通过例4.7可以看出对原统计量的一种改善西南交通大学36322格列联表Fisher精确性检验方法进行检验:可采用法不可靠,时,当Fisher40,52nnijA1A2∑B1aba+bB2cdc+d∑a+cb+dn西南交通大学37若A,B相互独立,边缘总计保持不变,频数a,b,c,d任何一种特定排列的概率计算公式为:!!!!!)!()!()!()!(ndcbadbcadcbaPr计算同样边缘总计的连带迹象的其它特定排列的总和,再利用此Pr与临界值比较,得出检验结果。西南交通大学381)有实际频数为零的情况:例4.6用新旧两种药物治疗某种疾病,统计结果如下,试检验其差别是否有显著意义?组别未愈(B1)治愈(B2)∑旧药(A1)426新药(A2)055∑4711西南交通大学39上表人数过少,且方法进行检验:,故可采用Fisher40,5nnij!!!!!)!()!()!()!(ndcbadbcadcbaPr045.0!11!5!0!2!4!7!4!5!6西南交通大学40本例是研究两种药物治疗效果差异有无显著意义,是双侧检验,若取显著性水平α=0.05,则因P=0.0450.025,可认为差别无显著意义;若本例是研究的问题是否新药优于旧药物,则为单侧检验,此时若取显著性水平α=0.05,则因P=0.0450.025,可认为差别有显著意义。西南交通大学412)没有实际频数为零的情况此时则需计算更加极端的概率之和。例4.7用新旧两种药物治疗某种疾病,统计结果如下,试检验其差别是否有显著意义?组别未愈(B1)治愈(B2)∑旧药(A1)527新药(A2)246∑7611西南交通大学42此时除上述概率外,还需计算下述两种极端情况的概率所谓更加极端的情况是指原来治愈率高的治愈人数更要加多,治愈率低的治愈人数更要减少,直至出现零为止。但要保持边缘总计数字不变。因此除了以上情况外,还有新药组未愈人数为1或0的情况,即西南交通大学43组别未愈(B1)治愈(B2)∑旧药(A1)617新药(A2)156∑7611组别未愈(B1)治愈(B2)∑旧药(A1)707新药(A2)066∑7611西南交通大学44由此计算出三种情况的概率为:1836.0!13!4!2!2!5!6!7!6!71P0245.0!13!5!1!1!6!6!7!6!72P0006.0!13!6!0!0!7!6!7!6!73P西南交通大学45最后将三种情况的概率相加得:2087.00006.00245.01836.0
本文标题:随机性与独立性检验
链接地址:https://www.777doc.com/doc-5228229 .html