您好,欢迎访问三七文档
第七章拟合优度检验拟合优度检验的应用总体分布未知,从样本数据中发现规律(总体分布),再利用拟合优度检验对假设的总体分布进行验证。【引例1】某地区在1500到1931年的432年间,共爆发了299次战争,具体数据如下(每年爆发战争的次数可以看作一个随机变量X):战争次数X0123422314248154发生X次战争的年数根据我们对泊松分布产生的一般条件的理解,可以用一个泊松随机变量来近似描述每年爆发战争的次数。也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布。现在的问题是:上面的数据能否证实X具有泊松分布的假设是正确的?【引例2】某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,校准24小时后进行检查,将每个钟的误差(快或慢)按秒记录下来。问该厂生产的钟的误差是否服从正态分布?【引例3】某工厂制造了一批骰子,声称它是均匀的。为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距。问题是:得到的数据能否说明“骰子均匀”的假设是可信的?K.皮尔逊解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中介绍了χ2检验法。拟合优度检验的工具-χ2检验χ2检验法是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。H0:总体X的分布函数为F(x)然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设。这种检验通常称作拟合优度检验,它是一种非参数检验。使用χ2检验法对总体分布进行检验时,先提出原假设:拟合优度检验的一般步骤1.将总体X的取值范围分成k个互不重叠的小区间,记作A1,A2,…,Ak。2.把落入第i个小区间Ai的样本值的个数记作fi,称为实测频数;所有实测频数之和(f1+f2+…+fk)等于样本容量n。3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,npi就是落入区间Ai的样本值的理论频数。皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:在理论分布已知的条件下,npi是常量实测频数理论频数iifnp221()kiiiifnpnp4.观测频数与理论频数比较,判断二者不符合程度是否由于机会所造成。统计量的分布是什么?2皮尔逊为什么会选用这个统计量?两个问题:关于第一个问题,皮尔逊证明了如下定理:若原假设中的理论分布F(x)已经完全给定,那么当n→∞时,统计量:221()kiiiifnpnp的分布渐近(k-1)个自由度的分布。2如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当n→∞时,统计量的分布渐近(k-1-r)个自由度的分布。22皮尔逊定理的几点说明统计量的选择自由度的确定连续性矫正统计量的选择求k个Oi-Ti之和,显然它们恒等于0求k个(Oi-Ti)2之和,得不出相对的不符合程度Oi=9、Ti=6,Oi-Ti=3;Oi=49、Ti=46,Oi-Ti=3。前者的不符合程度远大于后者。求k个[(Oi-Ti)/Ti]2之和,但仍有问题如:Oi=8、Ti=5以及Oi=80、Ti=50时(Oi-Ti)/Ti都等于0.6。统计量的选择为了解决上述问题,以Ti为权求加权值22111kkkiiiiiiiiiiiiOTfnpOTTTTnp21kiiiiiOTTT21kiiiiOTT自由度的确定变量之间存在着一个制约关系:1()0kiiifnp故统计量渐近(k-1)个自由度的分布。22221()kiiiifnpnp在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个。若有r个未知参数需用相应的估计量来代替,自由度就减少r个。故统计量渐近(k-1-r)个自由度的分布。22如果根据所给的样本值X1,X2,…,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设。得拒绝域:(不需估计参数)(估计r个参数)根据皮尔逊定理,对给定的显著性水平α,查分布表可得临界值,使得2222()P2221,k221,kr连续性矫正当df=1时应做连续性矫正,矫正方法如下:kiiiiTTO1225.0皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi不太小这两个条件。根据计算实践,要求n不小于50,以及npi都不小于5。否则应适当合并区间,使npi满足这个要求。皮尔逊定理小结奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了分离规律。孟德尔以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用。【例1】子二代子一代…黄色纯系…绿色纯系他的一组观察结果为:黄70,绿27近似为2.59:1,与理论值相近。根据他的理论,子二代中,黄、绿之比近似为3:1,这里,n=70+27=97,k=2,检验孟德尔的3:1理论:提出假设H0:O-T=0(p1=3/4,p2=1/4)理论频数为:np1=72.75,np2=24.25实测频数为70(黄),27(绿)。自由度为2-1=1未落入拒绝域。故认为试验结果符合孟德尔的3:1理论。2221iiiifnpnp按α=0.05,自由度为1,查表得21,0.053.8412由于统计量=0.41583.84122211iiiifnpnp~22(7072.75)(2724.25)0.415872.7524.25【引例1】某地区在1500到1931年的432年间,共爆发了299次战争,具体数据如下(每年爆发战争的次数可以看作一个随机变量X):战争次数X0123422314248154发生X次战争的年数【例2】引例1,检验每年爆发战争次数分布是否服从泊松分布。按参数λ为0.69的泊松分布,计算事件X=i的概率pi,pi的估计是:H0:O-T=0(X服从参数为λ的泊松分布)根据观察结果,得参数λ的极大似然估计为:0.69X0.690.69/!,0,1,2,3,4iipeii解:将有关计算结果列表如下:2.因H0所假设的理论分布中有一个未知参数λ,故自由度为4-1-1=2。1.将npi5的组予以合并,即将发生3次及4次战争的组归并为一组。x01234fi22314248154pi0.580.310.180.010.02npi216.7149.551.612.02.160.1830.3760.2511.623战争次数实测频数14.162.432iiifnpnp按α=0.05,自由度为4-1-1=2,查表得:22,0.055.991统计量:22.435.991未落入拒绝域。故认为每年发生战争的次数X服从参数为0.69的泊松分布。χ2检验的另一应用-独立性检验是指研究两个或两个以上的计数资料(或属性资料)之间是否相互独立的假设检验,先假设所观测的各属性之间没有关联,然后检验这种无关联的假设是否成立。方法1:列联表χ2检验列联表χ2检验属独立性检验。例下表给出不同给药方式与给药效果给药方式有效(A)无效(A)总数有效率口服(B)58409859.2%注射(B)64319567.4%总数12271193列联表χ2检验的原理【例】下表给出不同给药方式与给药效果,问给药方式与给药效果是否有关联。22211kkiiiiiiiiOTfnpTnp检验统计量:列联表χ2检验属独立性检验。例下表给出不同给药方式与给药效果给药方式有效(A)无效(A)总数有效率口服(B)58409859.2%注射(B)64319567.4%总数12271193列联表χ2检验的原理【例】下表给出不同给药方式与给药效果,求证:给药方式与给药效果有无关联。若事件A和事件B是相互独立的,则P(AB)=P(A)P(B)列联表χ2检验一般步骤1.提出零假设:假设实测数与理论数无差异。即H0:O-T=0。2.计算理论数:若事件A和事件B是相互独立的,则P(AB)=P(A)P(B)。例如:在给药方式和效果之间是相互独立的前提下,计算口服(事件B)有效(事件A)的概率P(BA)=P(B)P(A)=(98/193)(122/193)。其理论数T1=(98/193)(122/193)193=(98)(122)/193。每个理论值用Tij表示,Tij=(i行总数)(j列总数)/总数。列联表χ2检验一般步骤3.计算χ2值:若χ2χ2α,则接受H0;若χ2χ2α,则拒绝H0。4.确定df:因为每一行的各理论数受该行总数约束,每一列的各理论数受该列总数约束,所以df=(r-1)(c-1)。5.给出结论。上例的计算结果如下:有效无效总数口服O1=58O2=4098T1=(98)(122)/193=61.95T2=(98)(71)/193=36.05注射O3=64O4=3195T3=(95)(122)/193=60.05T4=(95)(71)/193=34.95总数122711932.计算理论数:1.零假设H0:O-T=0Tij=(i行总数)(j列总数)/总数391.1466.0260.0433.0252.095.3495.343105.6005.606405.3605.364095.6195.615822224122iiiiTTO上例的计算结果如下:有效无效总数口服O1=58O2=4098T1=(98)(122)/193=61.95T2=(98)(71)/193=36.05注射O3=64O4=3195T3=(95)(122)/193=60.05T4=(95)(71)/193=34.95总数122711933.计算χ2值4.确定dfdf=(r-1)(c-1)=(2-1)(2-1)=1取α=0.05,205.02205.00,841.3,11212,05.0,0:dfTOH220.051.3915.给出结论:接受H0,不同给药方式的治疗效果没有显著不同。注意:本例的df=1应当矫正,矫正后的χ2值更小,不会影响结论,可以不再矫正。r×c列联表χ2检验r×c列联表是2×2表的扩展;反之,2×2表也可以看成是r×c列联表的一个特例。r×c列联表理论数的计算与2×2列联表相同:Tij=(i行总数)(j列总数)/总数。df=(r-1)(c-1)。【例】检查鱼的饲养方式与鱼的等级是否有关,设计了如下试验:按不同方式分为三种网箱饲养类型:A、B、C,统计不同饲养方式下鱼的等级情况,得如下数据,试分析。等级饲养方式总数ABC甲22181656乙18161448丙11131438丁8111029总数595854171等级饲养方式总数ABC甲22(19.32)18(18.99)16(17.68)56乙18(16.56)16(16.28)14(15.16)48丙11(13.11)13(12.89)14(12.0)38丁8(10.01)11(9.84)10(9.16)29总数5958541712.计算理论数:1.零假设H0:O-T=0Tij=(i行总数)(j列总数)/总数22221221()(2219.32)(1818.99)(109.16)...2.09319.3218.999.16iiiiOTT22221221()(2219.32)(1818.99)(109.16)...2.09319.3218.999.16iiiiOTT22221221()(2219.32)(1818.99)(109.16)...2.09319.3218.999.16iiiiOTT3.计算χ2值等级饲养方式总数ABC甲22(19.
本文标题:拟合优度检验
链接地址:https://www.777doc.com/doc-6800881 .html