您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 应用数理统计,假设检验非参数检验
1§3.4检验的实际意义及两类错误检验方法的评价问题:按什么标准来提出原假设?由于对于相应的问题检验方法不唯一,最优的方法是什么?检验的优劣与显著性水平a的关系如何?以及结论的实际意义是什么?3.4.1检验结果的实际意义(a)检验的原理“小概率事件在一次试验中不发生”。此结论只是在概率意义下成立,并不是严格成立的。如摸奖问题(例3.3,P72),因此当摸奖人事实上确实未作弊时,商店的统计推断就犯了错误,“小概率事件在一次试验中可能发生”.2(b)原假设与备择假设的地位是不对称的,当“小概率事件”未发生时,就不能拒绝原假设但不等于逻辑上证明了成立,只能说没有充分的证据拒绝。即受保护.0H0H1:,0:)1(10HH0:,1:)2(10HH都成立。例3.11(P92)设总体X~N(,1),又设X1,X2,...,Xn为总体X的样本,样本均值=X1=0.5,样本容量n=1,α=0.05,提出两种假设的方法,分别如下:095.00645.15.0105.0/)1(HnXu接收095.00645.15.0115.0/)2(HnXu接收3实际中,一般提出原假设要慎重,倾向于不轻易否定,而受保护的程度为α。其越小,小概率事件就越难发生,H0就越难被否定。(c)从另一角度看,既然原假设H0受保护,则对其的肯定相对来说是缺乏说服力的,反之对其的否定则是有力的,且α越小,小概率事件就越难发生,一旦发生了,这种否定就越有力。0143.4.2检验中的两类错误所谓犯错误是指检验的结论与实际情况不符。•两类错误:(1)H0成立,而检验结果表明其不成立——“弃真”;(2)H0不成立,而检验结果表明其成立——“取伪”。记:=P{第一类错误}=P{拒绝H0|H0真}=P{第二类错误}=P{接受H0|H0伪}检验的本质是构造否定域V,在看样本点是否落入V中。当然,我们希望犯两类错误的概率都尽可能的小,最好都为零.但当样本容量固定时,是不可能的.在实际问题中,通常的做法是:先限制犯第一类错误的概率,即根据实际情况,指定一个较小的数(如0.05,0.01等),有了的值,从而可确定拒绝域.5例3.12(P94)设总体X~N(,02),02已知,又设X1,X2,...,Xn为总体X的样本,x1,x2,…,xn为X的一组样本观测值,试求对问题:的检验的两类错误的概率。01100:,:HH拒绝域:1{}Vuu单侧检验1111010{/}{/}()/PVPn0{/}PV1010:(,1)/HNn成立0:(0,1)HN成立63.4.3样本容量确定问题•从例3.12看出,当样本容量固定时,若要控制第一类错误的概率,就不能使第二类错误的概率任意小。但从(3.10)式看出,固定α,使n增大,可使β任意小。•但实际中,样本的采集是有成本的,或根本无法获得大样本。•引出问题:能否确定一个最小的n使得两类错误的概率都在控制的范围。7(一)正态总体,已知;的u检验。),(2N201100:;:HH1010101001210()//()[]nnn当等式右端不是整数时,取不小于右端的最小的整数8(二)正态总体,未知,考虑的检验。22200110:;:HH),(2N22221112222001221122012(1)12220121{/}{(1)/}{(1)}((1)):(1)(1)nPVHPnHPnFnnn得隐式解,通过给定的α和β试算确定n.9例3.13一门炮需通过发射试验来进行精度验收,假设命中误差是纯随机的,又横向(或纵向)误差容许的标准差为σ0,制造方要求采用的检验方法要求保证:如果产品合格而被拒绝的概率不大于5%;使用方要求保证,若产品不合格且标准差超过√2σ0而被接受的概率小于10%,试问至少应发射多少发炮弹进行试验,才能满足双方的要求。22200110:;:2HH解:设炮弹落点的横向(或纵向)偏差服从正态分布,2220121(1)(1)nn利用上式,通过给定的α=0.05和β=0.1,查表进行试算,最后确定n=37.220.10.951(1)(1)2nn10SPSS软件:参数检验之均值检验•Means过程对准备比较的各组计算描述指标,进行预分析,也可直接比较。•One-SamplesTTest过程进行样本均数与已知总体均数的比较。•Independent-SamplesTTest过程进行两样本均数差别的比较,即通常所说的两组资料的t检验。•Paired-SamplesTTest过程进行配对资料的显著性检验,即配对t检验。•One-WayANOVA过程进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。112/21()2()()utyuedtxyFx再通过转换:将u通过转换为y以后,留下x和y的刻度就是正态概率纸,是非均匀刻度。若是一般正态分布总体,则分布函数的图形,在x-u平面上是一条直线。即:x=σu+μ.σ不同表示斜率不同,μ不同表示在x轴上的截距不同。(二)检验方法0:()()xHFx若假设H0为真,则在概率纸上的坐标点(xi’,Fn(xi’)(i=1,2,…,m)在一条直线上。若在(近似)一条直线上,就接受假设,否则拒绝。一般中间点靠近即可。12§3.5非参数假设检验总体的分布类型不知道,仅知是连续或离散型(一)正态概率纸的构造首先建立一直角坐标系,横轴上刻度为x轴,纵轴上刻度为u值,都为均匀刻度。其中:xu3.5.1正态概率纸检验工程上常用的简单但粗糙方法,用以判断是否正态分布以及相应的均值和方差估计。非参数检验随机变量之间的独立性检验总体分布函数的拟合检验{13基本方法是首先将容量为n的样本从小到大排序得到,则样本的经验分布函数可表示为当时,实际上取,相应的是N(0,1)的分位点,此时点应该近似在直线上。如果由样本计算出的n个点近似在直线上,则可认为它来自正态分布。一般地,中间的点的位置离直线的偏差不能太大,两头的离直线位置的偏差可以大一些.否则拒绝原假设.•讲解P99-101(例3.14)14表3.3编号分组区间组中值频数累积频数累积频率(%)1(-∞,198]196.56652(198,201]199.571310.833(201,204]202.5142722.504(204,207]205.5204739.175(207,210]208.5237058.336(210,213]211.5229276.667(213,216]214.51410688.338(216,219]217.58114959(219,+∞)220.56120100以分组区间的中点(组中值)为横坐标,累积频率为纵坐标,在正态概率纸上描出9个点(如图3-6,见书上P101)15由图形检验大致地判断出总体是服从正态分布后,•由于由与直线交点的横坐标即为;又由于,•则与直线的交点的横坐标为得到。除此之外,还有对数正态概率纸,威布Weibull概率纸等来研究相应的分布——定性的方法。%50)0()(F%50y0.5ˆx%87.15)1()(F%87.15y0.50.1587ˆxx(三)未知参数μ,σ2的估计以下介绍数值检验方法(定量方法)。16SPSS软件:非参数检验之正态概率纸•输入数据:确定变量,输入样本.•若是分组资料,样本值输入组中值,再加权(DATAWeighBy频数)•Q-Q图——一种正态概率纸,检验的命令在GRAPHS菜单,由得到的图形是否为一条直线,可以大致地判断总体是否服从正态分布。•P99-101(例3.14)173.5.2皮尔逊拟合检验拟合检验:H0:X的分布函数为F0(X)•为理论分布,用其去拟合样本值。•拟合优度:拟合好坏的标准,即拟合的优良程度。•设总体X(一维或多维)的分布完全已知或分布中含有未知参数。•为样本值。2)(0xFnXXX,...,,21)(0xFnXXX,...,,21一般原则:构造检验统计量(样本X与总体分布F0的偏差的度量)及界限D0。•若D超过了D0,就否定,否则接受原假设。):,...,(01FXXDn•对于D的不同定义可以得到不同的检验方法。18(一)理论分布完全已知的情况1设总体X是离散型,取有限值理论分布律F0:原假设记ni为中等于ai的个数,(ni称为ai的观察频数),kaaa,...,,210:{},1,2,...,,0,1iiiiHPXapikppnXXX,...,,21kiinn1Xa1a2…akPp1p2…pk19•而npi称作ai的理论频数。•当X的分布为F0,,由大数定理,H0成立时,与相差不大。•1900年,皮尔逊建立了统计量用来衡量理论分布{p1,p2,…,pk}与实际数据的偏差.(相对差异的总和)。iinpEninnipkiiiinpnpn122)(20•得到了:当为真时,•当为假时,•皮尔逊还证明了,时,统计量的极限分布为0H2()()(1)iiiiiDnEnnpnpp0H)1()(2iiiipnpnpnEn)1(2k221•因此,给定检验水平α上述检验问题的否定域为:(单侧检验问题)•此时,时,——皮尔逊检验法。讲解例3.15(P104))}1({:212kVn}|)1({0212HkP20:{},1,2,...,iiHPXapik22BinomialTest02.02.01.264a198.981001.00Group1Group2Total产品CategoryNObservedProp.TestProp.Asymp.Sig.(1-tailed)BasedonZApproximation.a.Sig.P值α=0.05,接受H0TestStatistics1.0101.315Chi-SquareadfAsymp.Sig.产品1cells(50.0%)haveexpectedfrequencieslessthan5.Theminimumexpectedcellfrequencyis1.0.a.SPSS输入变量值及频数,给变量加权选ANALYZE菜单非参数检验二项分布检验,输入检验参数值.23(2)为一般(连续)的完全已知分布化作离散型处理(设一维的情况)•选取常数,将分成k个互不相交的区间,记作。•记为X落入区间的概率.)(0xF121,...,,kaaa121...kaaa),(kiaaIiii,...,2,1],,[1kiaFaFPiii,...,2,1),()(100iIkaa,024•记为样本落入区间的频数,理论频数为。•皮尔逊检验统计量为•在为真时,其极限分布为•其余方法与前(1)相同。innXXX,...,,21iIinpkiiiinpnpn122)(0H)1(2k25在许多实际问题中,理论分布类型已知,但其中含有若干未知参数.如:此时,检验•先求下,未知参数的点估计(最大似然估计),记作,•再计算)(),;(0xxF),...,;()(:100mxFxFH0H)ˆ,...,ˆ(ˆ1mkiaFaFpiii,...,2,1),ˆ;()ˆ;(ˆ100(二)理论分布带参数的情况26•用此代替前述的,得到统计量为•Fisher证明了满足一定条件下的点估计,其极限分布为于是,否定域为•具体过程见P106,例3.16。ipkiiiipnpnn122ˆ)ˆ()
本文标题:应用数理统计,假设检验非参数检验
链接地址:https://www.777doc.com/doc-2420306 .html