您好,欢迎访问三七文档
第四章统计抽样与抽样分布第四章统计抽样与抽样分布本章为推断性统计学的基础章节,将系统介绍统计抽样的基本概念以及整个推断性统计学中所涉及的几种与正态分布有关的概率分布。4.1关于抽样的基本概念4.1.1为什么要抽样为了收集必要的资料,对所研究的对象(总体)的全部元素逐一进行观测,往往不很现实。一种情形是研究的总体元素非常多,搜集数据费时,费用大,不及时而使所得的数据无意义(如在质量检验中,全部检查使废品数量又增加了许多)。另一种情形是检查具有破坏性,如对炮弹、灯管、砖的检查等,因此必须进行抽样。4.1.2简单随机抽样不同的抽样方式,样本与总体的关系不一样,构成不同的抽样技术,本书全部都是指简单随机抽样。首先介绍一下有关样本随机性的知识。把总体看成随机变量X,对其进行n次观测,得到一个容量为n的样本:(1)x1,x2(1)(1),……,xn(2)(2)如另作n次观测,则会得到由不同的观测结果x1,x2,……,xn(2)所组成第二个样本。如继续下去,会得到很多不同的样本,从容量为N的总体中抽取容量为n的样本,则有个。nNC尽管我们实际中只抽取一个样本,但是在观测之前,样本的出现具有随机性。因此,样本的每一个观测值,例如第一个观测值,在观测之前就是一个随机变量,记作X,观测得到它的取值记作x11,第二个元素,第三个元素依次类推。所以一个容量为n的样本,在观测之前,就是一个n维向量,即(x1,x,……,x2n)。简单随机抽样是指这n个随机变量组成样本时,要具备以下两个条件:①这n个随机变量与总体X具有相同的概率分布;②它们之间相互独立。-43-第四章统计抽样与抽样分布4.1.3样本统计量与抽样分布前面采取的简单随机抽样,样本具有随机性,样本的随机数x,s2等也会随着样本不同而不同,故它们是样本的函数。记为g(x1,x,……,x2n)称为样本统计量。统计量的概率分布称为抽样分布(Sampledistribution)4.2几种与正态分布有关的概率分布通常我们把总体看作是一个随机变量X,有它自身的分布,(大多数均视为正态分布),其分布中有参数,这些参数往往与总体特征数有关,正态分布有两个参数,μ,σ2,其中μ就是X的期望,σ2就是X的方差。所以我们常把总体的特征数叫做总体参数。这些总体特征数不宜直接求出,由于样本是总体的一部分,故可根据样本统计量的信息推断总体参数。为了介绍总统参数的推断,这里先来介绍几个与正态分布有关的概率分布。4.2.1正态分布1.若随机变量X的概率密度函数为:,21)(222)(σμπσ−−=xexf+∞∞−x(4-1)记为),(~2σμNX∫∞−=≤xt)t(f)xX(Pd(4-2)2221)(tet−=πϕ当时,1,02==σμ~(0,1)Nμ记为)u(te)uU(Ptuφπ==≤−∞−∫d2122σμ−=XU令,标准正态分布概率密度函数如图4-1所示:-44-第四章统计抽样与抽样分布图4-1标准正态分布概率密度函数2.查表当u大于零时,可查正态分布表,但如果u0时,则可由下式φ(-u)=1-φ(u)求出。≤X≤x时的概率,可由下面的推导得到:若求当x12)()()()(d21d21)()(12122,2)(212122211212221σμφσμφφφπποσμσμσμ−−−=−=⎯⎯⎯⎯⎯→⎯==≤≤∫∫∫−=−=−−xxUUuexedttfxXxPuuuxUxUxxxxx见图4-2和图4-3μx1x20f(x)x图4-2正态函数概率密度计算示意图-45-第四章统计抽样与抽样分布u1u20f(u)u图4-3标准正态函数概率密度计算示意图3.正态分布的线性性质:如果),,2,1(niXiL=服从正态分布,,且相互独立。对于常数,有下式成立:),(~2iiiNXσμia(1)),(~1211∑∑∑===niiniiniiNXσμ(2)),(~22iiiaaNaXσμ可以看出,正态随机变量的线性组合仍然为正态随机变量。2χ分布4.2.21.定义:是相互独立且服从N(0,1)分布的随机变量,则称随机变量nxxx,,,21L∑==niixχ1222χ所服从的分布是自由度为n的分布,且记)(~22nχχ,其概率密度函数为:⎪⎩⎪⎨⎧≤=−−0,,00,);(122xxxeAnxfnxn(4-3)-46-第四章统计抽样与抽样分布其中,是仅与n有关的常数。f(x)的图形随n的不同而不同,如图4-4所示。nA2χ图4-4分布概率密度函数2χ2.分布的随机变量的期望与方差为:2()Enχ=(4-4a)2()2Dχn=(4-4b)2χ3.查表:对于给定的α,0α1,可在分布表中查得,即}{αχχαα==∫+∞2d22xx)n,x(f)n(P(4-5)例如:,即指,见图4-5。15.987(10)χ20.1=}{10d9781510978152.x)n;x(f.)(P.==∫+∞χ-47-第四章统计抽样与抽样分布αf(x;n)2αχ2χ2χ图4-5分布函数概率密度计算示意图2χ4.分布的性质:①如果,则)1,0(~NX)1(~22χX②设且相互独立,则)(~),(~22221221nnχχχχ)(~2122221nn++χχχ③若222123χχχ+=,已知2221,χχ相互独立,则)(~),(~2231221nnχχχχ)(~1222nn−χχ∑==niixnx11④总体,是X的一个样本,),(~2σμNXnxxx,,,21L∑=−−=nii)xx(ns12211为样本的方差。则样本的平均数,2sx与相互独立a.)1(~)1(222−−nsnχσb.4.2.3F分布1.定义:设相互独立的随机变量V和W分别服从自由度为的21,nn2χ分布,-48-第四章统计抽样与抽样分布21//nWnVF=即,则随机变量)(~),(~2212nWnVχχ所服从的分布为F分布。n1,n2分别是它的第一自由度和第二自由度,且通常记为。其概率密度函数如下,如图4-6所示:),(~21nnFF⎪⎪⎪⎩⎪⎪⎪⎨⎧≥+⋅=+−000)1(),(),;(221122121211xxnxnxnnBnnxfnnn(4-6)2212121211)()2()2()2(),(nnnnnnnnnB⋅ΓΓ+Γ=。其中图4-6F分布概率密度函数2.F分布的期望与方差:)2(2)(222−=nnnFE(4-7a))4()4()2(2)2()(221212222−−+⋅−=nnnnnnnFD(4-7b)-49-第四章统计抽样与抽样分布3.查表:。)(x)x(f)FF(PF10d==∫∞αααα4.性质:),(1),(12211nnFnnFαα=−F分布表给出了F分布的上侧100α百分位数,表中没有列出的某些值可利用上面提到的性质求出。4.2.4t分布(Students分布)1.定义:设随机变量U服从标准正态分布,随机变量W服从自由度为n的nWUT/=2χ分布,且U与W相互独立,则称随机变量所服从的分布为自由度为n的t分布,且记T~t(n)。2.t分布的概率密度为:(+∞∞−+=+−tntCtfnn212)1()()(4-8)πnnnCn)2()21(Γ+Γ=。f(t)的图形随自由度n不同而不同,与正态分布的形状相似,如图4-7显示了n1=,及时的t分布图。10n=n=∞-50-第四章统计抽样与抽样分布1n=10n=n=∞时图4-7自由度分别为,及t分布概率密度函数}{αα=)(||2/nttP}{αα=)(nttP3.查表:。或4.性质:2221)(limtnetf−∞→=π当n很大时,此时,tα/2≈uα/2,t分布近似标准正态分布。5.t分布的期望与方差:对于t~t(n),E(t)=0,D(t)=n/n-2(4-9)其中:n2。4.3样本平均数的抽样分布2~(,)xNμσ1,2,,nxxLx是总体X的随机样本,样本平均数设总体,-51-第四章统计抽样与抽样分布∑=n/xXiX抽样分布的均值和方差为:为,则容易推出∑∑====nnXDnXE2221)(,1)(σσμμ证明:[]μμ=⋅=+++=+++=+++=nnxExExEnxxxEnnxxxEXEnnn1)()()(1)(1)()(212121LLLnnn)xxx(Dn)nxxx(D)X(Dnn2222122111σσ=⋅=+++=+++=LLX当X不服从正态分布时,根据中心极限定理,随n的增加而近似正态分布,即对于足够大的n,有∫∞−−→≤−uxxe}un/X{Pd2122πσμ上述的关于均值和方差的公式以及中心极限定理都是对无限总体而言的。但对于有限总体若采取有放回抽样,则与无限总体等价。若有限总体容量为N而采取无放回抽样,且n/N≤0.1,仍可视为无限总体,而当n/N0.1时则1)(1)()(2−−=−−⋅==NnNnXNnNnXDXEσσσμ称式1−−NnN为有限总体的修正系数。4.4中心极限定理xx确定抽样分布特征的最后一步是确定概率分布的形式。我们考虑-52-第四章统计抽样与抽样分布两种情形:一种是总体分布未知,另一种为已知总体分布为正态分布。总体分布未知时,我们依赖于统计学中最重要的定理之一——中心极限定理。中心极限定理在抽样分布中的应用如下:中心极限定理从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值x的抽样分布可用正态概率分布近似。图4-8说明对于三个不同总体中心极限定理的作用。在每种情形下,显然总体是非正态的。然而,我们注意到随着样本容量的增加,x抽样分布开始发生变化。例如,当样本客量为2时,我们看到x抽样分布开始呈现与总体分布不同的外形;样本容量为5时,三个抽样分布都开始呈现—种钟形外形;最后,当样本容量为30时,三个抽样分布近似于一种正态。因而,当样本容量足够大时,x抽样分布可用正态概率分布近似。但是,样本容量应该达到多大时,我们才可以假定能够使用中心极限定理呢?统计研究人员通过研究各种总体不同样本容量下x的抽样分布,来研究该问题。当总体分布是对称坡形形状时,样本容量为5到10时即可适用中心极限定理。然而,如果总体分布严重偏态或明显非正态,则需要更大的样本容量。通常在统计实践中,假定对多数应用,当样本容量大于等于30时,x的抽样分布可用正态概率分布近似。实际上,样本容量为30或更多时,即假定满足中心极限定理大样本条件。这一结果非常重要,我们再次重申一下,当样本容量很大的时候,x的抽样分布可用正态概率分布来近似。大样本的条件可假定为简单随机样本样本容量为30或更多。当总体分布未知时,中心极限定理是确定x抽样分布形式的关键。然而,我们也可能遇到这样一些假定或认为总体是正态概率分布的抽样情形。在这种情形下,下面的结果定义了x抽样分布的形式:x当总体为正态概率分布时,对任何样本容量,的抽样分布均为正态分布。总之,若我们用一个大的简单随机样本(n=30)时,中心极限定理使我们可以用正态概率分布近似x的抽样分布。在简单随机样本是小样本(n<30时,仅当我们假定总体为正态概率分布时,x的抽样分布才为正态的。-53-第四章统计抽样与抽样分布图4-8中心极限定理在三个不同总体中的作用习题1、订阅者阅读《青年报》的平均时间是49分钟,假定标准差是16分钟且时间呈正态分布。a.一名订阅者至少花1小时读报的概率是多少?b.一名订阅者读报的时间不超过30分钟的概率是多少?c.10%花费最多时间读报的人的时间范围是多少?-54-第四章统计抽样与抽样分布2、高速公路巡警保留着一份有关从事故报告到官员抵达事故现场所需时间的记录资料。一个由10条记录组成的简单随机样本数据(以分钟为单位)如下:1263448506823368125103a.从事故报告到官员抵达事故现场所需时间总体平均值的点估计为多少?b.从事故报告到官员抵达事故现场所需时间总体标准差的点估计为多少?3、从均值为200,标准差为50的总体,抽取n=100的简单随机样本,样本均值x用于估计总体均值。x的数学期望是多少?a.x的标准差是多少?b.x的抽样分布是什么?c.x的抽样分布说明什么?d.4、
本文标题:统计抽样与抽样分布
链接地址:https://www.777doc.com/doc-5419743 .html