您好,欢迎访问三七文档
1.总体和样本一、总体和样本例某钢铁厂某天生产10000根钢筋,规定强度小于52kg/mm^2的算作次品,如何来求这批钢筋的次品率?是否需要测量每根钢筋的强度呢?一般来说是不需要的.只要从这10000根钢筋中抽取一部分,比如100根,测量这100根钢筋的强度,就可以推断出整批钢筋的次品率了,这就是抽样检验.事实上,全面检验是有困难的(1)有些检验是有破坏性的,如使用寿命;(2)产品数量大,或检验成本太高,人力、物力、时间不允许等例如:有一批棉花,需要检查纤维的长度,我们当然不可能去测量每一根棉花纤维的长度。数理统计提供了一整套方法,保证可以通抽样检验做出可靠的科学结论。直观地说,被观察对象的全体称作总体;总体的每一基本单元称作个体或样品;从总体中抽出的一部分个体组成一个样本,样本中所含个体的个数称作样本的容量或大小。如前例所说,10000根钢筋的强度是总体,每一根钢筋的强度是一个个体,抽查的100根钢筋的强度是一个样本,它的容量是100。更确切的说,对这批钢筋,我们关心的是它的强度的分布,如强度低于52kg/mm^2的比例是多少.设X表示“任一根钢筋的强度”,X是一个随机变量.它的概率分布就反映了这批钢筋的强度的分布,即把总体看做一个随机变量。从总体中抽取一个个体就是做一次随机试验,而“任取n根钢筋,测其强度”就是做n次随机试验,得到容量为n的样本.因为抽取是随机的,故可以样本看做n个随机变量。当试验是同重复独立试验时,与总体有相的分布,这样的样本称作简单随机样本。一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是(1)与总体X有相同的分布(2)相互独立简单随机样本N/n10.总体中个体总数样本容量由定义,若总体是离散型随机变量,其分布律为则样本的联合分布为若是连续型随机变量,其分布密度为则样本的联合分布密度是二、频率分布表与直方图一、频率分布表设总体是离散型随机变量,是一组样本值,取到的值为,并且取到的个数分别为,则样本容量,我们称为出现的频数,而出现的频率为显然,例1对100块焊接完的电路板进行检查,每块板上焊点不光滑的个数的频数分布表和频率分布表如下图所示(不光滑点的个数)123456789101112合计(频数)4451091515149753100(=/100)1从上表可大体知道这批电路板的不光滑情况,可近似地作为“每块板上不光滑点个数”X的分布律.二、直方图当总体是连续型随机变量时,可采用直方图来处理数据(样本值).设为给定的一组样本值,处理步骤如下:1)简化数据,令由于数据总在某个某个数值上下波动,可以选取适当的常数,把样本值化为位数较少的整数,为方面起见,化简后的数值仍记为.2)求中的最大最小值.记3)分组.a)确定组数和组距.选定组数,取组距一般情况下,应取数据的最小单位的整数倍.b)确定各组的上下界.取第一组的下界应略小于,使得落入第一组内,即然后令为了使每个数据都落入组内,应使分点比样本值多一位小数.4)计算频率,记为落入第个区间的频数,则频率为5)画直方图.以为底,为高画小长方形.显然,所有小长方形面积之和等于1:样本直方图与密度函数的关系?根据大数定律,近似等于随机变量落入区间内的概率,即设的密度函数为,则如果在区间内连续下面举例说明画直方图的全过程及注意事项例2某食品厂为加强质量管理,在某天生产的一大批罐头中抽查了100个,测得内装食品的净重数据如下(单位:g):342341348346343342346341344348346346341344342344345340344344343344342343345339350337345342349336348344345332342341350343347340344353341340353346345346341339342352342350348344350335340338345345349336342338343343341347341347344339347358343347346344345350341338343339343346342339343350341346341345344342解1)简化数据.取c=340,d=1.令.简化后的数据如下图21863261486614245044342235-110-359-4845-821103704131036561-12122108410-50-2559-42-23317174-171837645101-23-1362-13101615422)求最大值和最小值.由上表知,最小值为-8,最大值为18.3)分组a)确定组数和组距.考虑到样本容量n=100,取组数m=10.由于(18+8)/10=2.6,取组距.b)确定各组的上、下界.取,依次得-5.5,-2.5,0.5,3.5,6.5,9.5,12.5,15.5,18.5.4)计算频率5)画直方图.注意.序号k组频数频率1(-8.5,-5.5]10.012(-5.5,-2.5]40.043(-2.5,0.5]120.124(0.5,3.5]320.325(3.5,6.5]300.306(6.5,9.5]120.127(9.5,12.5]70.078(12.5,15.5]10.019(15.5,18.5]10.01三、经验分布函数对给定的一组样本值,将它们按从小到大的顺序排列:对任意实数,定义称为经验分布函数.例如,给定样本值5,3,7,5,4.将它们从小到大重新排列:3,4,5,5,7.经验分布函数为记,发生的概率.根据贝努利大数定律,对任意的,有事实上,可以证明下述更强的结论:根据经验分布函数的定义,中不大于x的个数)定理(格列汶科)设总体的分布函数为,当,经验分布函数以概率1关于一致地收敛于,即注:上述定理表明,当样本容量充分大时,样本取值的分布相当准确的反映总体的分布.总体(理论分布)?样本样本值统计是从手中已有的资料--样本值,去推断总体的情况---总体分布F(x)的性质.总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.样本是联系二者的桥梁由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.四、统计量和抽样分布1.统计量这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.几个常见统计量样本均值样本方差它反映了总体均值的信息它反映了总体方差的信息样本k阶原点矩样本k阶中心矩k=1,2,…它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息2.顺序统计量定义:设12,,,nXXX为取自总体X的样本,将其按大小顺序排序(1)(2)()nXXX则称X(k)为第k个次序统计量(No.kOrderStatistic)(1)1miniinXX特别地,称为最小顺序统计量(MinimumorderStatistic)称()1maxniinXX为最大顺序统计量(MaximumorderStatistic)。称为偶数为奇数为样本中位数.称为样本极差,反映了样本的离散程度,也反映了总体的离散程度.3.抽样分布统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.抽样分布就是通常的随机变量函数的分布.只是强调这一分布是由一个统计量所产生的.研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质.抽样分布精确抽样分布渐近分布(小样本问题中使用)(大样本问题中使用)五.统计三大分布记为分布1、定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.分布是由正态分布派生出来的一种分布.分布的密度函数为来定义.其中伽玛函数通过积分请看演示c2分布由分布的定义,不难得到:1.设相互独立,都服从正态分布则2.设且X1,X2相互独立,则这个性质叫分布的可加性.应用中心极限定理可得,若,则当n充分大时,若的分布近似正态分布N(0,1).则可以求得,E(X)=n,D(X)=2n若定理(柯赫伦定理)设相互独立,都服从正态分布N(0,1),其中是的秩为的二次型。则相互独立且的充要条件是T的密度函数为:记为T~t(n).所服从的分布为自由度为n的t分布.定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量2、t分布当n充分大时,其图形类似于标准正态分布密度函数的图形.具有自由度为n的t分布的随机变量T的数学期望和方差为:E(T)=0;D(T)=n/(n-2),对n2t分布的密度函数关于x=0对称,且由定义可见,3、F分布定义:设X与Y相互独立,则称统计量服从自由度为n1及n2的F分布,n1称为第一自由度,n2称为第二自由度,记作F~F(n1,n2).~F(n2,n1)即它的数学期望并不依赖于第一自由度n1.X的数学期望为:若n22若X~F(n1,n2),X的概率密度为请看演示F分布t分布与F分布的关系由t分布的定义,设其中且X,Y独立故当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这里我们不加证明地叙述.除定理2外,其它几个定理的证明都可以在教材上找到.六、几个重要的抽样分布定理定理1(样本均值的分布)设X1,X2,…,Xn是取自正态总体的样本,则有定理2(样本方差的分布)设X1,X2,…,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有定理3设X1,X2,…,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有与相互独立定理4(两总体样本均值差的分布)分别是这两个样本的且X与Y独立,X1,X2,…,是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,则有Y1,Y2,…,是样本与相互独立定理5(两总体样本方差比的分布)分别是这两个样本的且X与Y独立,X1,X2,…,是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,则有Y1,Y2,…,是样本若则例1从正态总体中,抽取了n=20的样本(1)求(2)求例2设r.v.X与Y相互独立,X~N(0,16),Y~N(0,9),X1,X2,…,X9与Y1,Y2,…,Y16分别是取自X与Y的简单随机样本,求的分布.例3设总体为总体X试确定常数c,使cY服从分布.3.单个次序统计量的分布定理1:设总体X的密度函数为f(x),分布函数为F(x),为样本,则第k个次序统计量的密度函数为1!()[()][1()]()(1)!()!knkknfxFxFxfxknk推论1:最大次序统计量的概率密度函数为1()[1()]()nnfxnFxfx推论2:最小次序统计量的概率密度函数为11()[()]()nfxnFxfx12,,,nXXXxx+xn-kk-11图5-8x(k)的取值示意图样本的每一分量小于等于x的概率为F(x),落入区间(x,x+x]概率为F(x+x)-F(x),落入区间(x+x,b]的概率为1-F(x+x),而将n个分量分成这样的三组,总的分法有!(1)!1!()!nknk种,于是,若以Fk(x)记的分布函数,则由多项分布可得两边同除以x,并令x→0,即有0()()()limkkkxFxxFxfxx1![()]()[1()](1)!()!knknFxfxFxknk1()()![()][()][1()](1)!()!kkknkFxxFxnFxFxxFxFxxknk定理2:设总体X的密度函数为f(x),分布函数为F(x),为样本,则第k个次序统计量和第r个次序统计量的联合概率密度函数为11!(,)[()]()()(1)!(1)!()![()()]()[1()],;(,)0,.kkrrknrkrnfyzFyfykrkrknrFzFyfzFzyzfyzyz12,,,nXXX上述5个抽样分布定理很重要,要牢固掌握.七、下侧分位数(一)总体分位数定
本文标题:1.1总体和样本
链接地址:https://www.777doc.com/doc-1819913 .html