您好,欢迎访问三七文档
第六章样本及抽样分布第一节总体与样本第二节样本分布函数直方图第三节样本函数与统计量第四节抽样分布前面五章我们讲述了概率论的基本内容,随后的四章将讲述数理统计。数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。数理统计的内容包括:如何收集、整理数据资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断。后者就是我们所说的统计推断问题。本书只讲述统计推断的基本内容。本章我们介绍总体、随机样本及统计量等基本概念,并着重介绍几个常用统计量及抽样分布。第一节总体与样本我们知道,虽然从理论上讲,对随机变量进行大量的观测,被研究的随机变量的概率特征一定能显现出来,可是实际进行的观测次数只能是有限的,有的甚至是少量的。因此,我们关心的问题就是怎样有效地利用收集到的有限的资料,尽可能地对被研究的随机变量的概率特征作出精确而可靠的结论。例如,我们考察某厂生产的电视机显像管的质量,在正常生产情况下,显像管的质量主要表现为它们的平均寿命是稳定的。然而,由于生产中各种随机因素的影响,各个显像管的寿命是不完全相同的。因为受到人力、物力等的限制,特别是测定显像管寿命这类的试验具有破坏性,所以我们不可能对生产的全部显像管一一进行测试,一般只是从整批显像管中取出一些显像管来测试,然后根据得到的这些显像管寿命的数据来推断整批显像管的平均寿命。我们把被研究的对象的全体称为总体(或母体),而把组成总体的各个元素称为个体。在上面的例子中,该厂生产的所有显像管的寿命就是总体,而每一个显像管的寿命就是个体。代表总体的指标(如显像管的寿命)是一个随机变量,所以总体就是指某个随机变量可能取的值的全体。从总体中抽取一个个体,就是对代表总体的随机变量进行一次试验(或观测),得到的一个试验数据(或观测值)。从总体中抽取一部分个体,就是对随机变量进行若干次试验(观测)。从总体中抽取若干个个体的过程称为抽样。抽样结果得到的一组试验数据(观测值),称为样本(或子样);样本中所含个体的数量称为样本容量。假设满足下述两个条件:(1)随机性为了使样本具有充分的代表性,抽样必须是随机的,应使总体中的每一个个体都有同等的机会被抽取到,通常可以用编号抽签的方法或利用随机数表来实现。(2)独立性各次抽样必须是相互独立的,即每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样结果的影响。这种随机的、独立的抽样方法称为简单随机抽样,由此得到的样本称为简单随机样本。例如,从总体中进行放回抽样,显然是简单随机抽样,得到的样本就是简单随机样本。从有限总体(即其中只含有有限多个个体的总体)中,进行不放回抽样,nN%10Nn虽然不是简单随机抽样,但是正如在前面我们已知的,若总体容量很大而样本容量较小(),则可以近似地看作是放回抽样,因而也就可以近似地看作是简单随机抽样,得到的样本可以近似地看作是简单随机样本。今后,凡是提到抽样与样本,都是指简单随机抽样与简单随机样本而言。我们指出,从总体中抽取容量为的样本,就是对代表总体的随机变量随机地、独立地进行次试验(观测),每次试验的结果可以看作是一个随机变量,次试验的结果就是个随机变量,…1X2XnX这些随机变量相互独立,并且与总体服从相同的分布。设得到的样本观测值分别是,…则可以认为抽样的结果是个相互独立的事件发生了nnxXxXxX,,,22111x2xnx若将样本,,…,看作是一个维随机变量,则(1)当总体是离散随机变量,若记其分布率为,则样本的分布律为:(1)1X2XnXnXXX,,,21X)(xpxXPnXXX,,,21nnxpxpxpxxxp2121*,,,(2)当总体是连续随机变量,且具有概率密度函数时,样本的概率密度为xfnXXX,,,21nnxfxfxfxxxf2121*,,,X10,10,1ppqqxPpxP1.设是来自两点分布总体的样本,的分布为:nXXX,,,21XX次取到正品当第,次取到次品当第iiXi0,13.设电话交换台一小时内的呼唤次数服从泊松分布,求来自这一总体的简单随机样本的样本分布律。X0nXXX,,,21求样本分布律。2.设有个产品,其中有个次品,个正品,进行放回抽样,定义如下:NMMNiX),,,(21nXXX求样本的分布律。4.设某种电灯泡的寿命服从指数分布,求来自这一总体的简单随机样本的联合概率密度。5.设是来自均匀分布总体的样本,求样本的联合概率密度。XnXXX,,,21nXXX,,,21cU,0第二节样本分布函数直方图一、样本分布函数我们把总体的分布函数称为总体分布函数.从总体中抽取容量为的样本得到个样本观测值,若样本容量较大,则相同的观测值可能重复出现若干次,为此,应当把这些观测值整理,并写出下面的样本频率分布表:xXPxFnn观测值…总计频数…频率…11x1n1f2x2n2flxlnlfnlxxx21nlnnfiili,2,1liinn1liif11其中定义设函数liixxinxxxxxfxxxFi,1,,0111,2,1li其中和式是对小于或等于的一切的频率求和,则称为样本分布函数,经验分布函数。易知样本分布函数具有下列性质:xxixixifxFnxFn(2)是非减函数;xFn10xFn(1)1,0nnFF(3)(4)在每个观测值处是右连续的,点是的跳跃间断点,在该点的跃度就等于频率xFnixifixxFnxFn样本分布函数的图形如图6-1所示xFn图6-1对于任意的实数总体分布函数是事件的概率;样本分布函数是事件的频率。根据伯努利大数定理可知,当时,对于任意的正数,有xxFxXxFnxXn1limxFxFPnn格利文科(Glivenko)进一步证明了当时,样本分布函数与总体分布函数之间存在着更密切的近似关系的结论。这些结论就是我们在数理统计中可以依据样本来推断总体的理论基础。nxFnxF二、直方图数理统计中研究连续随机变量的样本分布时,通常需要作出样本的频率直方图(简称直方图),作直方图的步骤如下:X1找出样本观测值中的最小值与最大值,分别记作与,即nxxx,,,21*1x*nx,,,,min21*1nxxxxnnxxxx,,,max21*2适当选取略小于的数与略大于的数,并用分点把区间分成个子区间第个子区间的长度为*1xa*nxbbtttttall1210ba,lbttttttalii,,,,,,,,,11211i1iiitttli,,2,1此外,为了方便起见,分点应比样本观测值多取一位小数。itixlabti各子区间的长度可以相等,也可以不等;若使各子区间的长度相等,则有子区间的个数一般取为8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难于显示分布的特征。3把所有样本观测值逐个分到各子区间内,并计算样本观测值落在各子区间内的频数及频率innnfii.,,2,1liiiiiiiifttfttS11.,,2,1liOx4在轴上截取各子区间,并以各子区间为底,1iiittfiS以为高作小矩形,各个小矩形的面积就等于样本观测值落在该子区间内的频率,即所有小矩形的面积的和.111liiliifS这样作出的所有小矩形就构成了直方图。因为样本容量充分大时,随机变量落在各个子区间内的频率近似等于其概率即所以直方图大致地描述了总体的概率分布。nXiitt,1iiitXtPf1li,,2,1X例测量100个某种机械零件的质量,得到样本观测值如下(单位:g)246251259254246253237252250251249244249244243246256247252252250247255249247252252242245240260263254240255250256246249253246255244245257252250249255248258242252259249244251250241253250265247249253247248251251249246250252256245254258248255251249252254246250251247253252255254247252257258247252264248244写出零件质量的频率分布表并作直方图。解因为样本观测中最小值为237,最大值为265,所以我们把数据的分布区间确定为(236.5,266.5)并把这个区间等分为10个子区间(236.5,239.5),(239.5,242.5),…,(263.5,266.5)由此得到零件质量的频率分布表:零件质量/频数频率236.5~239.510.01239.5~242.550.05242.5~245.590.09245.5~248.5190.19248.5~251.5240.24251.5~254.5220.22254.5~257.5110.11257.5~260.560.06260.5~263.510.01263.5~266.520.02总计1001.00ginif直方图如图6-2所示图6-2习题6-21.某射手进行20次独立、重复的射击,击中靶子的环数如下表:环数45678910频数2049032求经验分布函数,并作图。xF202.测得20个毛坯重量(单位:g),列成简单表如下毛坯重量185187192195200202205206频数11111211毛坯重量207208210214215216218227频数21112121将其按区间(183.5,192.5),…,(219.5,228.5)为5组,列出毛坯重量的频率分布表,并作直方图。第三节样本函数与统计量为了借助于对样本观测值的整理、分析、研究,从而对总体的某些概率特征作出推断,往往需要考虑各种适用的样本函数因为一组样本可以看作是一个维随机变量所以任何样本函数都是维随机变量的函数。XnXXXg,,,21nXXX,,,21nnXXX,,,21nXXXg,,,21n显然也是随机变量.根据样本的观测值计算得到的函数值就是样本函数的观测值.nXXX,,,21nxxx,,,21nxxxg,,,21nXXXg,,,21定义若样本函数中不含有任何未知量,则称这类样本函数为统计量。nXXXg,,,211样本均值(1)niiXnX11观测值记为(2)niixnx112样本方差(3)niiniiXnXnXXnS1222121111观测值记为(4)niiniixnxnxxns1222121111数理统计中最常用的统计量及其观测值有:3、样本标准差(5)它的观测值记为(6)4、样本阶原点矩(7)它的观测值记为(8)显然,样本的一阶原点矩就是样本均值。niiXXnSS12211niixxnss12211,2,1,11kXnAnikik,2,1,11kxnanikik5、样本阶中心矩(9)它的观测值记为(10)显然,样本一阶中心矩恒等于零。当样本容量较大时,相同的样本观测值往往可能重复出现,为了使计算简化,应先把所得的数据整理,设得到下表:,2,1,11kXXnBkniik,2,1,11kxxnbkniiknix观测值…总计频数…其中.于是样本
本文标题:样本及抽样分布
链接地址:https://www.777doc.com/doc-419062 .html