您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 6.1 总体与样本――概率论与数理统计,王松桂、程维虎等,科学出版社
概率论与数理统计第十五讲主讲教师:程维虎教授北京工业大学应用数理学院数理统计学是一门应用性很强的学科。它研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。第六章样本与统计量§6.1引言由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有限的观察资料。数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的推断。现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。参数估计:根据数据,对分布中的未知参数进行估计;假设检验:根据数据,对分布的未知参数的某种假设进行检验。参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。§6.2总体与样本在数理统计中,称研究问题所涉及对象的全体为总体,总体中的每个成员为个体。例如:研究某工厂生产的某种产品的废品率,则这种产品的全体就是总体,而每件产品都是一个个体。6.2.1总体、个体与样本实际上,我们真正关心的并不一定是总体或个体本身,而真正关心的是总体或个体的某项数量指标。如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。因此,有时也将总体理解为那些研究对象的某项数量指标的全体。为评价某种产品质量的好坏,通常的做法是:从全部产品中随机(任意)地抽取一些样品进行观测(检测),统计学上称这些样品为一个样本。同样,我们也将样本的数量指标称为样本。因此,今后当我们说到总体及样本时,既指研究对象又指它们的某项数量指标。例1:研究某地区N个农户的年收人。在这里,总体既指这N个农户,又指我们所关心的N个农户的数量指标──他们的年收入(N个数字)。如果从这N个农户中随机地抽出n个农户作为调查对象,那么,这n个农户以及他们的数量指标──年收入(n个数字)就是样本。注意:上例中的总体是直观的,看得见、摸得着的。但是,客观情况并非总是这样。例2:用一把尺子测量一件物体的长度。假定n次测量值分别为X1,X2,…,Xn。显然,在该问题中,我们把测量值X1,X2,…,Xn看成样本。但总体是什么呢?事实上,这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是,我们可以这样考虑,既然n个测量值X1,X2,…,Xn是样本,那么,总体就应该理解为一切所有可能的测量值的全体。又如:为研究某种安眠药的药效,让n个病人同时服用这种药,记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数X1,X2,…,Xn,则这些数字就是样本。那么,什么是总体呢?设想让某个地区(或某国家,甚至全世界)所有患失眠症的病人都服用此药,则他们所增加睡眠的小时数之全体就是研究问题的总体。对一个总体,如果用X表示其数量指标,那么,X的值对不同的个体就取不同的值。因此,如果我们随机地抽取个体,则X的值也就随着抽取个体的不同而不同。所以,X是一个随机变量!既然总体是随机变量X,自然就有其概率分布。我们把X的分布称为总体分布。总体的特性是由总体分布来刻画的。因此,常把总体和总体分布视为同义语。.6.2.2总体分布例3(例l续):在例l中,若农户年收入以万元计,假定N户的收入X只取以下各值:0.5,0.8,l.0,1.2和1.5。取上述值的户数分别n1,n2,n3,n4和n5(n1+n2+n3+n4+n5=N)。则X为离散型分布,分布律为:X0.50.811.21pkn1/Nn2/Nn3/Nn4/Nn5/N例4(例2续):在例2中,假定物体真实长度为(未知)。一般说来,测量值X就是总体,取附近值的概率要大一些,而离越远的值被取到的概率就越小。如果测量过程没有系统性误差,则X取大于和小于的概率也会相等。在这种情况下,人们往往认为X服从均值为,方差为2的正态分布。2反映了测量的精度。于是,总体X的分布为N(,2)。说明:这里有一个问题,即物体长度的测量值总是在其真值的附近,它不可能取负值。而正态分布取值在(-∞,∞)上。那么,怎么可以认为测量值X服从正态分布呢?回答这个问题,有如下两方面的理由。(1).在前面讲过,对于X∼N(,2),P{-3X+3}=0.9974.即X落在区间(-3,+3)之外的概率不超过0.003,这个概率非常小。X落在(-4,+4)之外的概率就更小了。例如:假定物体长度=10厘米,测量误差为0.01厘米,则2=0.012。这时,(-3,+3)=(9.97,10.03)。于是,测量值落在这个区间之外的概率最多只有0.003,可忽略不计。可见,用正态分布N(10,0.012)去描述测量值X是适当的。完全可认为:X根本就不可能取到负值;如若不然,就需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X。那么,a和b到底取什么值呢?测量者事先很难确定。再退一步,即使能够确定出a和b,却仍很难找出一个定义在(a,b)上的非均匀分布用来恰当地描述测量值。与其这样,还不如干脆就把取值区间放大到(-∞,∞),并用正态分布来描述测量值。这样,既简化了问题,又不致引起较大的误差。(2).另外,正态分布取值范围是(-∞,∞),这样还可以解决规定测量值取值范围上的困难。●如果总体所包含的个体数量是有限的,则称该总体为有限总体。有限总体的分布显然是离散型的,如例3。●如果总体所包含的个体数量是无限的,则称该总体为无限总体。限总体的分布可以是连续型的,如例4;也可是离散型的。说明:在数理统计中,研究有限总体比较困难。因为其分布是离散型的,且分布律与总体中所含个体数量有关系。通常在总体所含个体数量比较大时,将其近似地视为无限总体,并用连续型分布逼近总体的分布,这样便于进一步地做统计分析。例5:研究某大城市年龄在1岁到10岁之间儿童的身高。显然,不管城市规模多大,这个年龄段的儿童数量总是有限的。因此,该总体X只能是有限总体。总体分布只能是离散型分布。然而,为便于处理问题,我们将有限总体近似地看成一个无限总体,并用正态分布来逼近这个总体的分布。当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计。样本的二重性●假设X1,X2,…,Xn是总体X中的样本,在一次具体的观测或试验中,它们是一批测量值,是已经取到的一组数。这就是说,样本具有数的属性。.●由于在具体试验或观测中,受各种随机因素的影响,在不同试验或观测中,样本取值可能不同。因此,当脱离特定的具体试验或观测时,我们并不知道样本X1,X2,…,Xn的具体取值到底是多少。因此,可将样本看成随机变量。故,样本又具有随机变量的属性。.样本X1,X2,…,Xn既被看成数值,又被看成随机变量,这就是所谓的样本的二重性。例6(例2续):在前面测量物体长度的例子中,如果我们在完全相同的条件下,独立地测量了n次,把这n次测量结果,即样本记为X1,X2,…,Xn.随机样本那么,我们就认为:这些样本相互独立,且有相同的分布;其分布与总体分布N(,2)相同。将上述结论推广到一般的分布:如果在相同条件下对总体X进行n次重复、独立观测,就可以认为所获得的样本X1,X2,…,Xn是n个独立且与总体X有同样分布的随机变量。在统计文献中,通常称相互独立且有相同分布的样本为随机样本或简单样本,n为样本大小或样本容量。既然样本X1,X2,…,Xn被看作随机向量,自然需要研究其联合分布。6.2.3样本分布假设总体X具有概率密度函数f(x),因样本X1,X2,…,Xn独立同分布于X,于是,样本的联合概率密度函数为121(,,,)().nniigxxxfx例7:假设某大城市居民的收入X服从正态分布N(,2),概率密度为现从总体X中随机抽取样本X1,…,Xn,因其独立同分布于总体X,即:Xi∼N(,2),i=1,2,…,n.于是,样本X1,X2,…,Xn的联合概率密度为.,21)(222)(Rxexfx.)2(1),,,(122)(212/21niixnnnexxxg由样本推断总体的某些情况时,需要对样本进行“加工”,构造出若干个样本的已知(确定)的函数,其作用是把样本中所含的某一方面的信息集中起来。6.3.1统计量这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量。§6.3统计量几个常见统计量样本均值样本方差niiXnX11niiXXnS122)(11反映总体均值的信息样本标准差niiXXnS12)(11样本k阶原点矩样本k阶中心矩nikikXnA11nikikXXnM1)(1k=1,2,…反映总体k阶矩的信息反映总体k阶中心矩的信息6.3.2抽样分布统计量既然依赖于样本,而后者又是随机变量,故统计量也是随机变量,有一定的分布,这个分布称为统计量的抽样分布。定理1:设X1,X2,,Xn是来自均值为,方差为2的总体的样本,则当n充分大时,近似地有./,2nNX~抽样分布定理证明:因X1,X2,…,Xn是来自均值为,方差为2的总体的样本。故X1,X2,…,Xn独立同分布,且E(X)=,Var(X)=2,i=1,2,…,n。据中心极限定理,有对充分大的n,近似地有).1,0(/1NnXnnXnii~近似即./,2nNX~●样本均值分布函数的近似计算定理应用,),1,0(/RaNnX所以近似~因nanXPaXP//}{./na总有●样本均值与的偏差在一定范围内的概率的近似计算///ncnXncPcXP.1/2//cncncn从上式可以看出:对给定的2和给定的c0,当样本大小n增大时,上面的概率也随之增大;n趋于无穷时,上式趋近于1。任给c0,总有例1:用机器向瓶子里灌装液体洗涤剂,规定每瓶装毫升。但实际灌装量总有一定波动。假定灌装量的方差2=1,如果每箱装这样的洗涤剂25瓶。求这25瓶洗净剂的平均灌装量与标定值相差不超过0.3毫升的概率;又如果每箱装50瓶时呢?解:记一箱中25瓶洗净剂灌装量为X1,X2,,X25是来自均值为,方差为1的总体的随机样本。根据抽样分布定理1,近似地有,~)1/25,(NX当n=50时,同样可算出:3.0XP;8664.015.125.15.125/13.025/125/13.0XP.966.03.0XP小结本讲首先介绍了样本与统计量的基本概念,包括:总体、个体、样本、总体分布与样本分布;然后介绍了统计量的概念和几个常见的统计量:样本均值、方差、标准差、k阶原点矩和k阶中心矩;最后介绍了抽样分布的概念与抽样分布定理。
本文标题:6.1 总体与样本――概率论与数理统计,王松桂、程维虎等,科学出版社
链接地址:https://www.777doc.com/doc-4026605 .html