您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 概率统计第六章样本及抽样分布
第六章数理统计的基本概念数理统计与概率论是两个有密切联系的姊妹学科(基础应用).概率论研究的是在知道随机变量分布的情况下求事件的概率.但对具体问题,如何判断某随机变量服从某种分布呢?诚然,我们可以根据经验判断出随机变量的分布,但参数又是什么呢?这些问题概率论回答不了,由数理统计来回答.数理统计是通过数据来回答这些问题的.这些数据带有随机性(不同于会计中的数据),根据数据得出的结论难免会出错,我们希望所犯错误越少越好,而这就需要使用概率论的语言来表述.数据不是从天上掉下来的,要获得数据,首先要进行观察或实验,收集整理数据,然后进行推断,这就是数理统计要研究的内容.即数理统计学是收集、分析数据,并根据数据进行推断的科学和艺术(强调它的艺术性是为着重说明统计方法需要灵活使用,很依赖于人的判断乃至灵感.强调这一点很有好处,它提醒人们不要以教条式的态度来看待数理统计方法,以为只要记住一些公式和方法,碰到什么问题套上去就行).数理统计课程着重于统计推断。所谓统计推断,就是由样本来推断总体,或者由部分推断总体.统计估计和假设检验是统计推断的基础,以此为基础发展了许多实用的统计方法:回归分析、方差分析、时间序列分析及其他多元统计分析方法等.第一节样本与统计量一总体与个体1.总体(Population)和个体(Individual)1)【定义】把研究“对象”的全体称为总体.用X、Y、Z等表示总体.组成总体的每个元素称为个体.例如:全国英语四级考试刚刚结束,阅卷评分尚需一段时间,有关部门急于了解这次考试成绩的分布状况(应试的400万考生);另外,想了解全国大学生的身体状况;想了解用新工艺生产的一批灯泡寿命等等。这里的“应试的考生”,“全国的大学生”“这批灯泡”等,就构成了各自的总体。2)总体X的分布函数称为总体分布函数。当X为离散型随机变量时,称X的概率函数为总体概率函数。当X为连续型随机变量时,称X的密度函数为总体密度函数。例如,当X服从正态分布时,称总体X为正态总体。二样本与简单随机样本1.样本(Sample)数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行测试或观察,得到一组数据,这一过程称为抽样。【定义】从总体X中“抽取”的n个个体称为(来自)总体X的容量(Size)为n的样本,记作X1,X2,…,Xn或(X1,X2,…,Xn).Xi称为第i个样本.测试或观察得到的一组数据称为样本(观测)值。2.简单随机样本(Simplerandomsample)【定义】如果样本()满足(1)相互独立;(2)都与总体具有相同的分布,则称()为简单随机样本。简称样本。以后谈及样本均指简单随机样本.【注1】简单随机样本指的是具有独立性和代表性的样本.【注2】有放回抽样得到的样本是简单随机样本;无放回抽样,当样本容量相对比较小,比如不超过总体的5%时,得到的样本可近似地看作简单随机样本.样本是对总体进行推断的依据,但样本往往呈现为一堆“杂乱无章”的数据而不能直接利用,需要对这些数据进行加工、提炼,把样本中所包含的信息以多种不同的形式显现出来,就产生了统计量。三统计量(Statistic)1.统计量的定义[定义]设是来自总体X的一个样本,是一个n元函数,如果中不含任何总体的未知参数,则称为一个统计量。经过抽样后得到一组样本观测值,则称为统计量的观测值或统计量值。统计量的分布称为抽样分布(Samplingdistribution)..【注3】统计量是完全由样本确定的量,是样本的函数。例1.已知总体2~,XN,其中已知,而2未知.设123,,XXX是取自总体的样本,试问下面哪些是统计量,哪些不是统计量。1)1233XXX2)1X3)221X4)2212XX解:只有1),2)不含总体的未知参数2,所以是统计量.2.常用统计量1)样本均值(Samplemean):2)样本方差(Samplevariance):22221111()11nniiiiSXXXnXnn3)样本标准差(Samplestandarddeviation):2SS它们的观察值分别为11niixxn;22221111()11nniiiisxxxnxnn;2ss;这些观察值仍分别称为样本均值、样本方差和样本标准差。例2.求下列样本值:54,67,68,78,70,66,67,70,65,69的样本均值和样本方差解:代入公式计算15467687870666770656967.410X;2222222222221546768787066677065691067.435.2101S.第二节直方图设12,,,nXXX是取自总体X的一组样本,根据样本观察值,可以用直方图来粗略地描述总体X的分布.由于图形比较直观,因此在统计中经常使用。一.具体步骤1.把样本值进行分组1)计算极差R:1212max,,,min,,,nnRxxxxxx2)确定组数m:通常当50n时,分10组以上,但不宜过多;当50n时,分成5组左右3)组距d:通常取1RRdmm的一个比较整齐的数4)确定分点:01,,,maaa.满足1,1,2,,iiaadim,并且0,maa包含了所有的样本值12,,,nxxx.2.计算各组的频数和小矩形的高1)计算各组的频数in:落在1(,]iiaa的频数in2)计算各小矩形的高,1,2,,iinhimdn3.画出直方图:横坐标表示样本值,纵坐标表示矩形的高,在坐标系中作出m个底边为1(,]iiaa,高为ih的小矩形,这就是直方图.4.根据直方图进行简单的分析二.实例某食品厂为加强质量管理,对某天生产的食品罐头的重量(克)抽查了100个数据(如下表),试画出直方图,并且推断是否近似服从正态分布.342340348346343342346341344348346346340344342344345340344344343344342343345339350337345349336348344345332342342340350343347340344353340340356346345346340339342352342350348344350335340338345345349336342338343343341347341347344339347348343347346344345350341338343339343346342339343356341346341345344342解:1.极差1212max,,,min,,,35633224nnRxxxxxx.2.取13m,则242421312d,为了整齐,可取2d.3.确定分点时,要比样本值多一位小数,且必须0,maa包含了所有的样本值12,,,nxxx.0121213331.5,333.5,335.5,,355.5,357.5aaaaa.4.列出频数in及小矩形的高ih的分布表分组频数in200iiinnhdn(331.5,333.5]10.005(333.5,335.5]10.005(335.5,337.5]30.015(337.5,339.5]80.040(339.5,341.5]150.075(341.5,343.5]210.105(343.5,345.5]210.105(345.5,347.5]140.070(347.5,349.5]70.035(349.5,351.5]60.030(351.5,353.5]20.010(353.5,355.5]00(355.5,357.5]10.0055.画出直方图00.020.040.060.080.10.12h331.5-333.5333.5-335.5335.5-337.5337.5-339.5339.5-341.5341.5-343.5343.5-345.5345.5-347.5347.5-349.5349.5-351.5351.5-353.5353.5-355.5355.5-357.56.分析:直方图顶部的台阶型曲线近似于总体的概率密度曲线,图中直方图顶部的台阶型曲线两头低,中间高,有一个峰,且关于中心线比较对称,好象接近于某个正态变量的概率密度曲线.因此,可以推断是近似服从正态分布。第三节抽样分布一统计的三个重要分布1.分布:设为独立标准正态变量,称随机变量的分布为自由度为n的分布,记为。2.t分布:设随机变量X与Y独立,,则称的分布为自由度n的t分布,记为。3.F分布:设随机变量U与V相互独立,,则称的分布为自由度的F分布,记为。【注1】“为独立标准正态变量.均服从(0,1)N”“12,,,nXXX是来自总体(0,1)N的样本”.【注2】t分布为对称分布.与标准正态分布相似,但比之尾厚.当30n时,近似于标准正态分布.【注3】2分布具有可加性:若22221122~,~,nn且21与22相互独立,则2221212~nn.【注4】F分布为非负的不对称分布,且有:若12~,FFnn,则211~,FnnF.例1.设是来自正态总体X的一个样本,2~,XN,求X的分布.解:因为是来自正态总体X的一个样本,所以相互独立,且与总体X服从相同的分布。因此X也服从正态分布。又:11111nniiiiEXEXEXnnnn;222211111nniiiiDXDXDXnnnnn所以2~,XNn.例2.设126,,,XXX是来自正态总体X的一个样本,~0,1XN,又2212345613YXXXXXX,求Y的分布解:由正态分布的性质,123~0,3XXXN;456~0,3XXXN,则123456~0,1;~0,133XXXXXXNN,从而有:2222123456~1;~1.33XXXXXX根据2分布具有可加性得:222123456~233XXXXXX,所以:2221234561~23YXXXXXX。二.正态总体的抽样分布定理1.[定理1]设是来自正态总体的一个简单随机样本,与分别为样本的均值和样本方差,则有1);即:~(0,1)/XNn.2)222(1)~(1)nSn,且与相互独立.3)~1/XtnSn例3.设X与Y相互独立,且都服从正态分布2(0,2)N,而1234,,,XXXX和1234,,,YYYY分别是来自总体X和Y的样本.讨论统计量123422221234XXXXZYYYY的分布.解:1234~0,16;XXXXN∴1234~0,14XXXXN,又2~0,2iYN所以~0,12iYN,故22~12iY,从而222223124~42222YYYY即222221234~44YYYY.则123422221234XXXXZYYYY123422221234~44/44XXXXtYYYY.*2.[定理2]设112,,,nXXX与212,,,nYYY分别是来自211(,)N和222(,)N的样本,且它们相互独立,其中2212,,,XSYS分别为相应的样本均值和样本方差.则1)12221122()()~(0,1)//XYNnn.2)当22212时,121212()()~(2)1
本文标题:概率统计第六章样本及抽样分布
链接地址:https://www.777doc.com/doc-2362416 .html