您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 大学课件 > 第6章统计量及其抽样分布
第6章统计量及其抽样分布统计学第6章统计量及其抽样分布6.1统计量6.2关于分布的几个概念6.3由正态分布导出的几个重要分布6.4样本均值的分布与中心极限定理6.5样本比例的抽样分布6.6两个样本平均值之差的分布6.7关于样本方差的分布6.1统计量6.1.1统计量的概念6.1.2常用统计量6.1.3次序统计量6.1.4充分统计量6.1.1统计量的概念(statistic)1.设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量2.统计量是样本的一个函数3.统计量是统计推断的基础6.1.2常用统计量样本均值样本方差样本变异系数样本k阶矩样本k阶中心矩样本偏度样本峰度掌握一般了解nikikxnm11nikikxxn116.1.3次序统计量一组样本观测值X1,X2,…,Xn由小到大的排序X(1)≤X(2)≤…≤X(i)≤…≤X(n)后,称X(1),X(2),…,X(n)为次序统计量中位数、分位数、四分位数等都是次序统计量6.1.4充分统计量统计量加工过程中一点信息都不损失的统计量称为充分统计量。当X=(X1,X2,…,Xn)是来自正态分布总体N(m,s2)的一个样本时,若m已知,则是s2的充分统计量;若s2已知,则是m的充分统计量。21)(niiXmniiXnX11方差均值6.2关于分布的几个概念6.2.1抽样分布6.2.2渐进分布6.2.3随机模拟获得的近似分布为什么要抽样?为了收集必要的资料,对所研究对象(总体)的全部元素逐一进行观测,往往不很现实。抽样原因元素多,搜集数据费时、费用大,不及时而使所得的数据无意义总体庞大,难以对总体的全部元素进行研究检查具有破坏性炮弹、灯管、砖等关于总体,知道得很少所有数据何种分布+样本数据已知总体特征总体特征想知道描述性统计,计算参数统计推断为什么能抽样?中国成语:“一叶知秋”出自《淮南子·说山训》:“以小明大,见一叶落而知岁之将暮,睹瓶中之冰而知天下之寒。”谚语:“你不必吃完整头牛,才知道肉是老的”从检查一部分得知全体。复习抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式1.样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量样本均值,样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据6.2.1抽样分布(samplingdistribution)抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本当样本量n无限增大时,计算统计量T(X1,X2,…,Xn)的极限分布,把极限分布作为抽样分布的一种近似,这种极限分布就被称为渐近分布。6.2.2渐近分布6.2.3随机模拟获得的近似分布随机模拟:大样本时,样本均值服从正态分布吗?提示:EXCEL——数据分析——随机数发生器思考几种概率分布正态分布分布F分布t分布2χ6.3由正态分布导出的几个重要分布6.3.12分布(2distribution)222(1)~(1)nsns设随机变量X1,X2,…,Xn相互独立,且,则服从自由度为n的2分布。~(0,1)iXN21niiX当总体,从中抽取容量为n的样本,则由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来。&&)1(~)(2212nxxniis),(~2smNX6.3.12分布(2distribution)2分布的概率密度函数222110;()()200.2nxnnxnfxxxe01)(dxexx1.分布的变量值始终为正2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3.期望为:E(2)=n,方差为:D(2)=2n(n为自由度)4.可加性:若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布5.n→∞时,2分布的极限分布是正态分布。2分布(性质和特点)2分布(图示)不同容量样本的抽样分布2n=1n=4n=10n=20例题设随机变量,求中的。2~(20)X0.05PXkk解:,查表:即临界值20,0.05n31.410.05,31.41PXk20.05(20)31.416.3.2t分布(tdistribution)高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出。设随机变量,,且X与Y独立,则,称为t分布,记为t(n),n为自由度。~(0,1)XNXtYn2~()Yn6.3.2t分布(tdistribution)t分布的概率密度函数t分布数学期望与方差n≥2时,t分布期望为:E(t)=0,n≥3时,t分布方差为:D(t)=n/n-2(n为自由度)t分布图示xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)zt分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布例题1.由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名2.设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为6.3.3F分布(Fdistribution)21nVnUF),(~21nnFFF分布的概率密度函数为:112221121122()112()0;()()()222200.()(1)nnnxfxxnnnnnxxnnnnn6.3.3F分布(Fdistribution)X~F(m,n),则n2时,期望为:E(X)=n/n-2n4时,方差为:22(2)()(2)(4)nmnDXmnnF分布(图示)不同自由度的F分布F(1,10)(5,10)(10,10)6.3.3F分布(Fdistribution)F分布与t分布关系如果随机变量X~t(n),,则X2~F(1,n)。例题6.4样本均值的分布与中心极限定理样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值m的理论基础样本均值的抽样分布(例题分析)【例】设一个总体含有4个个体,分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下。总体均值和方差5.21NXNiim25.1)(122NXNiims总体的频数分布14230.1.2.3样本均值的抽样分布现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表.3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布各样本的均值如下表,并给出样本均值的抽样分布x样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.53.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)所有样本均值的均值和方差1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/nnMxnixix222122625.016)5.20.4()5.20.1()(smsmm5.2160.45.10.11MxniixM为样本数目样本均值的抽样分布与总体分布的比较m=2.5σ2=1.25总体分布14230.1.2.3抽样分布5.2xm625.02xs样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5构造样本统计量抽样分布的步骤1、从容量为N的有限总体中随机选取容量为n的所有可能样本;2、计算出每个样本的统计量值;3、将来自不同样本的不同统计量值分组排列,把对应于每个数值的相对出现频数排成另一列,由此,全部可能的样本统计量值形成了一个概率分布,这个分布就是我们想要得到的抽样分布。样本均值的抽样分布与中心极限定理m=50s=10X总体分布n=4抽样分布xn=165xs50xm5.2xs当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)抽样分布的特征与总体分布的均值和方差有关。XnxEx22)(ssm),(~2nNxsm例:设从一个均值为10、标准差为0.6的总体中随机选取容量为36的样本。假定该总体不是很偏的,要求:(1)计算样本均值小于9.9的近似概率。(2)计算样本均值超过9.9的近似概率。(3)计算样本均值在总体均值10附近0.1范围内的近似概率。6826.01)1(2)11()366.0101.10366.010366.0109.9()1.109.9()3(8413.01587.01)9.9(1)9.9(8413.0)1()1()366.0109.9366.010()9.9()2(1587.0)1(1)1()366.0109.9366.010()9.9()1()1.0,10(~)36/6.0,10(~,36)6.0,10(~222zPzPxPxPxPxPzPzPxPxPzPzPxPxPNxNxnNX解二:,即则中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nxss从均值为m,方差为s2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体mmxx中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程样本均值的抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布1.总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比2.总体比例可表示为3.样本比例可表示为6.5样本比例(proportion)的抽样分布NNNN101或nnpnnp101或1.在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似4.推断总体比例的理论基础样本比例的抽样分布1.样本比例的数学期望2.样本比例的方差重复抽样不重复抽样样本比例的抽样分布(数学期望与方差))(pEnp)1(2s1)1(2NnNnps有限总体校正系数FinitePopulationCorrectionFactor注意:不重复抽样时样本均值的方差等于重复抽样时的方差乘以有限总体校正系数:当n/N0.05时可以忽略有限总体校正系数。1NnN数学期望和方差的主要数学性
本文标题:第6章统计量及其抽样分布
链接地址:https://www.777doc.com/doc-8686869 .html