您好,欢迎访问三七文档
第五章抽样与参数估计参数估计统计推断假设检验所谓统计推断是按随机原则从总体中抽取部分单位作为样本,利用样本资料所提供的信息对总体数量规律做出科学推论的一种统计分析方法。抽样分布理论为何进行抽样?总体容量太大时间成本从抽取的样本中获得信息并加以分析,从而认识总体的未知参数抽样和抽样估计的主要内容:如何科学地从总体中抽取样本,如何估计和控制代表性误差,怎样利用样本去估计和推断总体的特征总体样本估计抽样容量为n≥30大样本<30小样本抽样误差抽样的方法1、概率与非概率抽样概率抽样与非概率抽样概率抽样(随机抽样)——按照随机原则抽取样本最基本的组织方式:简单随机抽样、分层抽样、等距抽样、整群抽样非概率抽样(非随机抽样)从研究的目的出发,根据调查者的经验或判断,从总体中有意识地抽去若干单位构成样本。重点调查、典型调查、配额抽样、方便抽样等2、重复抽样与不重复抽样重复抽样:每一次抽取都是独立的,在相同的条件下重复进行,每个单位被抽取的机会均等不重复抽样:每一次抽取是不独立的,每个单位在每次被抽取的机会均等,在不同次被抽取的机会不均等总体参数与样本统计量总体参数——总体的数量特征,是确定的、唯一的如总体平均数、总体方差、总体比例等样本统计量——X1,X2,…,Xn是来自总体的样本,不含未知参数的样本的函数g(X1,X2,…,Xn)是样本的函数,样本的数量特征,是随机变量如样本平均数、样本方差、样本比例等统计量总体参数样本均值样本比例样本标准差样本方差总体均值总体比例总体标准差总体方差xps2sP2常用统计量样本均值样本方差样本标准差S样本k阶原点矩样本k阶中心矩iXnX1][11)(11222XnXnXXnSiikikXnA1kikXXnB)(1第一节大数定理和中心极限定理(看网上素材)1、切比雪夫不等式1NnNnx1NnNnx22}|{|XP2,XDXEX,随机变量2、大数定理大量随机现象的平均结果的稳定性的一系列定理的总称伯努利大数定理是频率的稳定性;辛钦大数定理是大量独立重复观测结果的平均水平的稳定性;切比雪夫大数定理发生的次数为A1}|{|limnnnpnP1}|1{|1limniinnPiECDEnnPiniiniin1}|11{|11lim2、中心极限定理关于随机变量序列和的极限分布是正态分布的一系列定理林德伯格-勒维中心极限定理独立同分布德莫佛-拉普拉斯中心极限定理xtniindtexnnP21221lim的两点分布概率为pXdtexnpqnpXPixtn2221lim一个任意分布的总体当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nxxX当总体服从正态分布X~N(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n即X~N(μ,σ2/n)=50=10X总体分布n=4抽样分布Xn=165x50x5.2x第二节三种不同性质的分布总体分布样本分布抽样分布1.总体中各元素的观察值所形成的分布2.分布通常是未知的3.可以假定它服从某种分布一、总体分布(populationdistribution)总体1.一个样本中各观察值的分布2.也称经验分布3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布二、样本分布(sampledistribution)1.样本统计量的概率分布2.是一种理论概率分布3.随机变量是样本统计量样本均值,样本比例,样本方差等4.结果来自容量相同的所有可能样本5.提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据三、抽样分布(samplingdistribution)抽样分布(samplingdistribution)总体计算样本统计量例如:样本均值、比例、方差样本···样本均值抽样分布样本方差抽样分布样本三总体均值方差样本二样本一···样本均值方差均值方差均值方差均值方差第三节样本均值的抽样分布容量相同的所有可能样本的样本均值的概率分布一种理论概率分布进行推断总体总体均值的理论基础一、样本均值的抽样分布的形成过程【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)0.1.2.3X样本均值的抽样分布1.01.53.04.03.52.02.5样本均值的分布与总体分布的比较=2.5σ2=1.25总体分布14230.1.2.3抽样分布1.00.1.2.31.53.04.03.52.02.5X5.2X625.02X样本均值的抽样分布的数学期望与方差比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n为样本数目MnMXnixiX222122625.016)5.20.4()5.20.1()(5.2160.45.10.11MXniiX结论:重复抽样XxxE)(不重复抽样XxxE)(nx22)1(22NnNnx注意:抽样分布与总体分布的关系二、抽样误差nx1NnN1NnNnx抽样误差:抽样分布的标准差,它反映了样本统计量与相应总体参数的平均误查程度不重复抽样的校正系数三、样本均值的抽样的形式与n有关正态分布均匀分布总体分布样本均值分布(n=2)样本均值分布(n=10)样本均值分布(n=30)指数分布抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布小样本从均值μ、方差2未知的正态总体中抽取n个样本,则样本统计量服从自由度为n-1的t分布nsxxtx/一、比例(proportion)1.总体(或样本)中具有某种属性的单位与全部单位总数之比2.总体比例可表示为3.样本比例可表示为第四节样本比例的抽样分布NNNN101或nnPnnP101或1.容量相同的所有可能样本的样本比例的概率分布2.当样本容量很大时,样本比例的抽样分布可用正态分布近似(np≥5,n(1-p)≥5)3.一种理论概率分布4.推断总体总体比例的理论基础二、样本比例的抽样分布样本比例(即成数)的抽样分布总体X,(N)样本x,(n)抽样比例P=Ni/N比例nnPi/ˆ所有可能的样本的比例()所形成的分布,称为样本比例的抽样分布。nPPPˆ,ˆ,ˆ211.样本比例的数学期望2.样本比例的方差重复抽样不重复抽样三、样本比例的抽样分布的特征PpE)(nPPp)1(21)1(2NnNnPPp第五节样本方差的抽样分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布即)1(~)1(222nsn22)1(sn第六节两个总体样本统计量的抽样分布一.两个样本均值之差的抽样分布二.两个样本比例之差的抽样分布三.两个样本方差比的抽样分布1.两个总体都为正态分布,即2.两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差3.方差为各自的方差之和一、两个样本均值之差的抽样分布),(~2111NX),(~2222NX21XX2121)(XXE222121221nnXX两个样本均值之差的抽样分布11总体122总体2抽取简单随机样样本容量n1计算X1抽取简单随机样样本容量n2计算X2计算每一对样本的X1-X2所有可能样本的X1-X212抽样分布1.两个总体都服从二项分布2.分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似3.分布的数学期望为4.方差为各自的方差之和二、两个样本比例之差的抽样分布2121)(PPppE2221112)1()1(21nPPnPPpp三、两个样本方差比的抽样分布1.两个总体都为正态分布,即X1~N(μ1,σ12)的一个样本,Y1,Y2,…,Yn2是来自正态总体X2~N(μ2,σ22)2.从两个总体中分别抽取容量为n1和n2的独立样本3.两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)F分布,即)1,1(~//2122222121nnFSS第八节抽样的组织方式常用:简单随机抽样分层抽样机械抽样整群抽样一、简单随机抽样简单随机样本简单随机抽样对总体单位不进行任何划分或排队,完全随机地直接从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中常用方法有抽签法、利用随机数表取数法和电子计算机取数法。易处理,实施难,这种抽样方式仅限于总体规模不大,内部差异也不很大的情况。表6-2总体参数与样本统计量对照表见P100记住!表6-2总体参数与样本统计量对照表n,,,二、分层抽样(类型抽样、分类抽样)1、分层抽样按某种原则将总体划分为若干层(也称类或子总体),然后从各层中按随机原则分别抽取一定数目的单位构成样本。将总体划分成若干类型组后,各类型组内部的差异必定小于总体的差异,从各组中抽取的样本单位,其代表性较强;同时,各类型组都有一定的单位入选,就可能使样本的结构更近似于总体结构。特点:样本代表性高、抽样误差小、抽样调查成本较低。例如城市职工收入调查,可先按行业(农林牧渔业、采掘业、制造业、电力煤气及水的生产和供应业、建筑业、地质勘探及水利管理业、交通运输仓储及邮电通信业、批发和零售贸易餐饮业、金融保险业、房地产业、社会服务业、卫生体育和社会福利业、教育文化艺术和广播电影电视业、科学研究和综合技术服务业、国家、政党机关和社会团体、其他)将职工分类,再从各行业中抽取若干职工来调查。2、样本容量在各类之间的分配办法等比例分配最优比例分配NnNnNnNnkk2211nNNnkiiiiii13、样本统计量的计算样本平均数样本比例kiikiiiiNNxx11NNppkiii14、样本统计量抽样分布的标准差(抽样误差)样本平均数抽样分布的标准差因为所以,重复从各类随机抽取NNxxkiiii1kixixiNN122(1)重复抽样kiiiixnNN122分类后,总体方差=类内方差+类间方差在简单随机抽样下,影响抽样误差的是总体方差。因此,分类抽样的抽样误差即抽样分布的标准差比简单随机抽样的抽样误差要小。NNXXNNkiiiikii12212)((2)不重复抽样kiiiiiiixNnNnNN12215、样本比例抽样分布的标准差样本比例抽样分布的标准差与样本平均数抽样分布的标准差计算原理相同,只是将公式中的替换为Pi(1-Pi)。(1)重复抽样(2)不重复抽样kiiiii
本文标题:第5章抽样
链接地址:https://www.777doc.com/doc-419957 .html