您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第三章-简单随机抽样
简单随机抽样本章教学目的与要求•简单随机抽样是抽样中最基本、最成熟、最简单的抽样设计方式,是所有概率抽样方法发展、比较的基础。具体要求:•通过学习,熟练掌握简单随机抽样的抽样方式和样本抽选方法;•熟知总体均值、总体总值和总体比例的简单估计;•掌握样本量的确定;•了解子总体的估计。第一节抽样方式•简单随机抽样(simplerandomsampling):也称纯随机抽样。对于大小为N的总体,抽取样本量为n的样本,若全部可能的样本被抽中的概率都相等,则称这样的抽样为简单随机抽样。•可以分为放回和不放回抽样。(一)放回简单随机抽样•放回抽样也称重复抽样。做法是每次从总体中随机抽取一个样本单位,经调查观测后,将该单位重新放回总体,然后再在总体中随机抽取下一个单位进行调查观测,依次重复这样的步骤,直到从总体中随机抽够n个样本单位为止。•可能的样本为(考虑顺序)或•放回抽样的特点:同一个单位有可能在同一个样本中重复出现。nN1nNnC(一)放回简单随机抽样•设总体有5个单位(1,2,3,4,5),按放回简单随机抽样的方式抽取2个单位,若考虑样本单位的顺序,则所有的可能样本为25个,若不考虑样本单位的顺序,则所有可能样本为15个。•不考虑顺序的放回简单随机抽样的估计量方差大于或等于考虑顺序时的估计量的方差。只讨论和使用考虑顺序的情形。(二)不放回简单随机抽样•不放回也称不重复抽样,每次从总体中随机抽取一个样本单位,经调查观测后,不再将该单位放回总体参加下一次抽样,然后再在剩下的总体单位中随机抽取下一个样本单位进行调查观测,直到抽够n个样本单位为止。•考虑顺序可能的样本为每个样本被抽中的概率为!!NNn()!!NnN(二)不放回简单随机抽样•不考虑样本单位顺序,可能的样本为个。每个样本被抽中的概率为•虽然样本个数不同,但有同样的概率分布。nNC1/nNC(二)不放回简单随机抽样•设总体有5个单位(1,2,3,4,5),按不放回简单随机抽样的方式抽取2个单位,若考虑样本单位的顺序,则所有可能样本20个。若不考虑样本单位的顺序,所有可能样本为10个。二者概率分布相同,不考虑顺序的工作量小,所以对于不放回抽样,只讨论不考虑顺序的不放回抽样。(三)不放回和放回简单随机抽样的比较•每次抽样面对的总体结构不同。放回抽样总体结构不变,每次抽取相互独立,不放回抽样总体结构改变,每次抽取不相互独立,前者的数学处理简单。•样本提供的信息量不同。不放回抽样信息量更大,抽样效率高。•样本单位数量限制不同。•一般采用不考虑顺序的不放回简单随机抽样。二、简单随机样本的抽选方法•抽签法:材质相同N个签,一次抽n,或者一次抽1个直到抽够n.•随机数表法•随机数色子•摇奖机•计算机产生三、简单随机抽样的地位与局限•抽样技术的重要理论基础。•当N很大时,编制抽样框困难;有辅助信息不加利用,统计效率低下;样本分布广泛时,抽样费时费力;可能得到差的样本。第二节总体均值与总体总值的估计一、总体均值的简单估计(一)简单估计量样本均值是总体均值的简单估计量。(二)无偏性总体中每个特定的单位出现在全部可能样本中的次数都相等是每一单位入样概率总体中任意两个单位出现在全部可能样本中的次数都相等是每一单位入样概率y()EyY11nNC11nNnNCnCN22(1)(1)nNnNCnnCNN22nNC对称性论证法(三)简单估计量的方差(四)简单估计量方差的无偏性简单随机样本的方差是总体方差的无偏估计。是的无偏估计。()Vy21()fVySn211()1niisyyn2S21()fvysn(五)放回简单随机抽样的简单估计•样本方差是无限总体方差的无偏估计量。•考虑顺序的放回简单随机抽样方差的无偏估计是•放回/不放回211()1niisyyn2()Vy2()svyn22111NSNnNDeffNnNnSnN•为调查某校大学生的电信消费水平,在全校N=15230名学生用简单随机抽样抽取n=36名学生,调查上月电信支出数据。试以95%的置信度估计该校大学生该月电信消费的平均支出额。样本序号消费元/月样本序号消费样本序号消费1451348258323614532651371524273341316392825517017412928689189330907331919311787520593257922211113343105622643414611792335351912524763647221931(53.64,(1)/0.027712,1358.41,()(1)/37.6444,()6.1355iyyfnsvyfsnsey元),对该校大学生某月电信消费人均支出额的估计为53.64元,在置信度95%下,临界值1.96,可以说以95%的把握说明该校大学生该月的人均支出在[53.64+(-)1.96*6.1355],即41.61~65.67元。253.64.()37.7336,()6.148,95%53.641.96*6.1428,41.60~65.68vsnse---若放回抽,yyy以的把握估计人均消费既•总体总值•总体总值的简单估计量•总体总值估计量的性质由总体均值估计量的性质决定。简单随机抽样的是的无偏估计量。•方差无偏估计为二、总体总值的简单估计_Y=NYiY1niiNYNyynY()VY222(1)()()NfvYNvysnY第三节总体比例的简单估计一、总体比例•总体中具有某种属性的单位占总体单位的比例或具有某种属性单位的总个数,也称成数。•设总体有N个单位,具有某种属性的单位N1个,不具有该属性的单位有N-N1个。1111,011iNiiYNPYYNNNNQPN1总体单元具有某种属性,总体单元不具有某种属性总体比例是总体均值的一种特殊表现形式,对总体比例的估计就是对总体均值的估计,对总体中具有某种属性单位的总个数N的估计就是对总体总值估计的一个特例。二、总体比例的简单估计量及性质(一)简单估计量的定义•利用简单随机抽样抽取n个单位组成样本,其中n1个单位具有某种属性,则样本比例是总体比例的简单估计量。•是总体中具有某种属性单位的总个数的简单估计量。11niiynpynn1NNp1N(二)估计量性质•p是P的无偏估计量。•p的方差•V(p)的无偏估计量是v(p)()()(1)PQNnVpnN11221,()()()()(1)NNpNNPQNnVNVNPNVpnN是的无偏估计且111()(1)1()()()1NnfvppqpqnNnNNnvNpqNn是V的无偏估计•当N,n,N-n都比较大时,以正态分布给出P及N1的近似置信区间(置信度1-a)为(1)(1)[,]11()()[,]11(1)1(1)1[(),()]1212()N()N[(),()]1212fpqfpqptptnnNNnpqNNnpqNptNptnnfpqfpqptptnnnnNNnpqNNnpqNptNptnnnn离散二项分布调整为连续正态分布•正态近似产生的误差主要与nP有关,特别当nP比较小时,产生的误差甚大,在95%置信度下,P0.5时正态分布需要的最小nP值与n值如下表。PnPn0.515300.420500.324800.2402000.1606000.05701400080无穷•试以95%的置信度估计上例大学生月电信消费超过80元的人数及其比例。11115230,36,7,1.96,10.1944,0.0285,0.15661(1)10.0668,0.0139,95%P12(1)112(0.0496,0.3392)95%(0.0496,0.3392)(755,5166NnntnfppqnnfpqnnfpqnnNNN的置信区间:p(t+)=0.1944(1.96*0.0668+0.0139)的置信区间)第四节样本量的确定•一、确定样本量主要考虑因素•样本量过大,容易产生非抽样误差,样本量过小,产生抽样误差。•因素一:对抽样估计量精度的要求。精度要求高,即要求抽样误差小,则必须样本量大。总体单位调查标志的变异程度、总体的大小、样本设计和所使用的估计量、回答率等都是影响估计精度的因素。一、确定样本量主要考虑因素•因素二:实际调查运作的机制。调查经费能支持多大样本?允许调查持续的时间多久?需要多少调查人员?多种约束条件。•能够量化的因素只有抽样精度和调查费用。•方案:总费用一定的条件下精度最高;或者在满足一定精度要求的条件下使费用最小。•费用公式:0CCcn0CcC0为总费用,为与样本量无关的固定费用,包括管理人员的工资、调查表的设计、必要的设备以及组织、宣传等固定费用,为平均调查一个样本的变动费用,包括调查表的印制、调查员的工资和差旅费、礼品费以及调查本身的费用。C-Cn=c•达到要求精度,就是控制抽样误差,估计量的标准差或变异系数都是n的函数,只要给定对精度的要求,就可以求出最低样本量要求。()()()(),()()()tSEtVSEttCVSECVSE,绝对允许误差相对允许误差,变异系数估计量的标准差二、估计总体均值(总值)的样本量确定•总体总值是总体均值N倍,N是常数,对样本量的确定不起决定作用,只须估计总体均值的情形。200220()1()()nNnVySnnnNNSnVyVy可以推得•无限总体或放回抽样情况下,n0为所确定的样本量。•不放回情况下,若总体单位N很大,n0/N0.05,以n0为近似的样本量。•不放回情况下,若总体单位N不大,用n的公式确定样本量。•n0n,在同样精度要求下,放回比不放回需要的样本量大。001nnnN•利用绝对允许误差,相对允许误差和变异系数公式变形估计样本量上限。22202222022202,,()/,/(),/[()]CVyntSntSYnSCVyYSY确定上限的样本量公式为:,总体方差和总体均值未知,上些公式估计前必须先对它们做估计,可以通过以往对同类问题调查积累的经验来估计,也可以通过预调查估计,或其他定性方法。•复杂的抽样设计方法,样本量估计公式也复杂。在同样精度要求下,先获取简单随机抽样的样本量n,计算复杂抽样设计的效果Deff,再间接推算复杂设计方法需要的样本量n’,有n’=n*Deff.•前面大学生通信费消费调查例子中,要求以95%的置信度估计该校大学生该月人均电信消费支出的绝对允许误差不超过5元,样本量为多少?•解:22220220015230,5,95%1.96,1358.411.961358.41208.745208.74206208.741115230206955NFtstSnnnnN至少抽取一个样本量为的简单随机样本,才满足%的置信度条件下绝对误差不超过元。三、估计总体比例的样本量确定000Ppnnn11NPQnV(p)估计的是总体比例,则样本比例的方差公式PQ(N-n)V(p)=可以推得n(N-1)其中22202220220,,()/,/(P),/[()P]P0.5P=0.5P0.20.8P=0.5PCVyntSntSnSCVy确定上限的样本量公式为:,若在附近取值,可以根据总体方差在时达到极大值计算样本量,即使为,利用也可以得到样本量的保守估计,若比较大或比较小,必须通过以往积累的经验或其他调查事先对它做估计。•如果要求以95%的置信度估计该校大学生月电信消费支出超过80元的人数比例的相对允许误差不超过10%,样本量多少?1220220015230,36,7,1.96,0.1944,0.80561.960.80561591.970.01
本文标题:第三章-简单随机抽样
链接地址:https://www.777doc.com/doc-1662926 .html