您好,欢迎访问三七文档
Chapter2简单随机抽样(SimpleRandomSampling)简单随机抽样的定义与抽选方法简单估计量及其性质比率估计量及其性质回归估计量及其性质样本量的确定原则若干问题的补充1简单随机抽样的定义与抽选方法一、定义从大小为N的总体抽取样本量为n的样本,若全部可能的样本被抽中的概率都相等,则称这样的抽样为简单随机抽样。根据抽样单位是否放回可分为放回简单随机抽样和不放回简单随机抽样。•放回简单随机抽样:每个样本抽中的概率•不放回简单随机抽样:每个样本抽中的概率nN1nNC1简单随机抽样。实践中,考虑不放回的二、实施方法简单随机样本的抽选,首先要将总体从1到N编号,每个单位对应一个号;然后从所编的号中抽号,如果抽到某个号,则对应的那个单位入样,直到抽够n个单位为止。①抽签法②随机数法①抽签法:简单随机抽样就是从盛有N张票子的盒子里随机无放回地摸取n(N)张票,它可以有两种取法:1)从盒子中一次性摸取n张票2)从盒子中随机地摸取一张票,相应的单元入样后,票不放回盒子;从余下的N-1张票中再随机地摸取一张票,相应的单元也入样且票也不放回盒子;依次实施,直到第n个样本入样。两种抽取的方法是等价的。每个样本的被抽中的概率都是nNC/1?率为什么是种取法中样本入样的概第nNC1)212,,,niiiYYY第二种抽取中,不妨假设先后入样,则),(,,21niiiYYYP121312121()(|)(|)(|)nniiiiiiiiiiPYPYYPYYYPYYYY11111nNNN!)!(NnN!,,,21nYYYniii有得到这组的样本的个数后顺序无关,这组样本与其入样的先.11!/)!(!nNCnNNnNn)入样的概率为样本(niiiYYY,,,21②随机数法当总体较大时,抽签法实施起来比较困难,这时可以利用随机数表、随机数骰子、摇奖机、计算机产生的伪随机数进行抽样。(1)利用随机数表进行抽选。随机数表是一张由0,1,2,…,9这十个数字组成的,一般常用的是五位数的随机数字表,10个数字在表中出现的顺序是随机的,每个数字都有同样的机会被抽中。(2)利用随机数骰子进行抽选。(3)利用摇奖机进行抽选。(4)利用计算机产生的伪随机数进行抽选。通常产生的伪随机数有循环周期。Excel、SPSS等都有随机数发生器等简单随机抽样在抽样理论中的地位缺点:要求每一个单元都有一个号码,这意味着必须有一个包含所有单元的完整抽样框,而当N很大时,这点常常是不具备的;由此得到的样本很分散,不利于调查。例如,对全国进行人口调查,总体单元超过12亿,要对全国每个人都编上号,编制一个完整的抽样框实际上是不可能的。即使可能,当抽到一个人也很难找到。优点:简单随机抽样在抽样理论中占有重要地位,它是其它抽样方法的基础,其理论也最为成熟。其它许多方法都是建立在简单随机抽样的基础上。相关符号12{,,,}NNYYY总体:12,,,niii抽中的号码:12(,,,)niiiyYYY样本:12(,,,)nyyynSamplingfractionfN抽样比()Nn1有关指标与符号指标总体样本总值均值比例比率有限总体方差无限总体方差NiiYY1NiiYNY11)或(01,111iNiiYYNNNPXYXYXYRNiiNii1121221)(11NNYYNSNiNjYYN122)(1niiyy1niiyny11)或01(,111iniiyynnnpxyxyxyRniinii11ˆ212)(11yynsnii引理引理1:从大小为N的总体中抽取一个样本容量为n的简单随机样本,则总体中每个特定的单元入样的概率为n/N,两个特定单元入样的概率为n(n-1)/N(N-1)。入样的样本数为特定单元证明:样本总数inNYC;1111nNCC入样的样本数为,两个特定单元)(jiYYji2222nNCC由古典概型的计算公式一个特定单元入样的概率NnCCCnNnN1111两个特定单元入样的概率)1()1(2222NNnnCCCnNnN1211(,,,)nniNyyyYC样本,将所有可能出现的样本求和,总体中每个单元都出现了次,因此11nNiiiiyY取遍所有样本11nNC或求期望)求平均值(11iiiniNNnnNyYC取遍所有样本)(1niiyE即1NiinNY))(())((NjijinjijiYYYYYyYyE问:)1()1(NNnn)(1niiyE求引理2:从大小为N的总体中抽取一个样本容量为n的简单随机样本。若令:10iiYa入样否则1inEafN则:21inNnVaffNN13cov,1,11ijffnnaaijNNNNNnaPNnaPii1)0(,)1(1,证明:由引理inEafN于是1inNnVaraffNN)1()1()1(1NNnnaaPji,由引理1cov,()()()1ijijijffaaEaaEaEaN简单估计量的定义简单估计量的性质放回简单随机抽样的简单估计设计效应影响估计量精度的因素§2.2简单估计量及其性质y一、简单估计量的定义对于简单随机抽样,在没有其它信息的条件下,最简单的估计是利用样本均值作为总体均值的估计,即总体均值的简单估计量为:11ˆniiYyyn也就是说,样本均值是总体均值的简单估计量。YynNYNYnii估计总体总和1ˆˆ.yN,着重研究和的估计只相差由于总体均值和总体总的性质二、简单估计量y例2.1:一个N=6的总体中抽取n=3的样本,设这6个单元的值分别为Y1=21,Y2=12,Y3=15,Y4=24,Y5=6,Y6=18,则总共可能有个样本,每个样本所包含的单元号及其数值见表2.1总体均值:总体方差:发现:样本均值的均值=总体均值样本方差的均值=总体方差这并不是偶然的,是其重要的性质。1611NiiYNY42)(11122NiiYYNSYyE)(22)(SsE证明:(方法一:对称性证法))(1)(1niiyEnyEYyEYy)(:1.2的无偏估计,即是对于简单随机抽样,定理YYNnnNii11证明:(方法二:引入示性变量)否则。,个单元入样;若第0,1iaiNiiiYany11于是NiiiYaEnyE1)(1)(()inEaN由于YYNnnyENii11)(的无偏估计。是于是YyN221)(:2.2SnfSnNnNyVy的方差本均值对于简单随机抽样,样定理证明:(方法一:引入示性变量))(yMSE否则。,个单元入样;若第0,1iaiNiiiYany11于是)1()(1NiiiYanVyV)(112iNiiYaVnNiNjijijiiiaaYYaVYn122),cov(2)(11iVaff1cov,,1ijffaaijN)(yVNiNjijiiYYNYNNNnf1221)1(121)()1(1YYNnfNii21)(SnfyV于是221)(SnfNyNV于是证明:(方法二:对称性证法)212)1()()(YynEyEyEyVnii2211[()]niiEyYn]))(([1])([12212jijiniiYyYyEnYyEn根据对称性论证法,有])([21YyEnii21)(YYNnNiijijiYyYyE)])(([))(()1()1(YYYYNNnnjjii))(()1()1(1)(1)(2212YYYYNNnnnYYNnnyVjijiNii)})((11)({121YYYYNnYYnNjjiiNii}]([11)()111{(12121YYNnYYNnnNNiiNii2211)(11SnfYYNnNnNNii回顾简单随机抽样的定义与抽选方法简单随机抽样的实施方法两个引理简单估计量的定义样本均值是总体均值的无偏估计。YyEYy)(:1.2的无偏估计,即是对于简单随机抽样,定理221)(:2.2SnfSnNnNyVy的方差本均值对于简单随机抽样,样定理221)()(:2.2SnfSnNnNyVyMSEy的方差本均值对于简单随机抽样,样定理与样本量几乎成反比。体方差成正比的统计意义:精度与总,)(VyQ1:估计量的精度与抽样比的关系大吗?A1:当N很大时,抽样精度基本取决于样本量n,而与抽样比几乎无关。Q2:进行人口抽样调查,如果需要各个省的数据,要达到相同的精度,大省和小省所需要的样本量几乎相同还是相差很大?A2:几乎相同。虽然此时抽样比相差很大,但如果抽样比相同,必然会导致小省精度不够,大省抽样过多而浪费。一点解释:1-f1-f:fpc(finitepopulationcorrection)有限总体校正系数总体未入样率从一无限总体中抽取一个样本容量为n的随机样本n2nsn22,它的无偏估计是均值的方差是有限总体的校正系数。对标准差(标准误)为对方差,于是称。引进因子化,总体有限时,产生了变fffNnN111一般而言,当抽样比小于5%时,fpc可以忽略不计算,这样的话估计量的标准差就估计的稍微高一些。为样本方差。的方差的无偏估计::定理221)(3.2ssnfyvy简单估计量方差的无偏估计证明:说明样本方差是总体方差的无偏估计即可。212)(11yynsnii21)]()[(11YyYynnii])()([11221YynYynnii根据对称性论证法和方差性质])([21YyEnii21)(YYNnNii2)1(SNNn])([2YynE2)(YynE)(ynV2SNnN222)]()1([)1()(SnNNnNnSsE于是)())((yVyvE于是简单估计量的性质小结YyEYy)(:1.2的无偏估计,即是对于简单随机抽样,定理221)()(:2.2SnfSnNnNyVyMSEy的方差本均值对于简单随机抽样,样定理21)(3.2snfyvy的方差的无偏估计::定理的具有相应的性质。对应地:yNYˆ置信区间:的下,于是,在置信度%100)1(1aY[(),()],yuVyyuVyu此时为双侧分位数。[(),()]yuvyyuvy具体例子例:从一个容量为100的总体中抽出样本容量为10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间。序号i12345678910yi452046615081.010010,10,100fnN解:由题意:,510ˆ101iiyyY1111.19,422,910210221022syyysiiii由于3115.1)ˆ()ˆ(72.11)ˆ(2YvYssnfYv,95%的置信区间为[5-1.96×1.3115,5+1.96×1.3115]=[2.43,7.57]例:从一个容量为100的总体中抽出样本容量为10的简单随机样本,序号i12345678910yi45204661508续上若问:(2)估计总体的总量以及95%的置信区间。,5005100ˆyNY15.1313115.1100)ˆ()ˆ()ˆ(YvNYsNYs95%
本文标题:简单随机抽样
链接地址:https://www.777doc.com/doc-6430484 .html