您好,欢迎访问三七文档
第七章抽样方法抽样是通过抽取总体中的部分单元,收集这些单元的信息,用来对作为整体的总体进行统计推断的一种手段。本章讨论了抽样的基本问题。抽样的两种主要类型是概率抽样与非概率抽样。非概率抽样的用途是有限的,因为抽选单元的倾向性不允许对调查总体进行推断。然而非概率抽样快速简便,对探索性研究很有用,特别是在市场调查中应用非常广泛。。一、非概率抽样非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。要对总体进行推断需要对样本进行一些假定,即要求样本对总体具有代表性。在这点上非概率抽样一般不具备。由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。从而无法得到总体目标量的可靠估计值及其抽样误差估计值。非概率抽样能用在下面几个方面的研究中:用来形成一种想法;作为设计开发概率抽样调查的初始步骤;在后续步骤中帮助理解概率抽样调查结果。有时,非概率抽样是唯一可行的选择。例如,在医学实验中,采用志愿者抽样可能是取得数据的唯一途径。非概率抽样常被用于抽选参加焦点座谈和深入访问的个人。另一个能较好发挥非概率抽样作用的例子是预研究。非概率抽样的优点是:快速简便;费用相对较低;不需要抽样框;对探索性研究和调查的设计开发很有用。非概率抽样的缺点是:为了对总体进行推断,需要对样本的代表性做很强的假定。不可能得到可靠的估计值以及抽样误差估计值。非概率抽样的种类非概率抽样方法有五种:随意抽样自愿抽样判断抽样配额抽样修正的概率抽样。1.随意抽样随意抽样的样本单元的抽选以无目标、随意的方式进行,几乎没有或完全没有计划。它假定总体是同质的,即总体单元都相似。比如“街道拦截”访问法。2.志愿者抽样被调查者都是志愿者。例如具有特定病情的人参加某些医疗实验;打电话参与广播或电视节目的人;抽选参加焦点座谈或深入访问的人。3.判断抽样由专家有目的地抽选有代表性的样本。它适用于探索性研究,如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。4.配额抽样这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元(配额)。总样本量:900人18-2526-3031-3536-4041-45男女比例28%17%17%19%19%50-55%50-45%1936年总统选举预测得票率单候选人实际得票率《文摘》杂志预测盖洛普预测罗斯福60.243.054.0兰登39.857.046.0合计100.0100.0100.0那么,《文摘》杂志失败,盖洛普成功的原因究竟何在呢?盖洛普采用的是一种叫作“分配法’的方法。这种方法力求使调查对象在州,市,镇,村的大小,年龄,性别、社会阶层,人种等方面,能准确地代表美国的所有选民。例如,如果二十几岁的人占全体选民的27%,那么在3000人的调查对象中,二十几岁的人也应占27%,即810人。为确保所分配的比率不致出错,务必要求调查员直接面见调查对象,以便确认。因此,调查的实施多采取访问调查的方法。盖洛普应用分配法进行总统选举颅测调查获得极大成功以后,该方法开始被广泛应用于民意调查和市场调查。可是在1948年的总统选举中,采用同样方法预言杜威将当选,结果与预测恰恰相反,杜鲁门当选了。预测实际候选人CrossleyGallupRoper结果杜鲁门45%44%38%50%杜威50%50%53%45%从此,盖洛普失去了在民意调查界神话般的地位。不仅如此,其它调查机构也都出现了同样的失败。人们开始向民意调查投来了怀疑的目光。于是,由许多学者和专家组成了一个委员会,对失败的原因进行了研究。结果指出分配法的下列缺点:因此,不可避免调查员的爱好,调查对象对访问的配合程度等因素的影响。即使在年龄,社会阶层等分配调查对象时考虑到了的几个特征上,调查对象能完全代表全体选民,但其他特征还是可能出现偏差。研究结果,随机抽样方法作为消除分配法主观因素影响的手段开始受到重视。盖洛普后来的成功—采用概率抽样年份样本容量获胜后选人盖洛普选举结果误差预测值19525385艾森豪威尔51%55.4%+4.4%19568144艾森豪威尔59.5%57.8%-1.7%19608015肯尼迪51%50.1%0.1%19646625约翰逊64%61.3%-2.7%19684414尼克松43%43.5%0.5%19723689尼克松62%61.8%-0.2%19763439卡特49.5%51.1%1.6%19803500里根55.3%51.6%-3.7%19843456里根59.0%59.2%0.2%19884089布什56.0%53.9%-2.1%5.修正的概率抽样修正的概率抽样是概率抽样与非概率抽样的结合。主要用于多阶段抽样,前几个阶段用概率抽样,最后用非概率抽样,一般是配额抽样。二、概率抽样在需要根据样本的结果对总体进行推断时应使用概率抽样。最简单的概率抽样设计是等概率抽样,包括简单随机抽样和系统抽样。不等概率抽样比较复杂且大多需要辅助抽样框信息。不等概率抽样有:概率与大小成比例的抽样,整群抽样,分层抽样,多阶段抽样和多相抽样。不等概率抽样通常用来提高抽样设计方案的效率,或降低抽样费用。概率抽样有两条基本准则:1)单元是随机抽取的;2)调查总体中的每个单元都有一个非零的入样概率,并且能计算出这些概率。概率抽样的主要优点有:能得到总体的可靠估计值并能计算每个估计值的抽样误差,因而能对总体进行推断。概率抽样的主要缺点有:与非概率抽样相比,概率抽样比较复杂,更费时,通常也更费钱。但总的说来,其利远大于弊。概率抽样的种类概率抽样有七种:简单随机抽样,系统抽样,等比例抽样,整群抽样,分层抽样,多阶抽样,多相抽样。简单随机抽样(SRS)是所有概率抽样的出发点和理论基础。简单随机抽样是一种一步抽样法,它保证样本量为n的每个可能的样本都有相同的被抽中的概率p=n/N。抽样可以是放回的,也可以是不放回的。简单随机样本(图示)简单随机抽样在实际抽样中应用很少,常被用作评估其他抽样方法的效率的标准。抽样的误差是通过其抽样方差来测量的,如果一种抽样方法的抽样方差比另一种抽样方法的抽样方差小,我们就称这种抽样方法更有效率(统计效率)。与其他抽样技术相比,简单随机抽样有以下优点:是最简单的抽样技术;抽样框不需要其他(辅助)信息,唯一需要的只是一个关于调查总体所有单元的一个完全的清单和与其如何联系的信息;关于样本量的确定、总体估计与方差估计都有现成的标准公式可以利用,因此技术发展已经成熟。简单随机抽样的缺点是:抽样框中即使有现成的辅助信息也不加利用,使得估计的统计效率较其他利用辅助信息的样本设计低;由于样本在总体中的地理分布范围比较广,如果采用面访,费用较高;有可能抽到一个“差的”样本;如果不用计算机,而用随机数表抽一个大样本将十分单调劳神。系统抽样(SYS)其抽样单元是从总体中等距抽出的。它需要一个抽样间距和一个随机起点。抽样间距是k=N/n,随机起点r是介于1到k之间的一个随机数。被抽中的单元是:r,r十k,r+2k,r+3k,…,r+(n-1)k。系统样本(图示)在系统抽样中,样本单元是从总体中按一定的(抽样)间距抽出的。如果N不能被n整除,则可以使用圆形系统抽样法来避免出现可能样本量不一致的情况。系统抽样有以下优点:在没有抽样框时,可代替简单随机抽样;与简单随机抽样一样,系统抽样不需要辅助的抽样框信息;与简单随机抽样相比,系统抽样样本的分布较好(这还取决于抽样间隔及名录是如何排列的);与简单随机抽样一样,估计值容易计算;系统抽样比简单随机抽样简单。系统抽样的另一个优点是,在事先没有总体单元名录的情况下,也可以用。此时,我们可以使用并构造一个概念抽样框(只需要单元的排列顺序),每隔k个抽一个单元直到总体的末尾。这种方法的一个缺点是,只有抽样完成后才知道实际样本量n。系统抽样的缺点有:如果抽样间距正好碰上总体变化的某种未知的周期性,就会得到一个“差的”系统样本;由于不使用抽样框中的辅助信息,抽样策略的效率不高;在使用概念框时,不能预先知道最终样本量;抽样方差没有一个无偏的估计量;在总体大小N不能被样本量n整除且不使用圆形抽样法时,会得到样本量不同的样本。与大小(或规模)成比例的概率(PPS)抽样PPS抽样是一种使用辅助信息从而使入样概率不相等的抽样技术。如果单元大小的度量是准确的,而且所研究的变量与单元的大小相关,PPS抽样能极大地提高精度。PPS抽样的一个很好的例子是商业调查。单元大小度量可用雇员数、年销售额、经营场所数等。在PPS抽样中,单元的大小决定入样概率的大小。这就是说,以农场作为例子,一个面积为200公顷的农场被抽入样本的概率,是面积为100公顷的农场的二倍。假定一个总体有六个农场,我们要估计这个农场总体的总支出。假定我们已知每个农场的规模(以公顷计的农场大小),为便于说明,进一步假定我们已知它们的支出。考虑下面的农场名录(总体值):抽样单元:农场抽样框辅助信息:以公顷计的农场规模调查变量:支出(元)15026000210004700003125638004300145000550023000062512500总计2000947300对这个六个农场的总体,真正的总支出为947,300元。假定我们没有对这六个农场进行普查的经费,预算只够对一个农场的样本进行调查(把样本量取为1,只是为了说明方便,在实际调查中,只抽一个单元的情况极少),我们可以抽简单随机样本,每个样本只含一个单元、每个单元入选的概率为1/6、大小为n=1的样本有六种可能。下面我们来分析简单随机抽样的结果。对大小为1的样本,总体总支出的估计值,由抽中样本的单元的支出乘以该单元的权数1/6(权数是样本单元所代表的总体单元个数)得到。所有可能的n=1的简单随机样本。样本(抽中的农场)农场的如样概率农场的样本权数农场的支出(元)总体总支出的估计值(元)样本11/6626000156000样本21/664700002820000样本31/6663800382800样本41/66145000870000样本51/662300001380000样本61/661250075000估计总值的平均数947300用简单随机抽样时,总体的估计值随样本的不同而不同,其变化范围从75,000元到2,800,000元。PPS抽样能得到抽样变异性较小的估计值。样本(抽中的农场)农场的如样概率农场的样本权数农场的支出(元)总体总支出的估计值(元)样本150/20002000/50260001040000样本21000/20002000/1000470000940000样本3125/20002000/125638001020800样本4300/20002000/300145000966667样本5500/20002000/500230000920000样本625/20002000/25125001000000估计总值的平均数947300所有可能的n=1的PPS样本对PPS样本,抽样变异性要小得多。从六个可能的样本得到的估计值的变化范围,从最低的920,000元到最高的1,040,000元,比简单随机样本好得多(PPS抽样的入样概率是按农场规模除以所有农场总规模计算得到的)。本例中假定农场的支出与其规模(大小)有关,这一假定在这里显然是成立的,否则PPS抽样不会这样有效。实际上,如果调查变量与大小变量不相关,PPS抽样可能不比简单随机抽样好(甚至可能更差)。PPS抽样的主要优点是它使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,都能显著地减少抽样误差。PPS抽样的主要优点是:由于使用了辅助信息,提高了抽样策略的统计效率,能显著地减少抽样误差。PPS抽样有以下的缺点:抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息;抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体
本文标题:第四章 抽样方法
链接地址:https://www.777doc.com/doc-3270318 .html