您好,欢迎访问三七文档
抽样推断第五章分析前面学习过的三大综合指标,都是反映总体的数量特征;但是,在实际工作中许多场合并没有可能对总体的所有单位进行全面调查,未达到对总体数量特征的认识。例:市场商品需求量、城市居民家庭收支情况、城乡居民的电视收视率以及民意测验等……这些很难对每个单位进行观察,只能组织抽样调查,取得部分的实际资料,来估计与判断总体的数量特征,以达到对现象总体的认识。从这一章开始便进入推断统计学的学习内容,它会节省人们的时间和财物来达到认识对象的最佳限度。在这一章里,你将会了解到样本是怎样抽取的,样本统计量是怎样分布的,如何根据样本统计量对总体参数做估计。STAT学习目标•1、明确抽样调查的概念、特点、作用•2、理解抽样误差的影响因素•3、掌握抽样平均误差的计算方法;掌握抽样估计方法与样本容量确定的方法•4、理解类型抽样、等距抽样、整群抽样的含义、特点与适用场合STAT第一节抽样推断的一般问题第二节简单随机抽样的抽样误差测定第三节简单随机抽样的抽样估计的方法第四节抽样组织设计第一节抽样推断的一般问题本节内容•一、抽样推断的概念•二、抽样推断的特征•三、抽样推断的内容•四、有关抽样的基本概念指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会一、抽样推断的概念按照随机原则从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。随机抽样的目的是使样本与总体同分布。STAT例如,要检验某种工业产品的质量,我们只需从中抽取一小部分产品进行检验,并用计算出来的合格率来估计全部产品的合格率,或是根据合格率的变化来判断生产线是否出现了异常。二、抽样推断的特征特征之一:按随机原则从全部总体中抽取样本单位。随机样本:与总体分布特征相同非随机样本:与总体分布特征不同并非所有的抽样估计都按随机原则抽取样本。也有非随机抽样。STAT概率论中心极限定理大数定律特征之二:具有科学的理论基础,以样本的数量特征推断总体的数量特征,其估计结果具有可靠性(概率估计)。概率论中心极限定理大数定律抽样推断方法STAT抽样推断的理论基础大数定律中心极限定律表明大量随机观象平均结果具有稳定性的性质。大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的样本可以近乎100%的概率,期望样本平均数与总体平均数的绝对离差为任意小。1)(limXxPn如果变量总体存在有限的平均数和方差,那么不论这个总体的分布如何,随着样本容量的增加,样本平均数的分布,便趋近于正态分布。大数定理的意义:个别现象受偶然因素影响,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义。特点之三:存在估计误差,并可加以控制。抽样推断误差登记误差代表性误差STAT特点之三:存在估计误差,并可加以控制。抽样推断误差登记误差代表性误差用设计、培训、管理等方法消除用抽样方法、样本容量等手段控制STAT三、抽样推断的一般步骤1、设计抽样方案2、随机抽取样本(从总体随机抽取部分单位构成样本)3、搜集样本资料(对样本单位进行调查登记)4、整理样本资料(审查、分组汇总、计算样本指标的数值,即计算估计量的具体数值)5、估计总体指标(即估计总体参数)STAT四、抽样方案(一)抽样方案设计的基本准则1、随机原则2、抽样误差最小3、费用最少STAT随机原则的实现抽签法是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。随机数表法随机数字表,是供抽样使用的,由0到9这十个数码随机排列组成的多位数字表。先将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。计算机模拟法是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数字,然后从总体中找到相应总体单位形成样本。除了一般调查方案的内容外,主要还包括:–编制抽样框–确定抽样方法–确定抽样组织方式–确定抽样数目STAT(二)抽样方案设计的主要内容什么是抽样框?——包括全部抽样单位的框架。抽样框的意义——实施抽样的基础,影响抽样的随机性和抽样效果。抽样框的主要形式:(1)名单抽样框(2)区域抽样框(3)时间表抽样框抽样框的要求——一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复也不遗漏;尽可能利用与所研究变量相关的辅助变量的信息。1、编制抽样框STAT2、确定抽样方法3、确定抽样组织方式4、确定抽样数目STAT五、抽样推断的应用STAT(一)某些现象不可能进行全面调查(如调查具有破坏性或消耗性的场合),为了解其全面资料就必须采用抽样推断方法。(二)某些理论上可以进行全面调查的现象,采用抽样推断可以达到事半功倍的效果(如城乡居民的家庭收支状况调查)。(三)抽样推断可以对全面调查的结果进行评价和修正(如全国人口普查就是有短表和长表之分,短表用于全面调查,长表用于抽样调查)。(四)抽样推断可用于工业生产过程中的质量控制(如在工业产品成批或大量连续生产过程中,采用抽样推断方法可以检验生产工艺过程是否正常,进行质量控制)。我国的抽样调查应用主要有:⒈国家和地方统计部门一系列抽样调查制度:1%人口抽样调查、城市和农村住户调查、农产量抽样调查等。三支调查队:城市社会经济调查总队、农村社会经济调查总队、企业调查总队。⒉其他政府部门、社会团体和学术团体妇女生育力调查(国家计划生育委员会)公众科学素养调查(全国科协)语言与文字使用情况调查(教育部与国家语委)⒊专业调查咨询机构央视调查咨询中心、北京华通现代信息咨询有限公司、北京零点市场调查与分析公司等。两个方面:(一)参数估计:根据样本观察资料,对所研究总体的水平、结构、规模等数量特征进行估计。参数估计的内容:确定估计值,确定估计的优良标准并加以判别,求估计值与被估计参数之间的误差;计算在一定误差范围内所作推断的可靠程度等。六、抽样推断的内容STAT(二)假设检验:由于对总体变化情况不了解,不妨先对总体的状况作某种假设,然后再根据抽样推断的原理,根据样本资料对所作假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍。例:新工艺的推广(产品质量是否提高)STAT2005年中国消费者协会的主题是“健康·维权”。想象你是中国消费者协会的官员,负责治理缺斤少两的不法行为。假如你知道可口可乐公司,他们生产的一种瓶装雪碧,包装上标明其净含量是500ml,在市场上随机抽取了50瓶,测得到其平均含量为499.5ml,标准差为2.63ml。你拿着这些数据可能做两件事:一是你做一个估计:该种包装的雪碧平均含量在498.77-500.23ml之间,然后向消协写份报告;二是你做一个裁决:说“可口可乐公司有欺骗消费者的行为”的证据不足。前者是参数估计;后者是假设检验。参数估计在统计方法中的地位•统计方法描述统计推断统计参数估计假设检验STAT七、评价科学、经济科学:抽样单位数(n)确定;抽样误差可控制经济:省时、省力。STAT1、全及总体和样本全及总体:研究对象全体,又称母体。容量用N表示。具备惟一性。样本:样本又称子样或样本总体,按随机原则从总体中抽出的部分单位的全体,被抽出的每个单位称样本单位。容量用n表示。样本不具惟一性。STAT八、有关抽样推断的一些基本概念例如:在100万户居民中,随机抽取1000户居民进行家庭收支情况调查,其中的100万户居民就是全及总体,而被抽中的1000户居民则构成样本。2、样本容量和样本个数•样本容量样本容量是指样本所包含的单位数(n)。它关系到调查的结果。STAT大样本:n≥30小样本:n30n/N称为抽样比.•样本个数样本个数又称样本可能数目,也就是从一个总体中可能抽取的样本个数。与样本容量及抽样方法等因素有关。一个总体有多少样本,则样本统计量就有多少种取值。从而形成该统计量的分布,而统计量的分布又是抽样推断的基础。对于一次抽样调查,总体是唯一确定的,而样本却是不确定的,一个全及总体可能抽出很多个样本总体。STAT3、参数和统计量•全及指标与样本指标根据总体各单位的标志值或标志属性计算的,反映总体数量特征的综合指标称为全及指标。全及指标是总体变量的函数,其数值是确定的、惟一的,因此称为参数。根据样本各单位标志值或标志属性计算的,反映样本数量特征的综合指标称为样本指标。样本指标样本变量的函数,用来估计总体参数,因此也称统计量,其值随着样本的不同而不同,因此统计量是个随机变量。STAT3、参数和统计量STAT例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数;在班级中抽出10名学生,了解其年龄,并根据10名学生的年龄计算平均数为21.5岁,则21.5即为由样本构造出来的统计量。抽样推断,就是由统计量推断总体参数的过程。ffxnxxPxp•(1)常用的参数•(2)常用统计量a.平均数:成数:b.方差:成数方差:ffXNXffNXXXX222PXp)1(2PPpffnxxxxs222)1(2PPsp常用的参数和统计量STAT注意:在有些书上,样本标准差用s表示11)(22ffnsxxxx在计算器上,有σ和s按钮,σ代表总体标准差,S代表样本标准差。在EXCEL“数据分析”“描述统计”中计算的样本方差即是按上面公式计算的。STAT4、重复抽样和不重复抽样重复抽样(回置抽样)从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。也称放回抽样。每个总体单位可能被重复抽中;每个总体单位被抽中的可能性为1/N;可能的样本数目为NnSTAT不重复抽样(不回置抽样)从N个单位中每次抽取1个,抽取后不放回,一直抽取n个单位组成一个样本,这样的抽样方法称为不重复抽样。每个总体单位只能被抽中一次;每个总体单位被抽中的可能性为可能的样本数目为CnNSTAT例如:从A、B、C、D四个单位中,抽出两个单位构成一个样本,问可能组成的样本数目是多少?重复抽样AAACADBABBBCBDABCACBCCCDDADBDCDDNn=42=16(个样本)不重复抽样N(N-1)(N-2)…….4×3=12(个样本)第二节简单随机抽样的抽样误差测定一、抽样误差的概念及影响因素二、抽样平均误差三、抽样极限误差STAT用抽样指标来估计全及指标是否可行,关键问题在于抽样误差,抽样误差大小表明抽样效果好坏。如果误差超过了允许的限度,抽样调查就失去了价值。STAT一、抽样误差的概念及影响因素一类是登记性误差二类是代表性误差系统性误差:违反随机原则随机性误差:随机性因素影响STAT在统计调查过程中,产生统计误差的原因主要有两类:例如,想要了解某校新生的身高情况,可以从入学新生这个总体中抽取一系列样本进行观察,如果计算出所抽取的各样本的平均身高,就会发现各个样本的平均数并不完全相等,彼此间存在着一定的差异。抽样误差167CM169CM172CM160CM162CM167CM175CM180CM165CM167CM170CM175CM178CM180CM162CM173CM155CM160CM170CM165CM平均身高=169.8CM平均身高=174.6CM总平均身高=168.6CM样本指标具有随机性,它的取值随着样本的变化而变化。当我们用样本指标来代表总体指标时就会产生一定的误差。抽样误差是由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标与全及指标之间的绝对离差.例:某班有100个同学,男生60名,女生40名,现抽取10名同学为样本,由于随机原因未必能抽到6名男生4名女生,使得由样本计算的性别比例指标不能代表班级同学的性别比例指标,而发生误差。STAT(一)抽样误差的概念(二)抽样误差的影响因素1.总体各单位标志值的差
本文标题:第五章--抽样估计
链接地址:https://www.777doc.com/doc-3603341 .html