您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第五章抽样与参数估计
STAT第五章抽样与参数估计5.1理论基础与中心极限定理5.2常用的抽样方法5.3抽样分布5.4参数估计的方法STAT参数估计的理论基础STAT大数定律——贝努利大数定律404820480.5069204810610.51811200060190.501624000120120.500580640396990.4923Annn皮尔逊皮尔逊蒲丰德·摩根实验者罗曼诺夫斯基STAT大数定律——贝努利大数定律•设是n次独立试验中事件A发生的次数,即事件A发生的频率;p表示事件在每次试验中发生的概率,则对于任意正数є有An1limpnnPAnSTAT切比雪夫大数定律•设是相互独立的随机变量序列,并且和均存在,同时存在常数C,使≤C,则对任意的є>0,有,,,21nXXXiEXiDX,,2,1iiDX,,2,1i1)(11lim11niininXEnXnPiSTAT大数定律的意义•样本均值趋近于总体均值•但是如何确定样本均值和总体均值之差,这需要引入“中心极限定理”。STAT中心极限定理STAT中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体xxSTAT棣莫弗-拉普拉斯定理•正态分布是二项分布的极限分布•如果np=5,并且n(1-p)=5,则二项随机变量之和服从近似的正态分布,其均值和标准差为np)1(pnpSTAT中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程STAT5.2常用的抽样方法一、简单随机抽样二、分层抽样三、系统抽样四、整群抽样STAT抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式STAT非概率抽样•方便抽样•判断抽样•自愿样本•滚雪球抽样•配额抽样STAT非概率抽样的缺点——经典案例•1936年美国《文学文摘》对总统大选结果的预测调查。《文学文摘》在大选前按照电话号码簿以及汽车牌照登记簿上的地址,寄出了1000万张模拟选票,共回收了230万张,结果显示57%的人投票给兰登,43%的人投给罗斯福。后来罗斯福却以62.5%的选票当选,连任总统。STAT“自愿者抽样”不具代表性•杜蕾斯公司全球性调查报告称:世界范围内每人平均拥有10.5个性伴侣,中国人的平均性伴侣为19.3个。•人们对其调查方法和结果产生了强烈的质疑。•原来杜蕾斯公司采用的抽样方法是“自愿者抽样”。•目前比较流行的一种调查方法,结果虽然有时很有震撼力,但它只能代表那些积极分子。STAT概率抽样(probabilitysampling)1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点–抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的STAT简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点–简单、直观,在抽样框完整时,可直接从中抽取样本4.局限性–当N很大时,不易构造抽样框–抽出的单位很分散,给实施调查增加了困难STAT分层抽样(stratifiedsampling)1.将总体单位按某种特征或某种规则划分为不同的层或类型,然后从不同的层中独立、随机地抽取样本2.分层标准:层级差异尽可能大,层内差异尽可能小3.等比例分层抽样4.不等比例分层抽样根据每层的变异程度选取样本量STAT分层抽样优点–保证样本的结构与总体的结构比较相近,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计STAT系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位2.优点:操作简便,可提高估计的精度STAT整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点–抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是估计的精度较差STAT5.2抽样分布STAT抽样分布(samplingdistribution)1.样本统计量的概率分布–在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量–样本均值,样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据STAT抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本STAT样本均值的抽样分布STAT样本均值的抽样分布1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础STAT样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNiiSTAT样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为•3,4•3,3•3,2•3,1•3•2,4•2,3•2,2•2,1•2•4,4•4,3•4,2•4,1•4•1,4•4•1,3•3•2•1•1,2•1,1•1•第二个观察值•第一个•观察值•所有可能的n=2的样本(共16个)STAT样本均值的抽样分布(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布•3.5•3.0•2.5•2.0•3•3.0•2.5•2.0•1.5•2•4.0•3.5•3.0•2.5•4•2.5•4•2.0•3•2•1•1.5•1.0•1•第二个观察值•第一个观察值•16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5STAT样本均值的抽样分布(数学期望与方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n为样本数目MnMxnixix222122625.016)5.20.4()5.20.1()(5.2160.45.10.11MxniixSTAT样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02xSTAT样本均值的抽样分布(数学期望与方差)1.样本均值的数学期望2.样本均值的方差)(xEnx22STAT应用•例5.1BTL商店的经理担心供货商给他的电视质量低于平均水平。他的研究表明电视机置换时间的均值为8.2年,标准差为1.1年。然后他随机抽取50台过去售出的电视机,发现这些电视机平均置换时间为7.8年。计算这50个随机抽取的电视机的平均置换时间为7.8年或更短的概率。STAT•问题的关键在于得到样本均值的分布•样本均值的均值•样本均值的标准差2.8501.1nSTAT7.88.2STAT5713.2155563.04.0501.12.88.7/nxz9949.0)(zF0051.0)9949.01)]5713.2z(1)8.7(PxPSTAT•例5.2《娱乐报道》杂志发起了一项旨在增加订阅的有奖活动。在过去,收到有奖活动参与材料的人中有26%最终参与了竞赛,订阅了杂志。当有奖活动的参与材料发放给500个随机挑选的住户时,估计新增订阅结果的数量在125~150(包括125和150)的概率。STAT•与总体分布有关–总体为正态分布,抽样分布也为正态,与样本容量无关•与样本量有关–总体不是正态分布,样本量越大(n=30),抽样分布越接近正态分布的分布形式xSTAT抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布STAT样本均值的抽样分布=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)STAT抽样分布的作用•总体分布与抽样分布的关系•假设不知道总体的分布,如何估计总体的参数?•通过抽样分布估计总体参数——参数估计STAT5.4参数估计•5.4.1参数估计的一般问题•5.4.2一个总体参数的区间估计•5.4.3两个总体参数的区间估计•5.4.4样本容量的确定STAT学习目标1.估计量与估计值的概念2.点估计与区间估计的区别3.评价估计量优良性的标准4.一个总体参数的区间估计方法5.两个总体参数的区间估计方法6.样本容量的确定方法STAT统计推断的过程样本总体样本统计量如:样本均值、比率、方差STAT5.1参数估计的一般问题一、估计量与估计值二、点估计与区间估计三、评价估计量的标准STAT1.估计量:用于估计总体参数的随机变量–如样本均值,样本比率、样本方差等–例如:样本均值就是总体均值的一个估计量2.参数用表示,估计量用表示3.估计值:估计参数时计算出来的统计量的具体值–如果样本均值x=80,则80就是的估计值估计量与估计值(estimator&estimatedvalue)ˆSTAT参数估计的方法估计方法点估计区间估计STAT点估计(pointestimate)1.用样本的估计量直接作为总体参数的估计值–例如:用样本均值直接作为总体均值的估计–例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息3.点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等STAT区间估计(intervalestimate)1.在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量–比如,某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限STAT区间估计的图示x95%的样本-1.96x+1.96x99%的样本-2.58x+2.58x90%的样本-1.65x+1.65xxxzx2STAT1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平2.表示为(1-为是总体参数未在区间内的比率3.常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平STAT1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值–我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参
本文标题:第五章抽样与参数估计
链接地址:https://www.777doc.com/doc-419809 .html