您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 统计学第五章-参数估计
描述统计与推断统计的关系推断统计利用样本信息和概率论对总体的数量特征进行估计和检验等概率论包括分布理论、大数定律和中心极限定理等描述统计统计数据的搜集、整理、显示和分析等总体数据样本数据反映客观现象的数据客观现象的内在的规律性“What!Youhavesolveditalready?”“Well,thatwouldbetoomuchtosay.Ihavediscoveredasuggestivefact,thatisall”Dr.WatsonandSherlockHolmesTheSignofFour•例:某大公司要整理2500个职工的档案。其中一项内容是考察这些职工的平均年薪及参加过公司培训计划的比例。•总体:2500名职工(population),•如果上述情况可由每个人的个人档案中得知,可容易地测出这2500名职工的平均年薪及标准差。已经得到了如下的结果:总体均值:=51800(元)总体标准差:=4000(元)参数估计的一般问题(例子)同时,有1500人参加了公司培训,则参加公司培训计划的比例为:=1500/2500=0.60总体参数在上例中,假如随机抽取了一个容量为30的样本:平均年薪是否参加培训49094.3是53263.9是49643.5否……00.5181430/1554420/nxxi72.334729/325009260)1/()(2nxxsi63.030/19p根据该样本求得样本年薪平均数、标准差及参加过培训计划人数的比例分别为:则解决最初的问题,我们就涉及到总体参数的估计问题。(元)(元)第5章参数估计§1.1参数估计的基本问题和概念§1.2简单随机抽样抽样误差的测定§1.3简单随机抽样的抽样估计参数估计按照随机原则从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法§1.1参数估计的基本问题和概念统计推断全及总体指标:参数(未知量)样本总体指标:统计量(已知量)参数估计按随机原则抽取样本单位目的是推断总体的数量特征抽样误差是不可避免的,但可以事先计算并加以控制抽样估计的特点确定抽样方法重复抽样又被称作重置抽样、有放回抽样抽出个体登记特征放回总体继续抽取特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行不重复抽样又被称作不重置抽样、不放回抽样抽出个体登记特征继续抽取特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。确定抽样方法确定抽样组织方式1·简单随机抽样(纯随机抽样)——对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本应用仅适用于规模不大、内部各单位标志值差异较小的总体是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式2·类型抽样(分层抽样)——将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。总体N样本n等额抽取等比例抽取2NkN1N1n2nkn······能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标确定抽样组织方式3·等距抽样(机械抽样或系统抽样)——将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。······随机起点半距起点对称起点(总体单位按某一标志排序)确定抽样组织方式4·整群抽样(集团抽样)——将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本例:总体群数R=16样本群数r=4hlpdnnnnnABCDEFGHIJKLMNOPLHPD样本容量简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差确定抽样组织方式5·多阶段抽样——指分两个或两个以上的阶段来完成抽取样本单位的过程例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)确定抽样组织方式调查对象的性质特点对调查对象的了解程度抽样误差的大小人力、财力和物力等条件的限制在实际工作中,选择适当的抽样组织方式主要应考虑:确定抽样组织方式确定样本容量n≥30,为大样本;n30,为小样本样本容量指样本中含有的总体单位的数目,通常用n来表示。确定适当样本容量的意义:若n过大,调查工作量增大,体现不出抽样调查的优越性;若n过小,抽样误差会增大,抽样推断就会失去价值。样本的可能数目在考虑顺序的抽样条件下,从总体N中随机抽取n个样本单位共有多少种可能的抽选结果⒈不重复抽样的可能样本数目:⒉重复抽样的可能样本数目:nnNNNNNB11nNNNAnN确定样本容量一、抽样分布二、抽样误差的概念三、抽样平均误差§1.2简单随机抽样抽样误差的测定样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量抽样分布是指样本统计量所有可能值的概率分布样本平均数总体平均数μnxxi1样本平均数是一个随机变量,它的概率分布称为样本平均数的抽样分布。样本平均数的抽样分布是推断总体平均数的理论基础样本平均数nxxij…样本平均数总体未知参数:平均数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本平均数主要样本统计量平均数标准差比率(成数)xsp样本均值的抽样分布(例题分析)【例】设5个职工的月奖金是研究的总体,分别为120,160,200,280,340,单位:元。如果我们随机抽取其中2个职工作为样本进行研究,试比较样本和总体的差异,并找出样本均值的特征。总体的平均数和方差2201NxNii212280)(NxNiiHistogram051015202560100140180220260300340五个职工的月奖金Percent样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有52=25个样本。所有样本的结果为样本均值的抽样分布(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布Histogram02468101214161880100120140160180200220240260280300320340平均数Percent样本均值的分布与总体分布的比较(例题分析)Histogram051015202560100140180220260300340五个职工的月奖金Percent=220σ=80总体分布抽样分布220x57.56xHistogram02468101214161880100120140160180200220240260280300320340平均数Percent样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本平均数的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体xx平均数的抽样分布全部可能样本平均数的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的n1)()(xxE),(~2nNx比率的抽样分布5)1(,5)1,(~pnnpnPPPNp全部可能样本比率的均值等于总体比率,即:从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布。从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。样本比率的标准差为总体标准差的)()(PpPpEn1510样本抽样分布原总体分布xX一、抽样分布二、抽样误差的概念三、抽样平均误差§1.2简单随机抽样抽样误差的测定★★说明对于任何一个样本,其抽样误差都不可能测量出来抽样误差的大小可以依据概率分布理论加以说明:指样本估计量与总体参数之间数量上的差异,仅指由于按照随机原则抽取样本而产生的代表性误差,不包括登记性误差和系统偏差抽样误差某个样本容量的抽样分布更大样本容量的抽样分布一、抽样分布二、抽样误差的概念三、抽样平均误差§1.2简单随机抽样的抽样误差的测定★★★抽样平均误差指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差MiixxMu121式中:为样本平均数的抽样平均误差;为可能的样本数目;为第个可能样本的平均数;为总体平均数xuiixM1)(2nxxs注意:不要混淆抽样标准差与样本标准差!xun抽样平均误差的计算公式nnux2NnnNnNnux1122⒈样本平均数的抽样平均误差当N≥500时,有NnNnNNnN11重复抽样时:不重复抽样时:⒉样本成数的抽样平均误差nup1NnnNnNnup1111重复抽样时:不重复抽样时:当N≥500时,有NnNnNNnN11抽样平均误差的计算公式关于总体方差的估计方法用过去同类问题全面调查或抽样调查的经验数据代替;用样本标准差代替总体标准差,用代替。spsP1122ffxxnxx或ppnn11抽样平均误差的计算公式影响抽样误差的因素总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;样本单位数的多少:越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。n第5章抽样推断★§1.1抽样方案的设计§1.2简单随机抽样的抽样误差的测定§1.3简单随机抽样的抽样估计★★一、点估计二、区间估计三、样本数目的确定§1.3简单随机抽样的抽样估计★psx,,点估计指直接以样本指标来估计总体指标,也叫定值估计简单,具体明确优点缺点无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况无偏性(unbiasedness)•无偏性:估计量抽样分布的数学期望等于被估计的总体参数P()BA无偏有偏ˆˆ有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效AB的抽样分布的抽样分布1ˆ2ˆP()ˆˆ一致性(consistency)•一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本量较大的样本量P()ˆˆ一、点估计二、区间估计三、样本数目的确定§1.3简单随机抽样的抽样估计★★二、区间估计㈠区间估计的定义和原理㈡总体平均数的区间估计㈢总体成数的区间估计区间估计(intervalestimate)1.在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量样本统计量(点估计)置信下限置信上限区间估计原理0.6827被包住的概率为68.27%xux样本抽样分布曲线原总体分布曲线区间估计原理0.9545被包住的概率为95.45%xux2样本抽样分布曲线原总体分布曲线区间估计原理0.997
本文标题:统计学第五章-参数估计
链接地址:https://www.777doc.com/doc-5124536 .html