您好,欢迎访问三七文档
1统计学家视数据为资源,并且试图从数据中看出平常人所看不到的景致来。2第一讲内容复习统计学的定义、分类;认识数据的第一步:你得到的是什么类型的数据?利用图表展示数据中的信息;运用指标刻画数据的某些特征和程度;使用EXCEL来描述数据;3第一讲作业以及案例讨论4第二讲抽样分布和估计2001年9月22日5统计推断的基本概念总体:有限总体、无限总体;样本;统计推断的任务:通过样本的统计量来了解总体的参数。为什么需要抽样:1)总体无法得到;2)时间成本不允许;3)实验具有破坏性。6统计推断的基本思想1)选用一个概率模型来刻画总体,使用样本对模型做出推断;2)样本的获取的可能性依赖于你选用的模型;根据这种可能性来分析我们由部分来认识总体所可能犯的错误(风险)。7统计推断的内容之一估计参数点估计和区间估计点估计的例子居民家庭年收入),(2N22121)(111xxnsxnxniinii8统计推断内容之二假设检验:是否可以选用这个模型?例子:是否可以使用模型N(570,306)来刻画所有居民的家庭年收入?思想:如果该模型是好的,那么和570相差很多的可能性不能太大。x9简单随机抽样有限总体的简单随机抽样:等概率抽样;有放回抽样:独立性无放回抽样:非独立性抽样方法:利用随即数表利用Excel10随机数表的使用77191258605520473417839206948676298266788933433938955672938057099105280992589773413359624415987469626734277592576519550853122160258429953310673808424937203645165153037069402166137411无限总体的简单随机抽样:独立性;例子:掷硬币12样本和总体分布例子:薯片一个箱子中有10000包薯片,其中50%标价5元,30%标价10元,10%标价15元,10%标价30元。13点估计的方法估计量(统计量);估计值。基于一定的准则求最好的估计量。极大似然法则;矩估计;最小二乘估计等14抽样分布样本不同,值也不同。那么取不同值的可能性分别是什么?的概率分布称作它的抽样分布。抽样分布在统计推断中的中心地位。抽样分布取决于总体的分布(模型)以及抽样的方式。抽样方式总体分布=====抽样分布xxx15样本均值的抽样分布(无限总体)如果总体服从,那么简单随机样本的均值服从正态分布如果样本容量n非常大,而且总体的期望是,方差是2〈+,那么简单随机样本的均值近似服从正态分布(中心极限定理)),(2N)n,(2Nx)n,(2N16样本比率的抽样分布(无限总体)小样本情况x服从二项式分布B(n,p).大样本情况,按照中心极限定理,近似地nxp)np)-p(1,(~pNp17正态分布的图形正态分布的密度曲线-0.100.10.20.30.40.50.6-6-4-20246f(x)sigma=0.5f(x)sigma=218有限总体的修正系数设N是总体中个体的个数,n是样本容量,那么样本均值的方差是:样本比率的方差是:注:如果N相比n大很多,比如n/N5%,可以视为无限总体。nNnNx221nppNnNp)1(1219样本方差的抽样分布如果是来自正态总体的一个随机样本,定义样本方差为:nxxx,,21),(2N)1(~)1()(11222212nsnxxnsnii则20认识卡方分布卡方分布的密度函数-0.0500.050.10.150.20.250.30.350.40.450.5051015202530Chisq(1)Chisq(4)Chisq(10)21方差未知时样本均值的抽样分布正态总体,2未知,使用样本方差s2来替代2,则样本均值满足:n30时,可以用标准正态分布近似。)1(~)(ntsxn22正态分布和t分布的比较正态分布与t分布比较00.10.20.30.40.5-4-3-2-101234normalt(1)t(3)t(5)t(9)t(19)23估计的误差不能以个别估计值作为评价准则;估计的误差:偏差估计量的方差)()()()(222xExVarxExExExE24对估计量的评价无偏性:偏差是零;有效性:方差最小;一致性:样本容量增加会降低估计误差。样本均值(比率)是对总体均值(比率)的一个无偏的、有效的、一致的估计量。25将概率模型引入统计推断中来刻画总体,可以使得我们能够测量和控制由部分(样本)来推断总体时所犯的错误。26EstimatePopulationParameter...withSampleStatisticMeanProportionpVariances2PopulationParametersEstimated2Difference-12x-x12___px27的抽样分布:1)正态总体时,x),(2N).1(~1);,0(~;),(~2ntxNxNxnsnn未知,如果已知,如果282)非正态总体时,大样本情况(n30)1).,0(~1);,0(~);,(~n2NxNxNxnsn近似地未知,如果近似地已知,如果近似地,29S2的抽样分布:当总体是正态分布时,)1(~)1(222nsn30的抽样分布:p1),0(~)1().)1(,(~,5)1(5NnppppnpppNppnnp可以近似地有经常地,可以近似地认为)条件下且在大样本(满足31有限总体时样本均值和样本比率的标准误差,有限总体修正系数。.)1(1;1nppNnNnNnNpx32联合食品公司的案例针对“联合食品公司”的案例(P.44案例2-1),我们假设调查的100个客户组成一个简单随机样本。尝试回答下面的问题:1)所有客户一次购买金额的平均值是多少?2)所有使用信用卡的客户一次购买金额的平均值是多少?3)使用信用卡的客户占的比例是多少?33alldata平均29.4449标准误差2.04162中值27.63模式#N/A标准偏差20.4162样本方差416.8213峰值-1.05328偏斜度0.31424区域77.07最小值1.09最大值78.16求和2944.49计数10034Credit平均40.8768182标准误差3.17110824中值45.33模式#N/A标准偏差14.873816样本方差221.230404峰值-1.00003171偏斜度-0.11736036区域55.33最小值14.44最大值69.77求和899.29计数22351)所有客户一次购买金额的平均值是多少?(29.4449)2)所有使用信用卡的客户一次购买金额的平均值是多少?(40.8768)3)使用信用卡的客户占的比例是多少?(0.22)36我们的估计值离真值有多远?我们希望通过样本的信息给出一个范围,使这个范围按足够大的概率包含我们所感兴趣的参数。如何寻找K和L,使得以95%的概率成立:.;LppLpLppKxKxKx或者或者37抽样误差:无偏点估计值与总体参数之差的绝对值。38样本均值的抽样分布00.050.10.150.20.250.30.350.40.45-4-3-2-10123495%的概率z-z1-39大样本且已知的情况称为置信系数。的置信区间,为的置信水平为于是称11),(1P;1P1),0(~22222nnnnnnzxzxzxzxzxNx40理解置信区间的含义抽取100个样本,计算出100个平均值和100个区间,它们当中至少有(1-)*100个包含了未知的总体均值。因此,可以以(1-)的程度确信落在每一个区间里面。边际误差:nxzxzznz2222记作:通常可以将置信区间简标准误差;41ConfidenceIntervalsIntervalsExtendfrom(1-)%ofIntervalsContain.%DoNot.1-/2/2X_x_Intervals&LevelofConfidenceSamplingDistributionoftheMeantoXZXXZXX42联合食品公司的例子如果已知所有消费者一次购买金额的标准差是22,那么一次购买平均金额的一个95%的置信区间是:29.44491.96*(22/10)或者(25.1329,33.7569),其中边际误差=4.312.问题:对这个区间的含义你知道了什么?怎么可能知道标准差?43大样本且未知的情形.;)1,0(~22nsnsnszzxNx边际误差是置信区间是近似地:44联合食品公司的例子所有顾客一次购买金额的平均值的95%的置信区间:29.44491.96*(20.4162/10)或者(25.44333,33.44506)问题:对使用信用卡的顾客一次购买金额的平均值能否类似进行区间估计?45小样本且未知的情形?n?:)1(1)1(~2否一致很大时与大样本情况是对总体分布有无要求问题的置信区间是:的水平为nsnsntxntx46联合食品公司的例子所有持信用卡的顾客一次购买金额的平均值的95%的置信区间是:问题:1)你获得上述结论时对总体作了什么假定?是否合理?2)如何使用EXCEL解决该问题?47.4715),28214.34)(080.28768.40228738.14(或者:47小样本且已知的情形你自己可以解决这一问题吗?48大样本下总体比率p的区间估计nppzppNppnpp)1(11),0(~2)1(的置信区间是的水平为所以近似地,49联合食品公司的例子使用信用卡支付的顾客的比率的95%的置信区间是多少?问题:是否符合大样本的条件?进一步的问题:如果嫌精度不够怎麽办?)30.0,14.0(081.022.0100/78.022.096.122.0或者50DataVariationSampleSizenLevelofConfidence(1-)IntervalsExtend?1984-1994T/MakerCo.影响区间长度的因素nZX25190%Samples95%Samplesx_ConfidenceIntervalsxx645.1645.1xx96.196.1xx58.258.299%SamplesX_52样本容量的确定(1)给定边际误差E和置信系数1-,问题是:确定样本容量n使得总体均值(比率)的1-水平的置信区间长度不超过2E?(该问题有什么实际意义?)2222/)(2EznzEn53样本容量的确定(2)怎么获得?1)用以前相同或类似的样本的样本标准差代替;2)用试验调查的方法选择初始样本,用该样本的样本标准差代替;3)对进行判断或者猜测:比如全距的1/4作为估计。为什么用正态分布的/2分位数而不用t分布?54样本容量的确定(3)对于总体比率来说:如何确定p?1)类似对的确定方法;2)使用p=0.5,此时p(1-p)最大,从而高估样本容量。22)1()(2Eppzn55联合食品公司的例子为使得所有顾客一次购买金额的平均值的95%的置信区间长度不超出6美圆,需至少采用多大的样本?E=?=?(全距=77.07)n=(1.96*77.07/4)^2/9=158.4615956联合食品公司的例子为了使得对持信用卡购买的顾客比率p的95%的置信区间长度不超过0.2,样本至少多大?
本文标题:抽样分布和估计
链接地址:https://www.777doc.com/doc-418190 .html