您好,欢迎访问三七文档
第一讲参数估计1.1、参数估计的基本概念1.2、区间估计公式1.3、必要样本容量的确定1.1参数估计的基本概念一般情况下,对总体的每个个体都进行观察或试验是不可能的,这是因为经济上时间上不允许(如个体的数量很大),或观察试验是带破坏性的(如灯泡的寿命、炮弹的射程).因此,必须对总体进行抽样观察.总体样本算术平均数x统计量用来推断总体参数的统计量称为估计量(estimator),其取值称为估计值(estimate)。同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。?参数点估计点估计:用估计量的数值作为总体参数的估计值。常用的点估计法有矩估计法和极大似然估计法。一个总体参数的估计量可以有多个。例如,在估计总体方差时,和都可以作为估计量。nxxnii12)(1)(12nxxnii点估计量的常用评价准则:无偏性无偏性:估计量的数学期望与总体待估参数的真值相等:ˆ()EP()BA无偏有偏ˆˆ点估计量的常用评价准则:有效性在两个无偏估计量中方差较小的估计量较为有效。AB的抽样分布的抽样分布1ˆ2ˆP()ˆˆ估计量的常用评价准则:一致性指随着样本容量的增大,估计量越来越接近被估计的总体参数。AB较小的样本容量较大的样本容量P(X)X参数点估计是用一个确定的值去估计未知参数,得到的是未知参数的近似值.但在很多实际问题中,我们不但需要求出未知参数的近似值,还需知道近似值的可靠程度和精确程度;数学上的处理方法是:确定一个范围(区间),使我们能以比较高的可靠程度相信它包含参数真值.这就是参数的区间估计.区间估计根据事先确定的置信度1-给出总体参数的一个估计范围。置信度1-的含义是:在同样的方法得到的所有置信区间中,有100(1-)%的区间包含总体参数。抽样分布是区间估计的理论基础。估计值(点估计)置信下限置信上限置信区间抽样分布:几个要点抽样分布是统计量的分布而不是总体或样本的分布。在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。样本均值的抽样分布_正态总体=50=10X总体分布n=4抽样分布X5x50xn=165.2x一般的,当总体服从N(μ,σ2)时,来自该总体的容量为n的样本的均值X也服从正态分布,X的期望为μ,方差为σ2/n。即X~N(μ,σ2/n)。样本均值的抽样分布与总体分布的比较=2.5σ2=1.25总体分布14230.1.2.3抽样分布5.2x625.02x样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5样本均值的抽样分布_其他总体任意总体,随n增大,样本均值的分布趋于正态分布的过程。f(X)X小样本中心极限定理从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。大样本(n30)xnx标准误(StandardError)简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于,这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。n有限总体校正系数FinitePopulationCorrectionFactor简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于这一系数称为有限总体校正系数。当抽样比(n/N)0.05时可以忽略有限总体校正系数。12NnNn1NnN1.2、区间估计公式(一)一个总体均值的区间估计相关理论总体正态?n≥30?σ2已知?否是是否否是实际中总体方差总是未知的,因而这是应用最多的公式。在大样本时t值可以用z值来近似。根据中心极限定理得到的近似结果。σ未知时用s来估计。nZx2nstx2nZx2增大n?数学变换?待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知n<30非正态总体,n≥30σ未知时,用S有限总体,n≥30(不重复)总体均值(μ)nZX2nsZX2nstXn)1(212NnNnZXσ未知时,用S关于置信区间的补充说明置信区间的推导:有限总体不重复抽样时,样本均值或比例的方差需要乘以“有限总体校正系数”(当抽样比f=n/N小于0.05时可以忽略不计),前面的公式需要进行相应的修改。12/ZnxPnZxnZx221NnNnx1)ˆ1(ˆˆNnNnppp关于置信度含义的说明在所有的置信区间中,有(1-)*100%的区间包含总体真实值。对于计算得到的一个具体区间,这个区间要么包含总体真实值,要么不包含总体真值。说“总体均值有95%的概率落入某一区间”是不严格的,因为总体均值是非随机的。样本均值的抽样分布=1-/2/2X_σx_x实例演示:SPSS数据文件“男女性别身高.sav”可做如下基本统计分析:(1)频数分析(包括频数分布表以及统计图)选择分析——描述统计——频率命令(2)描述统计分析(给出刻画集中趋势、离散程度和分布形态的描述统计量)选择分析——描述统计——描述命令实例演示:SPSS数据文件“男女性别身高.sav”(3)探索性分析(给出基本描述统计量、置信区间、茎叶图、箱图、直方图等结果)选择分析——描述统计——探索命令练习:SPSS文件“产品销售数量”做频数分析(输出频数分布表以及直方图)SPSS文件“某公司男女员工年龄”做描述性分析(输出描述性统计量)SPSS文件“两城市平均气温”做探索性分析(输出置信区间以及基本统计量和统计图)(4)选择分析——比较平均值——单样本T检验(也可以做区间估计)案例1、学生对教学改革态度的分析(onesample)某校在对实行挂牌上课教学改革措施的效果评价中,随机抽选了60位学生进行态度调查,他们的10项态度量表的态度反映资料如下:挂牌上课态度反映得分(X)人数(f)10—2020—3030—4040—5050—6060—702610122010合计60(1分表示“很不同意”,7分表示“很同意”,将10项态度分累加后得一总态度分,这种量叫7级李克累加量表):试计算:(1)学生态度得分的平均值和标准差;(2)构造学生态度得分平均值的98%置信区间。T-TestOne-SampleStatistics6047.000013.629481.75956反映得分组中值NMeanStd.DeviationStd.ErrorMeanOne-SampleTest26.71159.00047.0000042.792551.2075反映得分组中值tdfSig.(2-tailed)MeanDifferenceLowerUpper98%ConfidenceIntervaloftheDifferenceTestValue=0结论:表1:学生态度得分的平均值为47分,标准差为13.6295分.表2:以98%的置信区间估计学生总体态度得分平均值的置信区间为(42.7925,51.2075)从中可以反映出学生对挂牌上课这一教改措施普遍赞成,但并不十分拥护,可见还需进一步改进和完善.待估计参数已知条件置信区间△ˆ222121221)(nnZXX)(21XX21)2(21121nnStpnn222121221)(nnZXX两个正态总体2221,已知两个正态总体2221,未知但相等两个非正态总体n1,n2≥30两个总体均值之差μ1-μ2(二)两个总体均值之差的区间估计案例___新旧电池使用寿命比较(Independent)某一个新的制造过程可以增加电池的使用寿命,假设电池使用寿命服从正态分布.在新电池中随机抽取15个,而在旧电中随机抽取12个同时测试其使用寿命,资料如下:新旧两种电池平均使用寿命之差95%的置信区间.新电池(日):18.2\10.4\12.6\18.0\11.7\15.0\24.0\17.6\23.6\24.8\19.3\20.5\19.8\17.1\16.3旧电池(日):12.1\17.5\8.6\13.9\7.8\15.1\17.9\10.6\13.8\14.2\15.3\11.6解:已知的原始数据是总体服从正态分布的两个独立样本。设X代表电池使用寿命,g代表分组号操作步骤:(1)定义变量X和g,输入数据资料,新旧电池寿命数据全部输入X同一列中,g分别取1和2,新电池组号为1,旧电池组号为2(2)选择AnalyzeCompareMeansIndependent-SamplesTTest,打开Independent-SamplesTTest对话框,(3)将变量X放入Test栏中(4)激活DefineGroups按钮,打开该对话框Groups1中输入1Groups2中输入2,单击Continue返回主对话框;(5)单击OK按钮执行群組統計資料类型N平均數標準偏差標準錯誤平均值寿命新电池1517.92674.344201.12167旧电池1113.30003.31632.99991獨立樣本檢定Levene的變異數相等測試針對平均值是否相等的t測試F顯著性Tdf顯著性(雙尾)平均差異標準誤差98%差異數的信賴區間下限上限寿命採用相等變異數.485.4932.95224.0074.626671.56742.720418.53292不採用相等變異數3.07923.933.0054.626671.50265.881088.37226结论:表1:得出两个独立样本各自的均值,标准差以及平均标准误差.新电池的平均使用寿命明显长于旧电池。表2:可以看出新旧电池平均使用寿命之差的95%的置信区间为:若两个样本方差相等则为(2.4454,8.6746);若两个样本方差不等则为(2.5437,8.5763)案例___吸烟有害广告作用的分析(Paired)形形色色的广告已深入到社会各个方面,与人民生活密不可分.成功的广告将留给人们较深的印象,并带给企业丰厚的回报,如何鉴定广告的效果,如何选择最佳的广告制作,对此西方国家更多地采用统计方法来判断,举例如下:为了研究吸烟有害广告对吸烟者减少吸烟量甚至戒烟是否有作用,从某吸烟者中随机抽取33位吸烟者,调查他们在观看广告前后的每天吸烟量(支)数据如下表.试问影片对他们的吸烟量有无产生作用?为了支持你的答案,请构造一个99%的置信区间.吸烟者编号1234567891011看前X1(支)看后X2(支)20181515141011101213161219152620221716799吸烟者编号1213141516171819202122看前X1(支)看后X2(支)1710333425208441401910263016163120271862吸烟者编号2324252627282930313233看前X1(支)看后X2(支)13112422222548504134669133827251129102821解:配对样本的试验,比较观看前后平均数的大小可解决第一个问题,求出两平均数之差的99%的双侧置信区间可解答第二个问题.操作步骤:(1)定义变量X1和X2,输入数据;(2)选择AnalyzeComparemeansPaired-samplesTTest(3)将变量X1和X2放入Test栏中(4)激活Options…子对话框,置信度改为99%,单击Continue按钮,返回Paired-samplesTTest主对话框;(5)单击OK按钮执行T-TestPairedSample
本文标题:1参数估计.
链接地址:https://www.777doc.com/doc-3025998 .html