您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第十章 bootstrap方法
数理统计与随机过程第十章bootstrap方法一、估计量的标准误差bootstrap估计二、估计量的均方误差及偏差的bootstrap估计三、bootstrap置信区间四、用bootstrap—t法求均值的bootstrap的置信区间五、小结第一节非参数bootstrap方法未知,设总体的分布Fn但已经有一个容量为的数据样本,的来自F的方自这一样本按放回抽样的样本,法抽取一个容量为n这种样本称为相继地、出很多独立地自原始样本中取样本,个bootstrap进行统计利用这些样本对总体F又称自方法这种方法称为非参数,bootstrap.bootstrap样本或自助样本,推断.助法一、估计量的标准误差bootstrap估计:时在估计总体未知参数;ˆˆ的精度计的同时还要指出这一估的估计给出.)ˆ(ˆˆ来度量估计的精度的标准差用估计量D.ˆˆˆ的标准误差也称为估计量的标准差估计量为分布函数的总体是来自以设)(,,,21xFXXXn的估计量,作为用),,,(ˆˆ21nXXX式给出,无法用一个简单的表达标准差)ˆ(D.)ˆ(的估计方法来求得但可以用计算机模拟的D数,是我们感兴趣的未知参的抽样分布很难处理,应用中ˆ的样本,的样本,产生很多容量为自nF的对每个样本计算ˆ,ˆ,,ˆ2B可以用则)ˆ(DˆBiiB12)ˆ(11,其中BiiB1ˆ1常常是未知的,然而F未知,设F的样本值,是来自Fxxxn,,,21.是相应的经验分布函数nF很大时,当n.FFn接近,FFn代替以中抽样,在nF的得到一个容量为n,ˆ1得值,.,,,**2*1nxxx样本.bootstrap样本这就是的估计那样求出计算估计),,,(ˆ21nxxx),,,,(ˆˆ**2*1nxxx.bootstrapˆ*估计的称为估计样本,个相继地、独立地抽得bootstrapB估计如下:的以这些样本分别求出bootstrap,,,,1bootstrap111**2*1nxxx样本*1ˆbootstrap估计,,,,2bootstrap222**2*1nxxx样本*2ˆbootstrap估计,,,,Bbootstrap**2*1BBBnxxx样本*Bˆbootstrap估计,)ˆ(ˆD的标准误差则ˆBiiB12**)ˆ(11.ˆ11**BiiB其中.bootstrap)ˆ(的估计就是D的估计的步骤是即求bootstrap)ˆ(D按放回自原始数据样本),,,(1210nxxxx抽样的方法,),,,(**2*1*nxxxxn的样本抽得容量为)bootstrap(样本称为相继地、02容量为个独立地求出)1000(BB样本,的bootstrapn),,,,(**2*1*iiiinxxxx.,,2,1Bi样本,计算个对于第bootstrapi),,,,(ˆˆ**2*1*iiiinxxx,,,2,1Bi)的估计个的第称为.bootstrapˆ(*ii计算03ˆˆBiiB12**)ˆ(11.ˆ11**BiiB其中例1某种基金的年回报率是具有分布函数F的连续型随机变量,F未知,.是未知参数的中位数F)(%率现有以下的数据2.101.210.125.92.18的估计,中位数以样本中位数作为总体试求中位.bootstrap估计数估计的标准误差的解将原始样本自小到大排序,中间一个数为12.0,相继地、独立地在上述5个数据中,按放回抽样的方法取样,样本:个得到下述取bootstrap1010B2.182.100.122.185.91样本2.100.122.102.101.213样本2.105.90.122.182.212样本2.102.185.90.122.184样本2.180.122.180.121.215样本2.101.215.92.102.106样本1.211.212.102.182.108样本0.122.100.121.215.97样本2.182.182.182.102.109样本2.102.102.182.102.1810样本样本,对以上每个bootstrap求得样本中位数分别为*1ˆ0.12*2ˆ0.12*3ˆ2.10*4ˆ0.12*5ˆ2.18*6ˆ2.10*7ˆ0.12*8ˆ2.18*9ˆ2.18*10ˆ2.10作为总体中中位数以原始样本确定的样本0.12ˆ的估计,位数估计为其标准误差的bootstrapˆˆ1012**)ˆ(91ii.4579.3二、估计量的均方误差及偏差的bootstrap估计的样本,是来自总体设FXXXXn),,,(21未知,F是感兴趣的随机变量,)(XRR它依赖于.X样本进行,,,骤按照上面所说的三个步000321只是),,,,(bootstrap2**2*1*0iiinixxxxi样本个中对第在,ˆ)(***iiixRR代替计算计算中计算感兴趣且在03.的特征的R)(**REBiiRB1*1例2的是具有分布函数设金属元素铂的升华热F连续型随机变量,是未知参数,的中位数F现测得)(计以以下的数据molkcal136.3136.6135.8135.4134.7135.0134.1143.3147.8148.8134.8135.2134.9149.5141.2135.4134.8135.8135.0133.7134.4134.9134.8134.5134.3135.2的估计,作为总体中位数以样本中位数)(XMM.bootstrap])[(2估计的试求均方误差MEMSE解序,将原始样本自小到大排,个数为左起第0.13513,个数为左起第2.13514于是样本中位数为.1.135)2.1350.135(21,135.1的估计作为总体中位数以.1.135ˆ即.)ˆ()(2MXRR取.])ˆ[()(2MEXR的均值需要估计个样本如下:相继地、独立地抽取10000133.2134.1134.1134.1134.8134.8134.8134.9134.9134.9135.0135.2135.2135.4135.4135.8135.8136.3136.3136.6136.6141.2143.3143.3147.8148.8135.3得样本中位数为10000样本134.3134.5134.5134.5134.7134.8134.8134.8134.8134.8134.9134.9134.9134.9135.0135.4135.4135.4135.4135.4135.8136.6146.5146.5147.8148.8134.9得样本中位数为1样本个样本计算对于第i*iR)(*ixR2*)ˆ(iM,)1.135(2*iM.10000,,2,1i1对于样本2*1)1.135(M2)1.1353.135(,04.010000对于样本2*10000)1.135(M2)1.1359.134(,04.01000012*)1.135(100001iiM07.0,])[(2ME近似.07.0bootstrap])[(2估计为的既得MMSE个数的平均值用这10000例3的样本,是来自总体设FXXXXn),,,(21.),,,(ˆˆ21的估计量是参数nXXX的偏差定义为关于的估计ˆb)ˆ(E.)ˆ(E.0ˆb的无偏估计时是当中,试在例2作为总以样本中位数)(XMM的估计,的中位数体F.bootstrap)(估计的求偏差MEb.1.1352知原始样本的中位数为由例的估计,作为总体中位数以R1.135,即1.135ˆ,ˆ)(MXRR取).ˆ()(MEXR的均值需要估计个样本计算中第对于例i2*iR)(*ixR)ˆ(*iM),1.135(*iM.10000,,2,1i1即有对于样本)1.135(*1M02.010000对于样本1.135*10000M02.0估计为的个数取平均值得到偏差将上述bootstrap10000b1.13514.135.04.0)1.135(100001100001*iiM*b100001*1.135100001iiM三、bootstrap置信区间的容量为是来自总体设nFXXXXn),,(21样本,.),,(2,1是一个已知的样本值nxxxx中F,含有未知参数.),,,(ˆˆ21的估计量是=nXXX.1的置信区间的置信水平为现在来求中抽相继地、独立地从样本),,,(21nxxxx样本,的个容量为出bootstrapnB估计:的样本求出对于每个bootstrapbootstrap.ˆ,,ˆ,ˆ**2*1B将它们自小到大排序,得*1ˆ*2ˆ*ˆB,ˆ)(XR取的分布作为用对应的**ˆ)(XR的分布的近似,)(XR使和的分布的近似下分位点求出*21*2*ˆ)(XR}ˆˆˆ{*21**2P1于是近似地有}ˆˆˆ{*21**2P1,21Bk记,212Bk的估计,分别作为分位数和式中以*21*2**ˆ,ˆˆˆ21kk得到近似等式}ˆˆ{*)(*)(21kkP1的近似置信区间:的置信水平为由上式就得到1)ˆ,ˆ(*)(*)(21kk置信的的置信水平为这一区间称为bootstrap1.区间.称为分位数法这种求置信区间的方法例4的中位数以样本中位数作为总体中在例)1(2的置信区间;的的置信水平为估计求bootstrap95.012020)2(%截尾均值%截尾均值作为总体以样本的估计,置信区的的置信水平为求bootstrap95.01.间解,26n,10000B个模拟原始样本以及10000.2bootstrap样本见例,bootstrap)1(*1M样本算出中位数对于每一个.,,*10000*2MM到将他们自小到大排序得*)251(*)250(*)2(*)1(MMMM.*)10000(*)9751(*)9750(MMM由1k2k205.010000=,250205.0110000-,9750=B,100001,95.0,05.0置信区间为bootstrap),(*)9750(*)250(MM).8.135,8.134(样本中的每一个个中的对于例bootstrap100002)2(%截尾均值:算出样本20,,,,*10000*2*1tttxxx到将它们自小到大排序得*)9750(*)251(*)250(*)2(*)1(tttttxxxxx.*)10000(*)9751(ttxx水平为%截尾均值的一个置信按分位数法得到20置信区间为的bootstrap95.0),(*)9750(*)250(ttxx=)92.136,85.134(例5存活只数为窝仔猪出生时各窝猪的有30981012111279118977897991099912101091311139的估计,作为总体均值以样本均值x以样本标准的估计,作为总体标准差差s以按分位数求法求.bootstrap90.0置信区间的的置信水平为及解相继地、用放回抽样的独立地自原始样本数据方法,样本:的个容量为得到bootstrap3010000样本18810127111181012791089111013999108138997108样本100009107109797107991311
本文标题:第十章 bootstrap方法
链接地址:https://www.777doc.com/doc-3241837 .html