您好,欢迎访问三七文档
第二章单一样本的推断问题2.1符号检验及分位数的推断问题(连续分布)2.1符号检验及分位数的推断问题(连续分布)例1:假设某城市16座预出售的楼盘均价(单位:百元/)如下表所示:16座预出售的楼盘均价问:该地区平均楼盘价格是否与媒体公布的3700元/的说法相等?2m363231252836403241263535328733352m解:若假设楼盘均价服从正态分布,则由参数统计分析,建立假设检验问题如下:由于为小样本,,构造枢轴量在零假设成立下,代入数值得,而又知P值为,在显著性水平以下,都不能拒绝零假设.01:37,:37HH236.5,200.53XS()~(1)nXTtnS0H00.1412t0()0.89PTt0.891630n以上16个数据中,其中有3个楼盘的均价高于37,13个楼盘的均价低于37,由正态分布的对称性,若37为楼盘均价格的平均水平,则从总体中抽取的数据分布在37左右的个数应该大致相等,不应该出现比例失衡,因此37不能作为正态分布的对称中心。然而若知道某一连续数据总体中心位置的参数(中位数和均值),总体均值的点估计是样本均值,总体中位数的点估计是样本中位数,对于单峰对称分布来说,两者差别不大,而对于非对称分布来说,中位数较均值对总体的中心位置来说,将是更稳健的估计。由于分布未知,使用参数估计会出现错误,则以上检验用中位数检验较为合理,由此引入非参数统计。1.符号检验的基本概念4定义:通过符号“+”和“-”的个数来进行统计推断的方法,我们称为符号检验。符号检验是最古老的检验方法之一.符号检验的基本原理基本原理:对于例1中的数据,要么大于37,要么小于37,记,,由于每一个样本等可能的出现在37的左右,从而有而过大或者过小都表示37不能作为总体的中心,故在过大或者过小时我们拒绝零假设.0#iSXM0#iSXM~(,0.5)SbnSS中位数检验的过程4假设总体为,为总体的中位数,则可以建立以下假设检验问题:其中为待检验的中位数,为来自于的简单随机样本.()FMMe左侧检验右侧检验双边检验0010:,:HMeMHMeM0M12,,,nXXX()FM0010:,:HMeMHMeM0010:,:HMeMHMeM记:,(其中#表示满足括号中表达式的个数)而,令则在零假设下,以双侧检验为例,检验问题就变为其中此时,,可以按抽样分布求解得到.在给定显著性水平下,检验的拒绝域为0#iSXM0#iSXMSSnnmin,KSS0H01:0.5,:0.5HpHp00~(1,),()iiXMYIbpppXMKk(,0.5)bn2(|,0.5)pKknp0010:,:HMeMHMeMp值当时,则在显著性水平下拒绝零假设当时,则在显著性水平下接受零假设中位数检验的结果当时,;当时,;2(|,0.5)pKknppp零假设备择假设检验统计量p值其中是满足上式中的的取值0MeM0MeM0MeM0MeM0MeM0MeMKSKSmin,KSSkK~(,0.5)Kbn()pKk()pKk2()pKk2nS2nSKSKS例:(续前面的例1)由于分布未知,考虑非参数统计解:,P值在给定显著性水平下,,拒绝零假设,故认为该地平均楼盘价格与与媒体公布的37之间存在显著性差异36323125283640324126353532873335------+-+----+--min,KSS3k16nSS2(3|16,0.5)pKnp31601612()0.02132ii0.05p01:37,:37HMeHMe在t检验中,不能拒绝零假设,但是也并不意味着接受零假设,而是得到了不犯第二类错误的概率,而符号检验仅在假定数据为常规连续分布下,得到了拒绝的结论,这一决策的风险至少是0.05以下,说明已收集的数据对于下可靠性的结论是充分的.综上可得,t检验在正态假设下得到了不可靠的结论,(可能由于信息不足,也有其他原因,如假定不当),由于符号检验说明了信息的充分性,于是分布假定不当才是使用t检验失败的原因.所以,符号检验的结果较t检验的结果更可信.2.分位数检验(广义符号检验)同样记:,(其中#表示满足括号中表达式的个数)在零假设下,由于,(当所有样本点都不等于时,,而如果有些样本点等于,那么这些样本点就不能参与推断,此时,)0#iSXq0#iSXq0010::HQqHQq0H0Qq~(,),()SbnpppXMnSSn0qnn0qnn分位数检验的结果零假设备择假设p值检验有意义的条件其中是满足上式最大得,且0Qq0Qq0Qq0()HPKskK~(,0.5)Kbn0Qq0Qq0Qq01(1)HPKs002min(),1(1)HHPKsPKs^0Qq^0Qq如果检验不满足条件,不用计算也知道检验结果不显著0001(1)()()HHHPKsPKsPKs002min(),()HHPKsPKs例2.(书中的例2.1)分位数检验P值在给定显著性水平下,,拒绝零假设,即下四分位点应该小于6400.2510.25:64:64HQHQ1~(,),28,43,714SbnSSnSS001(1)1(27)0.00515HHPKsPK0.01p0.25Q中位数检验P值在给定显著性水平下,,拒绝零假设,即中位数应该大于6401:64:64HMeHMe~(,0.5),28,43,71SbnSSnSS28710711()(28)()0.047962iPKkPKi0.05pMe3.大样本近似当样本较大时(),可以使用二项分布的正态近似进行检验,而当样本容量不够大时,可以使用正态性修正来近似.a.中位数的近似检验当较大时,由30Nn1~(,),~(,)224nnSbnSN2(0,1)4LnSZNn当不够大时,可以使用Z的正态连续性修正,如下式一般地,当时,;当时,;n2(0,1)4LnScZNn2nS12c12c2nS由绪论知识可知,一个离散分布的点的概率可以用连续(如正态分布)分布的相应区间来近似,则离散分布的概率可以用连续分布来近似.因此,较大点处的分布函数作正态分布正修正结果与二项分布的精确分布比较接近,而对于较小点处的分布函数作正态分布负修正结果与二项分布的精确分布比较接近.()PXx11()22PxXx1()2PXx()PXx1()2c1()2cb.分位数的近似检验当较大时,在零假设下,当不够大时,可以使用的连续性修正一般地,当,;当,;n00:HQq~(,)Kbnp(0,1)(1)LKnZNnnZ(0,1)(1)LKncZNn2nK12c2nK12c近似检验的结果零假设备择假设p值0H1H0MeM0MeM0MeM0MeM0MeM0MeM(0,1)()NPZz(0,1)()NPZz(0,1)2()NPZz例3:设某化妆品厂商有A和B两个品牌,为了解客户对A,B两品牌化妆品在使用上的差异,将A,B品牌化妆品同时交给45位客户使用,一个月以后得到如下数据:喜欢A品牌的客户人数为:22人喜欢B品牌的客户人数为:18人不能区分的人数:5人分析在显著性水平下,是否认为两种品牌在市场上的被喜欢程度有差异?0.1解:设表示喜欢A,B品牌的客户比例建立假设检验:记表示喜欢A品牌的客户人数,为喜欢B品牌的客户人数由于,所以取正态分布正修正(),()PAPB01:()():()()HPAPBHPAPBSS221840,202nnSS20S1222020.7906404Z在给定显著性水平下,由于,证据不足,不能拒绝零假设,没有证据显示客户在品牌A和B上存在显著差异而实际中,A品牌和B品牌固然存在差异,可能由于随机抽样产生,并非本质差异.随机性是客观存在而无法避免的,检验中表现出来统计量显著的差异则是本质差异.0.1121.96Z1.96Z4.置信区间有时不仅要估计参数的位置,也想知道它的的置信区间用顺序统计量构造分位数的置信区间令独立取自同一分布,为样本的顺序统计量,若对于,若满足则称为的置信区间100(1)%1,,nXX(1)(2)(),,,nXXX()ipPXmpij1()()()(1)1jhnhipjhinPXmXpph()()(,)ijXXpm100(1)%当时,为的置信度为的置信区间2)中位数的对称置信区间不失一般性,假定,如果时可以拒绝零假设,而在时不能拒绝零假设,或者说是最大地能够拒绝的数目,等价地,为最小的能够拒绝的数目,则或为的的置信区间0.5p()()(,)ijXXMe100(1)%MeSS1Sk1Sk1SkS1Snk0H()(1)(,)knkXX(1)(),knkXXMe100(1)%1()()1()()12jniejhinPXmXh例4:某一企业生产一种钢管,规定长度的中位数为10m,现随机地从正在生产的生产线上取10根进行测量如下:9.810.19.79.99.810.09.710.09.99.81)问生产需要调整吗?2)在给定置信度为0.95下,求测量钢管长度的中位数的置信区间?解:建立假设检验问题:试验数据符号表P值=01:10:10HMeHMe9.810.19.79.99.810.09.710.09.99.8-+---0-0--1,7,810SSnSS180812(1)2()20.03520.07042ipSi在给定显著性水平下,,所以生产暂时不需要调整将数据按照从小到大的顺序排列,得到顺序统计量9.79.79.89.89.89.99.910.010.010.1在显著性水平下,样本数据个数为n,查到左尾的正好和右尾的负号的数目为,因此中位数的置信区间为故中位数的的置信区间为0.05p0.052kMe95%(21)(102)XMeXMe95%9.8,10
本文标题:2.1--符号检验
链接地址:https://www.777doc.com/doc-5095552 .html