您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 非参数统计讲义二--单样本模型
符号检验法符号秩检验随机游程检验卡方拟合检验主要内容符号检验符号秩检验分布检验Wilcoxon符号秩检验Kolmogorov-Smirnov正态性检验游程检验单样本推断问题符号检验Liliefor正态性检验拟合优度检验Cox-Staut趋势检验2中心位置推断分位数检验符号检验的现实背景现实中很多问题可以化成投掷硬币模型分析,正面(头象heads)为正,反面(币值tails)为负。例如:用于确定人们驾车是否超限速,抽样车超速用“正号”;不超速用“负号”。例如:比较两个品牌产品,顾客只需求说出或标出所偏好的品牌用“正号”,否则为“负号”。Signtest符号检验是一种在只能得到定类数据时确认两个总体间差异的非参数统计方法。1、以对定类数据的分析为基础,2、用于判断两总体间的差异。检验假设:0:()()0.51+-0.5HPPHPP:()()如果根据样本得到的正负号数有很大差异,就有理由拒绝H0,认为两个样本的数据有显著差异。在小样本的情况下,n个样本出现K个“+”的概率服从二项分布。nknknkknCppCkXP)21()1(}{(1)在双侧检验中,假设为5.0)()(:5.0)()(:10PPHPPH无论出现过多的“+”或过少的“-”号都能导致拒绝H0。2/)5.0(}{0nknkiCkXPEXCEL中用binomdist(k,n,p,1)求累计概率(2)在单侧检验中,假设为)()(:)()(:10PPHPPH则出现过少的“+”号将能导致拒绝H0。K这“+”的数目。nknkiCkXP)5.0(}{0(3)在单侧检验中,假设为)()(:)()(:10PPHPPH则出现过少的“-”号将能导致拒绝H0。些时检验统计量K为“-”号的数目。nknkiCkXP)5.0(}{0例:两种品牌桔汁,让12个人品尝未加标签的样本,在品尝后说出在两个品牌中偏好那一个品牌。研究目的是确定两种品牌中消费者是否偏好某一个。假设H0:P=1/2,H1:P≠1/2若无法拒绝H0,则没有证据表明两种品牌桔汁的偏好有明显差异。若拒绝H0,则认为消费者对两种品牌存在差异。如何用符号检验的小样本形式来检验假设。为了记录参与这项研究的确切个人的偏好数据,若用加号表示偏好A品牌,用减号表示偏好B品牌。大多数消费者选出的品牌是认为最受欢迎的。由于数据用加,减号记录所以称符号检验个人号符号1--12--13--14--15--16--17--18+19+110--111--112--1正号的个数为2,概率小于0.05。说明顾客偏好存在差异,B比A好(要除去相等(相同)的样本。)概率加号个数BINOMDIST(B3,12,0.5,0)00.00024410.0029320.01611330.05371140.1208550.19335960.22558670.19335980.1208590.053711100.016113110.00293120.000244显著性水平0.05,加号个数大于10的概率(等于小于2的概率)0.003418,小于0.05,认为有显著差异。Dataexa1;Inputx@@;Datalines;-1-1-1-1-1-1-111-1-1-1;procunivariatedata=exa1;varx;run;UNIVARIATE过程变量:x矩N12权重总和12均值-0.6666667观测总和-8标准偏差0.77849894方差0.60606061偏度2.05523721峰度2.64未校平方和12校正平方和6.66666667变异系数-116.77484标准误差均值0.22473329基本统计测度位置变异性均值-0.66667标准偏差0.77850中位数-1.00000方差0.60606众数-1.00000极差2.00000四分位极差0位置检验:Mu0=0检验--统计量----------P值-------学生tt-2.96648Pr|t|0.0128符号M-4Pr=|M|0.0386符号秩S-26Pr=|S|0.0386Inasampleof100butterflies,wefound35malesand65females.Canweconcludethatthereare,ingeneral,moremalesthanfemales?Thenumberoffemalebutterfliesinasamplesif100animalsfollowsabinimialdistributionB(100,p)andwewanttotestthenullhypothesisH0:“p=0.5”againstthealternativehypothesisH1:“pdifferentfrom0.5”.binom.test(35,100,.5)R软件计算二项分布R语言程序•n次试验,成功小于等于y次,p=0.5•pbinom(y,n,.5)•x1=c(-1,-1,-1,-1,-1,-1,-1,1,1,-1,-1,-1)•n=length(x1);m=sum(x1.005)•pbinom(m,n,.5)•summary(x)•binom.test(m,n,.5)•正态近似,R程序•N=100,p=0.5,k=45•正态参数U=0.5*100=50,D=0.5*0.5*100=25•y=1-pnorm(45,50,25)•y在比较两个有联系的样本的差异时,如果样本数据的计量水平至少为顺序水平时,可以用符号检验。设两个有联系的样本(X1,X2,…,Xn)与(Y1,Y2,…,Yn),它们的计量水平为顺序水平,因而我们能比较出每一对Xi与Yi的大小,如果XiYi则记作“+”;如果Xiyi则记作“-”;如果相等则将该对数据删除。这样就得到了一个完全由+、-符号构成的样本。如果两个样本没有显著差异,可以预期正负号出现的概率相等。例:给13名患有DE-JOHNSON综合症的病人服用苯巴比妥药,以研究该药对肝功能的影响,下表给出13名患者服药后有胆红素水平,根据该资料能否认为苯巴比妥可以降低胆红素水平?患者号12345678910111213服药前43.23.81.835.35.732.72.92.81.82.6服药后3.133.511.83.92.22.11.42.92.61.42.7解:分析:如果药没有作用,上升与下降的比例近似相同。H0:P=0.5,H1:P≠0.5其中有一人不变,n=12,其11个下降,服药前减服药后得11个“+”,1个上升得“-”,1121212120{1}(0.5)0.5120.50.01iiPXC拒绝H0,认为有助于降低胆红素NOX1X2143.123.2333.83.541.81531.865.33.975.72.2832.192.71.4102.82.6111.81.4122.62.7X15.505.004.504.003.503.002.502.00543210Std.Dev=1.22Mean=3.31N=12.00X24.003.503.002.502.001.501.003.53.02.52.01.51.0.50.0Std.Dev=.90Mean=2.39N=12.00BinomialTest.0011.92.50.0061.001.08121.00Group1Group2TotalYCategoryNObservedProp.TestProp.ExactSig.(2-tailed)COMPUTEy=(x2x1).EXECUTE.X1X2413.213.811.81315.315.71312.712.811.812.613.12323.52121.823.922.222.121.422.621.422.72用T检验分析;w=read.table(D:/r1.txt,header=T)wx-w[1:12,1]y-w[13:24,1]t.test(x,y)用T检验,结果为GroupStatistics123.30831.21689.35129122.3917.89895.25950G1.002.00X1NMeanStd.DeviationStd.ErrorMeanIndependentSamplesTest.554.4642.09922.048.9167.43674.010921.822422.09920.251.049.9167.43674.006361.82698EqualvariancesassumedEqualvariancesnotassumedX1FSig.Levene'sTestforEqualityofVariancestdfSig.(2-tailed)MeanDifferenceStd.ErrorDifferenceLowerUpper95%ConfidenceIntervaloftheDifferencet-testforEqualityofMeans在0.01显著性水平下,不能拒绝H0,将产生极大错误。N=12,k=1,p=0.5大样本的情况:一般当n20(n25),可以对二项分布用正态分布近似计算nnkz5.05.0)5.0(在计算K值时,当Kn/2时取K+0.5,Kn/2时取K-0.5。期望=np=0.5n;方差=np(1-p)=0.5*0.5*nEXCEL函数NORMSDIST(Z)得到概率1()()(1)(,,)xknkknPxPPprobbnmlpnxk二项分布SAS程序11()1()(1)1(,,1)xknkknPxPPprobbnmlpnxk1()()(1)pbinom(x,n,p)xknkknPxPPk二项分布R程序11()1()(1)1pbinom(x-1,n,p)xknkknPxPPk解:男女比例应该差不多H0:P=0.5,H1≠0.5n=40,p=0.5,u=np=20,d=0.5*0.5*40=10正态近似计算。datatj0;x=probbnml(0.5,40,12);putx=x;run;binom.test(12,40,.5)例:有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分。数据见下表所示。我们将素质提高用正号表示,反之用负号表示,没有变化用0表示。显著性水平取0.05。学生编号训练之前训练之后差异符号1中优+2及良+3良中-4差中+5良良06中优+7差及+8良优+9中差-10差中+11中优+12及良+13中及-14中优+15差中+假设检验为:即H0:p0.5,训练之后学生素质没有提高。即H1:P0.5训练之后学生素质有提高。从表1中15名学生训练前后的差异分析可得出:有14名学生有差异,其中S+=11,S-=3。1名学生无差异(学生编号为5),应该从分析中去掉,所以n=15-1=14。由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为p=0.5,负号为1-p=0.5,这样整个试验的概率是相同的,并且每一个试验是相互独立的。因此在n=14次独立的试验中,正号出现的次数服从二项分布B(14,0.5),正号出现的次数正号出现的概率累计概率00.00010.000110.00090.000920.00560.006530.02220.028740.06110.089850.12220.212060.18330.395370.20950.604780.18330.788090.12220.9102100.06110.9713110.02220.9935120.00560.9991130.00090.9999140.00011.0000
本文标题:非参数统计讲义二--单样本模型
链接地址:https://www.777doc.com/doc-3362440 .html