您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据库 > Kolmogorov-Smirnov test
Kolmogorov-Smirnov检验法问题的提出在进行累计概率统计的时候,如何区分组之间是否有显著差异?Kolmogorov-Smirnov检验(K-S检验)基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感而成为比较两样本的最有用且常规的非参数方法之一。单样本K-S检验单样本的K-S检验是用来检验一个数据的观测经验分布是否是已知的理论分布。当两者间的差距很小时,推断该样本取自已知的理论分布。作为零假设的理论分布一般是一维连续分布F(如正态分布、均匀分布、指数分布等),有时也用于离散分布(如Poisson分布)。即H0:总体X服从某种一维连续分布F。检验统计量为|)()(||,)()(|max1iiniinixFxFxFxFnZH0真,Z依分布收敛于Kolmogonov分布。即,当样本取自一维连续分布F时,注:当F是连续分布时,随机变量K的分布不依赖于F。|))((|supxFBKZxdKolmogonov分布维纳过程W(t):W(0)=0;具有平稳独立增量;且布朗桥:考虑随机变量,其分布函数为称之为Kolmogonov分布。|)(|sup]1,0[tBKt12122)1(21|)(ixiiexKP]1,0[),0)1(|)(()(tWtWtB0),,0(~)(2ttNtW例1.对一台设备进行寿命检验,记录10次无故障工作时间(数据如下)。检验其是否服从1/1500的指数分布?X=c(420,500,920,1380,1510,1650,1760,2100,2300,2350)ks.test(X,pexp,1/1500)Output:D=0.3015,p-value=0.2654alternativehypothesis:two-sided结论:p值大于0.05,不拒绝原假设,认为此设备无故障工作时间服从1/1500的指数分布。两样本K-S检验假定有分别来自两个独立总体的两个样本。要想检验它们背后的总体分布相同的零假设,可以进行两独立样本的K-S检验。原理完全和单样本情况一样。只不过把检验统计量中零假设的分布换成另一个样本的经验分布即可。假定两个样本的样本量分别为n1和n2,用F1(X)和F2(X)分别表示两个样本的累积经验分布函数。再记Dj=F1(Xj)-F2(Xj)。检验统计量近似正态分布,表达式为1212max||jjnnZDnn例2.有分别从两个总体抽出的25个和20个观察值的随机样本(数据如下)。检验其是否可以认为来自同一分布?X=scan()0.610.290.060.59-1.73-0.740.51-0.560.391.640.05-0.060.64-0.820.371.771.09-1.282.361.311.05-0.32-0.401.06-2.47Y=scan()2.201.661.380.200.360.000.961.560.441.50-0.300.662.313.29-0.27-0.370.380.700.52-0.71ks.test(X,Y)Output:Two-sampleKolmogorov-Smirnovtestdata:XandYD=0.23,p-value=0.5286alternativehypothesis:two-sided结论:p值大于0.05,不拒绝原假设,可以认为两个样本来自同一分布。K-S检验与卡方检验的比较相同点:都是采用实际频数和期望频数之差进行检验。不同点:卡方检验主要用于类别数据,而K-S检验主要用于有计量单位的连续和定量数据。卡方检验也可以用于定量数据,但必须先将数据分组才能获得实际的观测频数,而K-S检验法可以直接对原始数据的n个观测值进行检验,所以它对数据的利用较完整。K-S检验的优势和劣势作为一种非参数方法,具有稳健性;不依赖均值的位置;对尺度化不敏感;适用范围广(不像t检验仅局限于正态分布,当数据偏离正态分布太多时t检验会失效;比卡方更有效;如果数据确实服从正态分布,没有t检验敏感(或有效)。
本文标题:Kolmogorov-Smirnov test
链接地址:https://www.777doc.com/doc-3606230 .html