您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 第七章-SPSS非参数检验
第七章SPSS非参数检验本章内容•7.1单样本的非参数检验•7.2两独立样本的非参数检验•7.3多独立样本的非参数检验•7.4两配对样本的非参数检验•7.5多配对样本的非参数检验非参数检验•非参数检验:(1)在总体分布未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。(2)推断过程中不涉及有关总体分布的参数。7.1单样本的非参数检验1.目的:样本来自总体的分布是否与某个已知的分布相吻合?—绘制样本数据的直方图、pp图、QQ图判断—粗略—通过非参数检验—精确2.单样本非参数检验(1)对单个总体的分布形态等进行推断(2)方法:卡方检验、二项分布检验、K-S检验、变量值随机性检验等。7.1.1总体分布的卡方检验•1、基本思想的理论依据:•如果从一个随机变量X中随机抽取若干个观察样本,这些观察样本落在X的k个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k趋于无穷时近似服从卡方分布。基于这一思想,对变量X总体分布的检验可从对各个观察频数的分析入手。7.1.1总体分布的卡方检验•1.基本思想-吻合性检验(1)原假设:样本来自的总体分布与期望分布无显著差异。变量值落入第i个子集中的理论概率为,相应的期望频率为ipinp期望频数,观察频数,子集个数,eiikiieiiffkkfff0210202)1(~)(布无显著差异自的总体分布与理论分不拒绝原假设,样本来值对应的存在显著差异的总体分布与理论分布拒绝原假设,样本来自值对应的数分布差距越小观测频数分布与期望频值越小数分布差距越大观测频数分布与期望频值越大,,2222pp•二.总体分布卡方检验的应用实例:•SPSS总体分布的卡方检验对数据存放,需要定义一个存放变量值的SPSS变量和一个存放各变量值观测频数的变量,并指定该变量为加权变量。•2.实现步骤[Analyze]-[NonparametricTests]-[Chi-Square](1)选定待检验的变量到[TestVariablelist](2)在[ExpectedRange]中确定参与分析的观测值的范围:[Getfromdata]:所有观测数据都参与分析[usespecifiedrange]:只在该取值范围内的观测数据才参与分析。(3)[Expectedvalues]给出各理论值[Allcategoriesequal]:所有子集的频数都相同[value]:依次输入值,通过[add]、[change]、[remove]进行增加、修改和删除。(4)单击Options按钮,在Statistics栏中选择输出统计量。Descriptive复选项,指定输出变量的均值、标准差、最大值、最小值、非缺失个体的数量。•Quartiles复选项,输出四分位数。•(2)MissingValues栏中选择对缺失值的处理方式。•Excludecasetest-by-test选项,将参与对比中的缺失值排除。•Excludecaseslistwise选项,剔除任何变量中所有含缺失值的样品。3.应用案例•医学研究表明心脏病人猝死人数与日期的关系为:一周内,星期一猝死者较多,其他日子基本相当,各天的比例近似为:2.8:1:1:1:1:1:1根据“心脏病猝死”数据,推断总体分布是否与理论分布相吻合。分析:利用总体分布卡方检验实现。4.应用练习•掷一颗六面体300次,用数字型数据1、2、3、4、5、6分别代表六面的六个点,试问这颗六面体是否均匀。1234564349564566417.1.2二项分布检验•在现实生活中有很多数据的取值是二值的,例如,人群可以分为男性和女性,产品可以分为合格和不合格,学生可以分为三好学生和非三好学生。通常将这样的二值分别用1和0表示。如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量来描述。如果随机变量值为1代表成功,其概率设为p,则随机变量值为0的概率q便等于1-p,则成功次数变量X的分布为二项分布。7.1.2二项分布检验•1.基本思想(1)通过样本数据检验样本来自的总体是否服从指定概率p的二项分布。(2)小样本-精确检验:计算n次试验中某类出现的次数小于等于x次的概率:大样本-近似检验inixiinqpCxXP0}{5.025.02)1(5.0时减时加nxnxpnpnpxZ2.实现步骤[Analyze]-[NonparametricTests]-[Binomial](1)选定待检验的变量到[TestVariablelist](2)[definedichotomy]中指定如何分类[getfromdata]:检验变量为二值变量[cutpoint]:输入具体数值,小于等于该值的为第一组,大于该组的为第二组(3)[Testproportion]:输入二项分布的检验概率值3.应用案例•利用“产品合格率”数据,推断该批产品的一级品率是否为90%。•分析:产品合格与否属于二值变量,可以通过二项分布检验实现。3.应用练习•1.掷一枚硬币31次,出现正面和反面在上的结果见下表,试问这枚硬币是否均匀。•2.根据居民储蓄存款的数据,分析储户对未来收入的看法,检验储户总体对收入持保守或悲观态度的比例是否与0.4有显著性差异。次12345678910111213141516面ABABBAAABBABBAAA次171819202122232425262728293031面BABBABBABABBABA7.1.3单样本K-S检验•1.基本思想(1)以俄罗斯数学家柯尔莫哥和斯米诺夫名字命名(2)利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布(3)步骤①计算各样本观测值在理论分布中出现的理论累计概率值F(x)②计算各样本观测值的实际累计概率值S(x)③计算理论累计概率值与实际累计概率值的差D(x)④计算差值序列中最大绝对差值D))()(max(,)()(max(max(:)()(max(1iiiiiixFxSxFxSDDDxFxSD修正修正为:散值,可对由于实际累计概率为离(4)原假设成立时:①小样本下:D~kolmogorov分布②大样本下:近似服从K(x)分布③SPSS仅给出大样本下的和对应的p值(5)决策①D统计量的p值显著性水平,拒绝原假设,样本来自的总体与指定分布有显著差异②D统计量的p值显著性水平,不拒绝原假设,样本来自的总体与指定分布无显著差异DnDn2.实现步骤[Analyze]-[NonparametricTests]-[1-sampleK-S](1)选定待检验的变量到[TestVariablelist](2)[Testdistribution]:选择理论分布①[normal]:正态分布②[uniform]:均匀分布③[poisson]:泊松分布④[exponential]:指数分布3.应用案例•利用“儿童身高”数据分析周岁儿童身高总体是否服从正态分布。•分析:可以通过单样本K-S检验实现。3.应用练习•1、利用存款储蓄调查数据,分析储户一次存款金额的总体是否服从正态分布,并结合存款金额的pp图和qq图来分析。7.1.4变量值随机性检验•1.基本思想(1)通过对样本变量值的分析,实现对总体的变量值出现是否随机进行检验。(2)原假设:总体变量值出现是随机的。①检验依据:游程-样本序列中连续出现相同的变量值的次数。②游程数太大或太小都表明变量值存在不随机的现象关于随机性的游程检验(runtest)•游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本:•0000111111001011100000000•其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。•这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。(3)检验统计量(4)决策:Z统计量的p值显著性水平,拒绝原假设,变量值的出现不是随机的。Z统计量的p值显著性水平,不拒绝原假设,变量值的出现是随机的。的个数出现的个数,出现:游程数01)1()()2(22212122121212122121nnnnnnnnnnnnnnnnrrZrrrr关于随机性的游程检验(runtest)•例(run2.sav):从某装瓶机出来的30盒化妆品的重量如下(单位克)•当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题。看下面例子。•71.671.071.870.370.572.971.071.070.171.871.970.370.969.371.267.367.667.767.668.168.067.569.867.569.770.069.170.471.069.9•为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。关于随机性的游程检验(runtest)•如果把小于中位数的记为0,否则记为1,上面数据变成下面的0-1序列•111111110111101000000000000110•这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这个问题的。•直接利用这个数据,通过SPSS,得到下面游程检验结果的输出。2.实现步骤[Analyze]-[NonparametricTests]-[Runs](1)选定待检验的变量到[TestVariablelist](2)[cutpoint]:计算游程数的分界值①[median]:样本中位数为分界值②[mode]:样本众数为分界值③[mean]:样本均值为分界值④[custom]:以用户输入的值为分界值,SPSS将小于该分界值的所有变量作为一组,大于或等于该分界值的所有变量作为一组,计算游程。3.应用案例•利用“电缆数据”推断耐压设备的工作是否正常。•分析:①若耐压数据的变动是随机的-则设备工作正常②若耐压数据的变动不是随机的-则设备工作存在不正常③可以通过变量值随机性检验实现。4.应用练习•掷硬币20次得到的实验数据,试问硬币实验是否是随机的。110100011010111001107.2两独立样本的非参数检验(1)独立样本:在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。(2)推断样本来自的两个总体的分布等是否存在显著差异。(3)方法:曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。秩(rank)•非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。例如我们有下面数据.Xi159183178513719Ri75918426310这下面一行(记为Ri)就是上面一行数据Xi的秩。秩(rank)•利用秩的大小进行推断就避免了不知道背景分布的困难。这也是非参数检验的优点。•多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的性质。7.2.1两独立样本的曼-惠特尼U检验•1.基本思想(1)原假设:两组独立样本来自的两总体分布无显著差异。(2)通过两组样本平均秩的研究实现推断秩-变量值排序的名次,变量值有几个,对应的秩便有几个。(3)检验步骤①将两组样本混合并升序排列,得每个数据的秩②分别对样本X和Y的秩求平均,得平均秩和③计算样本X优于样本Y秩的个数和样本Y优于样本X秩的个数④依据和计算WilcoxonW统计量和曼-惠特尼U统计量。iRmXWnYW1U2U1U2U•WilcoxonW统计量:•曼-惠特尼统计量U为:•大样本下,U近似服从正态分布值本值的为第一个变量值所在样,则若,则若,则若对应样本组的样本个数,WkWil
本文标题:第七章-SPSS非参数检验
链接地址:https://www.777doc.com/doc-5118871 .html