您好,欢迎访问三七文档
第3章多元方差分析与重复测量方差分析3.1多元方差分析3.1.1模型简介1.问题的提出目前有些家长、教师、校长常担心素质教育是否会导致学生成绩下降?这就涉及一个如何对学生成绩(如语文、数学、外语、体育等)进行综合评价的问题。试想将某校某年级的学生按班级随机分成两组,一组施以素质教育,另一组仍沿用传统的应试教育。考察某次摸底考试的两种教育模型对学生成绩的影响。很容易想到的分析方法是对两组学生各科成绩进行t检验,分别计算出各门课程的t值、P值,然后回答素质教育是否降低学生的语文成绩,是否降低数学成绩……但很可能出现的结果是,某一(几)门课程成绩检验结果P值0.05,而其他的课程成绩检验结果P0.05。这样对于素质教育是否降低学生学习成绩难以下一个综合的结论。在这个问题中,对一个观察单位的观测指标(因变量)常有多个,且各指标间又往往相互联系、互相影响。对于这种资料,可能有的人会将各个反应变量割裂开分别进行统计分析,就如同上面所提到的分别进行t检验一样,但这种分析方法有以下几个缺点:(1)检验效率低。可能的一种情况是两组(或多组)观察对象的多个观察指标的联合分布之间有差别,而单独对每个观察指标进行统计学检验却没有统计学意义。当然反过来也有可能。但并不是说研究者可以随意地将20个甚至更多个互不相关的观察指标放在一起,考察各组间反应变量的总体联合分布之间有无差别,有可能一个有真正有差别的观察指标其差别会被其他许多没有差别的观察指标稀释掉。所以是否考察多个观察指标的联合分布,要看这几个观察指标之间是否存在相关关系。(2)犯一类错误的概率增大。假设有p个观察指标,对每个指标进行t检验(或方差分析),一类错误的概率α设定为0.05,根据乘法原理,p个观察指标的p次检验结果均正确的概率为(1-0.05)p。当观察指标数为5时,则5次检验结果均正确的概率为0.7738,此时犯一类错误的概率为1-0.7738=0.2262。当观察指标数为10时,犯一类错误的概率则增大为0.4013。这一情形类似于多组比较使用两两t检验所遇到的问题。(3)一元分析结果不一致时,难以下一个综合结论。如上面素质教育的例子,就很难说素质教育是否会导致学生学习成绩下降。(4)忽略了变量间相关关系。导致只见树木,不见森林。单因变量的分析结果不能简单地叠·05·加起来向多因变量推广,就如同在地面上(二维)认为地球是平的,但实际上在太空中(三维)一看才发现地球是个球面一样,仅仅进行单因变量的分析会损失相当多的信息,甚至得出错误的结论。对这一类资料进行分析有两种思路:使用因子分析先对因变量中蕴含的信息进行浓缩,然后再对提取出的公因子进行后续的分析,详见本书因子分析一章;另一种解决方法是采用本章所介绍的多元方差分析(MultivariateAnalysisOfVariance,MANOVA)。这里的多元是真正意义上的多元,即反应变量为多个,而一般意义上的多元统计分析是对反应变量为一个,而自变量有多个的资料的统计分析。多元方差分析的基本思想与前文述及的一个反应变量的方差分析相似,都是将反应变量的变异分解成两部分:一部分为组间变异(组别因素的效应),一部分为组内变异(随机误差)。然后对这两部分变异进行比较,看是否组间变异大于组内变异。从理论上讲组间变异再小也不可能比组内变异小,因为若组别因素效应为0,则组间变异应该等于组内变异,因此多元方差分析与单个反应变量的方差分析一样,也是单侧检验(即查阅的是F分布的单侧累积概率值)。所不同的是,后者是对组间均方与组内均方进行比较,而前者是对组间方差协方差矩阵与组内方差协方差矩阵进行比较。2.多元方差分析对资料的要求(1)各因变量服从多元正态分布。多元方差分析对于多元正态分布的要求并不高,实际应用中这一条件通常弱化为每一个反应变量服从正态分布即可。若各反应变量服从多元正态分布,则每个反应变量的分布(即该多元正态分布的边际分布,MarginalDistribution)必然也服从正态分布,而反过来则未必成立。但可以肯定的是,只要有一个反应变量不服从正态分布,则这几个反应变量的联合分布肯定不服从多元正态分布。(2)各观察对象之间相互独立。(3)各组观察对象反应变量的方差协方差矩阵相等。(4)反应变量间的确存在一定的关系,这可以从专业或研究目的的角度予以判断。需要指出的是,多元方差分析对于方差齐性要求较高,分析结果对于方差齐性较为敏感。并且对样本含量也有一定要求,不仅总样本量要较大,各单元格中样本数量也应较大,否则检验效能偏低,容易得到阴性结果,犯二类错误的概率增大。3.SPSS中的实现方式SPSS中有两个过程可以进行多元方差分析:通过菜单可以实现的是GLM过程,只能通过编程实现的是MANOVA过程(原来有菜单,但自7.5版本后菜单被删除,只保留编程)。主要的区别在于二者对分类变量进行参数估计时应用的矩阵不同,GLM过程采用的类似产生哑变量的形式,以某一水平为参照水平,其他水平与参照水平进行比较,即Indicator对比(IndicatorContrast)或Simple对比(SimpleContrast),而MANOVA过程将各水平与各水平的平均值进行比较,即De-viation对比(DeviationContrast),详见多重线性回归模型中有关部分。限于篇幅,本单元不对MANOVA过程展开讨论,但会给出程序及其分析结果和相应解释。3.1.2分析实例例3.1为了考查素质教育是否会导致学生学习成绩降低,某校对初中二年级两个班各50名学生分别施以素质教育模式和传统(应试)教育模式教学,在一次模拟考试中收集了两个班级学生的语·15·文、数学、英语的考试成绩,试做统计分析(数据见manova.sav)。操作步骤如虚框和图3.1所示。Analyze→GeneralLinearModel→MultivariateDependentVariables框:y1、y2、y3FixedFactor(s)框:groupOK图3.1Multivariate过程主对话框例3.1的分析结果参见表3.1。结果输出的总标题“GeneralLinearModel”表明了本次多元差分析是用GLM过程完成的,仍然属于一般线性模型的范畴。首先声明本次多元方差分析是用GLM过程完成的。组间变量(Between-SubjectsFactors)为教育方式。各自变量取值水平对应的频数分别为50、50。·25·表3.2所示为SPSS对引入模型的效应项输出多元方差分析结果,可见每个假设都分别用4种方法进行了检验,所幸例3.1中4种方法的结果都完全相同,具体算法原理详后。表格中对模型截距项的假设检验结果为P0.001,说明当自变量取值为0时,因变量取值不为0,例3.1则说明施以应试教育的学生三门功课考试成绩总体均数向量不为零向量(0,0,0)T,也就是说他们没有考零分。对教育方式的统计学检验结果为P=0.3340.05,说明两种教育方式学生考试成绩差别没有统计学意义,也就是说实施素质教育的学生没有因提高个人素质而荒废学业。实际应用中如果考虑的自变量数目多于两个,例如在例3.1中还想同时考察性别有无影响,则可在Model对话框中规定欲拟合的模型。除了对主效应进行考察外,常常还需要考察自变量间的交互作用。对于交互作用的解释,本书中很多章节均有涉及,所不同的只是这里的反应变量为多个,这里不再赘述。若用MANOVA过程对例3.1进行处理,程序如下:MANOVAy1y2y3BYgroup(0,1).结论同上,读者可自行练习。如果上面总的多元方差分析检验结果表明各组的总体均数向量不等,则对于实际问题,分析者还希望进一步了解究竟这些因素是对哪些因变量有影响,这可以通过对各反应变量分别进行单因素方差分析来寻找,SPSS随后输出的就是对三个因变量分别进行一元方差分析的结果,如果将表3.3中左边第一列变异来源(Source)为Intercept、Total的这几行去掉,则输出结果与单独对三个反应变量进行方差分析的输出结果完全相同。其中截距的变异来源,即其离均差平方和(Type=Ⅲ)就是各个截距的方差,也就是下文将会提及的SSCP矩阵中主对角线上相对应的元素。在进行多元方差分析时,如果分组变量像本例中一样仅有两个水平,也可以用HotellingT2检验(单因素t检验在多因素条件下的推广)进行统计分析,但SPSS中只能在信度分析中输出HotellingT2统计量。替代方法之一是将在Multivariatetests表中输出Group对应的Hotelling’sTrace×(n-组数)得到HotellingT2统计量。在例3.1中,HotellingT2=0.036×(100-2)=3.528。除进行一元方差分析外,当某个自变量有统计学意义时,还可以分别考察是哪几个水平间的哪几个反应变量差别有统计学意义。进行两两比较的对话框与单因素时的两两比较对话框一致,结果解释也基本一致,可参见相关章节。但是当自变量水平数为2时,SPSS拒绝进行两两比较。读者可对本章后面的例子进行练习。3.1.3检验统计量的计算①在结果中可以看到,在进行多元方差分析时,SPSS共计算4个统计量,分别是:(1)Pillai’s轨迹:恒为正数,值越大,表明该效应项对模型的贡献越大。(2)Wilks’λ:取值范围在0~1之间,值越小,说明该效应项对模型的贡献越大。(3)Hotelling轨迹:为检验矩阵特征根之和,值总比Pillai’s轨迹的值大。与Pillai’s轨迹相似,值越大贡献越大。(4)Roy最大根统计量:为检验矩阵特征根中最大值,因此它总是小于或等于Hotelling轨·35·①对算法不感兴趣的读者可跳过本小节,不影响对其余内容的理解。迹。值越大,该效应项对模型的贡献越大,对于以上4种检验统计量,Olson于1974年证明了当模型建立的前提条件不满足时,Pillai’s轨迹最为稳健。以上4种统计量计算公式比较复杂,仅以Wilks’λ为例进一步说明多元分析方差分析的基本思想。首先建立多元方差分析的假设。H0:各组总体均数向量相等,H1:各组总体均数向量不等或不全相等。对于例3.1,两种教育模式学生的三种成绩均数向量为:素质教育:粎Y1=(73.9875.2679.84)T应试教育:粎Y1=(74.6878.2678.28)T两组学生成绩的离均差平方和与离均差积和矩阵(SumOfSquaresAndCross-ProductsMa-trix,SSCP),简称为离差阵,即:SS应试教育=3320.98-195.74-36.16-195.744409.621228.08-36.161228.085636.72·45·SS应试教育=3394.88-719.8485.48-719.845003.62-644.6485.48-644.643826.08组内变异等于两组离差阵之和,即W=SS素质教育+SS应试教育=6715.86-915.5849.32-915.589413.24583.4449.32583.449462.80所有数据的离差阵T为:T=6728.11-863.0822.02-863.089638.24466.4422.02466.449523.64其自由度=观察单位数-1,组间变异的离差阵B=T-W,即:B=T-W=12.2552.50-27.3052.50225.00-117.00-27.30-117.0060.84其自由度=组数-1。统计量Wilksλ为:Λ=|W||W+B|=|W||T|=5.8792509×19116.0900037×1011=0.9654|W|是求由矩阵W决定的行列式的值。由此可见,Wilksλ反映的是组内变异在总变异中的比例。在例3.1中,组内变量占到总变异的96.54%。Rao提出对λ进行变换计算后服从F分布的统计量(比较复杂,这里就不列出公式了),SPSS软件使用的就是这种方法。在例3.1中:F=1.147,v1=3,v2=96,P=0.334。实际上SPSS可以输出上述矩阵:单击Options按
本文标题:spss 球形检验
链接地址:https://www.777doc.com/doc-3293959 .html