您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 心理学理论/研究方法 > 心理学常用效应量的选用与分析
心理科学进展2011,Vol.19,No.12,1868–1878AdvancesinPsychologicalScienceDOI:10.3724/SP.J.1042.2011.018681868心理学常用效应量的选用与分析*郑昊敏1温忠麟1吴艳2(1华南师范大学心理应用研究中心,广州510631)(2广东外语外贸大学应用心理学系,广州510420)摘要效应量在量化方面弥补了零假设检验的不足。除了报告检验结果外,许多期刊还要求在研究报告中包括效应量。效应量可以分为三大类别:差异类、相关类和组重叠类,它们在不同的研究设计(如单因素和多因素被试间、被试内和混合实验设计)或在不同的数据条件下(如小样本、方差异质等)可能有不同的计算方法和用法,但许多效应量可以相互转换。我们梳理出一个表格有助应用工作者根据研究目的和研究类型选用合适的效应量。关键词效应量;差异;相关;组重叠分类号B841.2针对零假设检验存在的不足,一些国际期刊要求在报告检验结果的同时还要报告效应量(effectsize)。效应量在心理学研究中受到重视,国际上已经有许多关注效应量的研究(例如,Wilkinson&TaskForceonStatisticalInference,1999;APA,2001;Rosnow&Rosenthal,2003,2009)。国内关于效应量的研究还不多,但已有学者认识到了统计检验力和效应量大小的计算方法问题的重要性。胡竹菁(2010)以平均数差异显著性检验为例,具体介绍了在对实验数据进行假设检验后,如何对统计检验力和效应量大小进行估计。吴艳和温忠麟(2011)给出了一个与零假设检验有关的统计分析流程,其中涉及何时需要估计效应量。但如何选用合适的效应量并作出估计,还是一个问题。本文对效应量进行分类,针对不同的研究目的和研究设计,介绍效应量的计算方法。1效应量的类型效应量是衡量实验效应强度或者变量关联强度的指标(Snyder&Lawson,1993),它不受样本容量大小的影响(或者影响很小)。计算和报告效应收稿日期:2010-11-10*国家自然科学基金项目(30870784)和教育部人文社科重点研究基地项目(11JJD190005)资助。通讯作者:温忠麟,E-mail:wenzl@scnu.edu.cn量有以下几个好处(Ruscio,2008):区分统计显著性和实际显著性(Kirk,1996);通过元分析方法累计或比较以往研究结果(Hunter&Schmidt,2004);估计统计检验力(Cohen,1988)。效应量与研究设计和研究目的有关,它可以是任何我们感兴趣的量的大小,可以涉及单变量、双变量和多变量。如我们熟悉的均值、均值的差异、中位数、相关系数、频率、回归的斜率以及方差的比例等(Lipsey&Wilson,2000)。文献上出现过的效应量种类繁多,本文按效应量的统计意义将其分成如下三类:(1)差异类(difference-type),(2)相关类(correlation-type),(3)组重叠(group-overlap),详见表1。文献上关于效应量的分类不尽一致,大多数研究把差异类、相关类和方差比效应量归为三大类。但仔细分析可以发现,方差比效应量(如R2、2、2、2)与相关大小有关,可以归为相关类。以往的研究中较少提及组重叠类效应量,考虑到一些数据条件的限制(如总体非正态、方差不同质等),同时它具有差异类和相关类效应量所有和所没有的优点,所以把组重叠类效应量单独作为一类。下面分类介绍不同研究对应的效应量及其具体计算方法,同时考虑其中的自变量个数(单因素和多因素)、实验设计类型(被试内、被试间和混合实验设计)以及数据条件(如是否同质及样本大小等)。第12期郑昊敏等:心理学常用效应量的选用与分析1869表1效应量分类类别子类差异类Cohen的d值,Glass的值和Hedge的g值相关类r、rpb、rb、requivalent,及Cramer的V系数等基于2统计量的相关系数等;方差比f2,R2,2,2,2;以及ralerting,reffectsize,rcontrast等组重叠Improvement-Over-Chanceindex,简称I效应量2效应量的计算2.1差异类效应量这类效应量一般用于实验研究,进行两组均值比较或多组均值比较。在两组均值比较的情况下,昀直观的是用两组的均值差值作为效应量。但在心理学研究中,使用原始数据的均值差值作为效应量会存在单位不统一、研究间效应量无法比较的问题,Cohen(1969)和Glass(1976)提出用均值之差的标准化值替代原始均值差值,是差异类效应量的基础。2.1.1单因素实验设计单因素实验设计时,均值的差异可以是两组比较,也可以是多组比较,其一般形式为线性对比(contrast,Keppel&Wickens,2004;Kline,2004;Bonett,2008;温忠麟,2006):11JJcc,其中J是组数,i表示第i组的均值,1,,iJ,ci是常数满足10Jcc。均值差异是线性对比的特殊情形,如实验组a、b和控制组c的均值差异为1()2abc,不同实验处理组的均值差异ab。线性对比的效应量定义为(见Olejnik&Algina,2000)(1)分母是混合标准差(pooledstandarddeviation)。用各组的样本均值代替各组的总体均值,就可以估计,问题是如何估计。混合方差2通常用各组样本方差的“加权”平均来估计,“加权”的方法主要有下面三种,每一种都相应地产生一种效应量计算公式:(1)只用要比较的组来“加权”计算(Cohen,1969)。(2)当方差同质假设成立时,实验设计条件下所有的组都用来加权计算(Hedges,1981)。(3)当方差同质假设不成立时,只用所有组的其中一组,一般是控制组(Glass,1976),此时该组的权重是1。特别地,假设要比较的是第1组和第2组的差异。各组的样本容量分别为12,,,Jnnn,样本均值分别为12,,,Jyyy,样本标准差分别为12,,,Jsss。下面分别介绍上面三种方法对应的效应量公式。(1)Cohen的d值上面第一种方法对应的两组差异的效应量为12()pooleddyy(2)1222112212(1)(1)poolednsnsnn(3)就是Cohen(1969)的d值。Cohen的d有两种解释。一是实验组均值位于控制组的相对位置(百分等级),二是两组分布不重叠的程度。Cohen(1969)提出,d=0.2、d=0.5和d=0.8分别对应于小、中、大的效应量,这三个效应量对应的“实验组均值在控制组的百分等级”分别为58%、69%和79%,“两组分布不重叠的比例”分别为14.7%、33.0%和47.4%。但是,Cohen也指出不可盲目使用这一标准,如果把它严格当成像显著性的0.05临界值那样,我们又愚蠢的使用了另一套测量标准(参见Thompson,2001),因为在某些专业领域(如医学),有时即使是非常小的效应量也是很重要的,所以建议对效应量大小的解释昀好还是参照以往的研究成果或实际情况进行。(2)Hedges的g值上面第二种方法对应的两组差异的效应量为12()pooledgyys(4)就是Hedges(1981)的g值,其中spooled是所有组的混合标准差,即单因素方差分析中的误差均方(MSE):1222111(1)(1)(1)(1)JJpooledJnsnssnn(5)1870心理科学进展第19卷应用中昀常见的是实验组控制组两组比较(即J=2),此时1222112212(1)(1)2poolednsnssnn(6)不难看出,1212122nngdnn(7)(3)Glass的Δ值由上面第三种方法可以得到两组差异的一个效应量为122()yys(8)称为Glass的Δ值。对于常见的实验组控制组两组比较,通常用控制组的标准差作为Δ值的分母。一般在有明显的控制组存在且控制组的样本容量比较大,以及实验组与控制组的条件差异比较大时才会使用Δ值(Rosenthal,1991)。因为实验组的均值和标准差会受到实验处理的影响,但控制组的标准差却不会,因此它更能代表总体标准差(Vacha-Haase&Thompson,2004)。不过,当方差不同质时,把控制组的标准差作为分母并非唯一的选择,研究者可以根据实际需要去选择一种认为昀重要的组的标准差作为线性对比的分母(Glass,McGaw,&Smith,1981)。上述三种效应量在大样本研究时一般相差很小(Rosnow&Rosenthal,2003)。对于小样本,d会严重高估,Hedges和Olkin(1985)提出用c(m)=3141m来校正d(其中122mnn),也用来校正Δ(其中21mn)。2.1.2多因素实验设计即使是比较同样两组均值的差异,不同的实验设计也会有不同的效应量,因为效应量衡量的是不同的实验设计的效应而不是结果的差异大小,标准化均值差异在多因素实验设计时比在单因素实验设计时会更大(Olejnik&Algina,2000),因此有必要针对不同的实验设计区分不同的效应量计算方法。多因素实验设计中的差异比较,归根结底还是组之间的差异比较,这里所说的组是基于实验处理的分组。如所知,所谓实验处理,是不同因素各取一个水平得到的水平组合,有多少种组合就有多少种实验处理。我们感兴趣的各种差异,都可以用线性对比呈现出来,包括主效应,交互效应和简单主效应(Bird,2004)。例如,一个实验探讨小学生“对文章内容的不同预期对阅读理解的影响”,有两个因素:因素A——不同类型标题提示,有2个水平:正确提示(a1)和误导提示(a2);因素B——阅读速度,有2个水平:快速阅读(b1),常速阅读(b2)。因变量是阅读理解成绩y。有4个水平组合,即有4个实验处理:11,12,21,22abababab。如果研究目的是比较不同的提示类型的差异(即对因素A的主效应感兴趣),用线性对比表示为:1112212211()()22ababababyyyy(9)其中11aby表示处理a1b1上的得分均值,其余符号类推。如果研究目的是比较不同阅读速度的差异(即对因素B的主效应感兴趣),用线性对比表示为:1121122211()()22ababababyyyy(10)这样,多因素实验设计的差异类效应量计算问题原则上就转化为单因素实验设计的情形,以实验处理分组。不同的是,关于混合标准差的计算,需要区分不同的设计类型和因素类型做适当的调整(Olejnik&Algina,2000)。(1)被试间实验设计在被试间的多因素实验设计时,要比较的因素有可能是被试的个体差异,如能力、性别差异等,也可能是主试操作的因素,如阅读实验中的标题提示类型(正确、误导)、阅读速度(常速、快速)等。根据不同的因素类型,混合标准差的计算也不一样,主要分为下面三种情况(Olejnik&Algina,2000)。①所有因素都是操作因素时,混合标准差spooled的计算方法为:以所有因素的水平组合(即所有实验处理)分组,计算各组的样本方差,然后用单因素实验设计的三种方法(Cohen,1969;Glass,1976;Hedges,1981)之一计算混合标准差spooled,见2.1.1节。②既有操作因素(如教法一a1和教法二a2)也有被试个体因素(如高能力b1与低能力b2)时,根据不同的研究目的,混合标准差spooled的计算第12期郑昊敏等:心理学常用效应量的选用与分析1871也不一样。如果研究的目的是比较操作因素的差异,则忽略个体差异因素的影响,混合标准差spooled的计算方法为:当作没有个体差异因素,以操作因素的水平组合(如a1和a2)分组,计算各组的样本方差,然后用单因素实验设计的三种方法(Cohen,
本文标题:心理学常用效应量的选用与分析
链接地址:https://www.777doc.com/doc-6910430 .html