您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 效度概念的演进、新进展及效度的估计方法
效度概念的演进、新进展及效度的估计方法一、效度概念的演进及其新进展效度作为对测验工具的质量进行评价的一个非常重要的指标,经历了一个历史的演进过程。伴随着测量理论和实践的发展,效度由一个单薄的相关系数发展成为一个内涵丰富的、多维的概念系统。之所以称其为概念系统是因为它涉及的不再只是测验的某一个方面或环节,而是包括了测验全过程的多个方面,从测验编制所依据的理论到测验内容本身,从分数解释的价值内涵到测验实施可能带来的社会后果,效度的概念已经逐渐演变成为一个对整个测验过程的质量进行全面监控的体系。效度概念的变迁不仅反映了测量理论本身的发展,而且表明人们对测验的全过程所采取的态度越来越谨填、客观和科学,以及越来越精确的要求。1.效度概念发展的第一个阶段:相关即有效2.效度概念发展的第二个阶段:效度有多种类型3.效度概念发展的第三个阶段:效度是一元且多维的(一)第一阶段:相关即有效时间:20世纪50年代之前主要代表人物:HullBinghamGuilfordGu1Liksen。主要观点:相关即有效。Bingham(1937):测验的成绩与采用其它客观方法进行度量所得结果之间的相关就是效度。Guilford(1946):只要一个测验与某事物相关,那么对于该事物来说它就是有效的。(二)第二阶段:效度有多种类型时间:20世纪50年代到70年代。不同的学者针对不同性质的测验或测验过程的不同方面,提出了效度的多种类型。1.内容效度测验最早用途,是评定个体在指定的内容领域已经学会了什么——成就测验。而评价成就测验,一般是把测验内容与测验所要评定的内容领域相比较。2.效标效度测验发展到第二阶段,重点转向预测。现在或将来某个时候,不同的个体在一定的情境中会怎样反应?同一个体在不同的指定情境中又会怎样反应?3.结构效度测验发展到第三阶段,出现两种主要趋向:(1)加强理论研究;(2)心理学理论与通过经验和实验的假设检验之间密切联系。这两种趋向使人们认识到结构在描述和理解人类行为中的重要性,测验的编制必须考虑结构效度。1954年,美国心理学会《关于心理测验和诊断的技术建议》一书对当时流行的各种效度概念进行了归纳概括,列举了四种类型的效度:①预测效度②同时效度③构想效度④内容效度1966年,美国心理学会、美国教育研究学会和国家教育测量委员会联合出版的《教育与心理测验的标准和指南》中,将效度类型进一步简化为:①效标关联效度②构想效度③内容效度该阶段的特点:出现了各种与特定测验目的相联系的效度类型。特点:美中效度都与特定的目的相联系——人们普遍认为,不同的测验有不同的效度要求,比如成就测验更重视内容效度,能力测验强调效标关联效度,而人格测验则突出构想效度等。(三)第三阶段:效度是一元且多维的时间:20世纪70年代到现在1.两大特点①不同效度类型统合起来,逐渐形成一个统一而丰富的概念。效度只有一个,但证明效度的证据却可以来自很多方面,可以从内容、效标以及构想等多种渠道寻求支持。构想效度反映了效度概念最为本质的要求,其他效度都是统摄于其下的。它已经成为一个统合各方面效度证据的综合性概念。②对效度本身解释力的反思。泛泛地谈论某一测量工具的效度是不负责任的,因为效度指的是事实和理论对由测验分数所得解释的支持程度。被评估的是对测验成绩所作的解释,而不是测验本身。在这阶段,作出突出贡献的是美国学者SamMessick,他于1989年提出的效度理论,极大地深化和推动了人们对效度概念的认识和理解。SamMessick认为,效度是一种总体性的、评价性的判断,代表了理论原理在多大程度上证明了由测验成绩所得解释的充分性和恰当性。将效度划分为多种类型的传统做法得到的效度是支离破碎的、不完整的,而且这种做法缺乏对测验成绩的价值内涵和社会后果的考虑。新的、一元的效度概念将这些方面统合起来组成一个更为全面的构想效度理论。2.构想效度的六个方面——SamMessick的效度理论第一,内容方面。主要涉及内容的相关性和代表性两个问题。第二,实在性方面(thesubstantiveaspect)。即测验应保证所引发生的心理加工过程有代表性,应该提供实验证据证明被试在任务完成过程中确实运用了设想的心理加工过程。第三,结构方面。要求测验的评分模式与待测构想的内在结构相一致。即评分模式应该最大程度的反映行为表现背后所隐含的结构关系。第四,概括化方面,即分数意义的适用范围和界限。第五,外部方面。即测验成绩与其它测验结果之间的关系在多大程度上反映了待测构想的理论预期。(辐合型的相关模式和区分型的相关模式)。第六,后果方面。该方面关注测验使用的价值含义和社会含义,旨在收集用于评价分数解释和使用结果方面的各种证据。构想效度的这六个方面紧紧围绕着测验的各个环节展开。收集效度证据的来源包括但并不限于:基于测验内容的证据、基于反应过程的证据、基于内部结构的证据、基于测验分数与其它变量之间关系的证据,基于测验后果的证据。总之,收集构想效度证据的过程就是对测验从编制到解释、再到使用后果的整个程序进行拷问的过程,测验的方方面面都得到了检验。回顾效度概念的演变历史,我们不难发现:对于效度的确认从最初作为研究过程最后环节的相关检验发展为一个持续不断的动态过程。运用各种技术不断地评价、质疑和检查由测验结果所作推论和解释的有效性成为整个研究过程中不可或缺的组成部分。对于这一历程,我们可以从研究内容和研究方法两个角度加以总结:一方面,效度研究所包括的内容越来越丰富:从测验与效标之间的简单相关到多种效度类型,再到一元且多维的构想效度,现阶段的效度已经足以容纳所有可能为分数的解释提供支持的证据。另一方面,随着研究内容的丰富化,研究方法也日益多样化。不但要有统计学的方法以及专家的判断,甚至引人了认知心理学的方法和生理心理学的方法作为支撑。构想效度所涉及诸多方面的不同性质要求综合运用多种定性的和定量的方法加以解决。这也是近些年来越来越多的学者倡导量的研究和质的研究并重的原因之一。二、如何分析测验的内容效度在分析内容效度时,应当特别注意以下三个问题:1.仅仅检查测验内容,尚不足以建立测验的内容效度(1)这里涉及到对项目总体进行合适取样的问题。务必系统分析测验所要测量的行为领域,以便弄清测验项目是否以恰当的比例包括所有的内容。人们很容易偏重于行为领域中比较适合于编制客观性项目的那一类内容。(2)内容效度中的“内容”必须是广义的。例如,教育测验应该不仅包括学科知识内容,而且包括各种教学目标,例如应用原理、解释数据以及事实知识等。(3)内容效度取决于什么。内容效度不是简单地取决于项目内容的表面的适当性,而是取决于个体对测验项目的反应与所考虑的行为领域的实质性对应关系。(一)分析内容效度应注意的问题2.测验所取样的行为领域不宜过于概化例如,一个拼写测验,采用多项选择题,它当然可以测量识别拼对和拼错单词的能力,但是不能理所当然地假设这个测验也测量正确听写的能力、作文中的拼错率以及其他方面的拼写能力。3.测验分数中可能包括无关因素例如,一个测量数学能力的测验,可能过度受到言语理解能力的影响,或者一个测量机械能力的测验,也可能过度受到完成简单日常工作的速度的影响。1.逻辑法(专家判断)2.统计法①克仑巴赫法②再测法3.经验法(二)内容效度的评估方法1.内容效度特别适用于教育成就测验据此能够回答成就测验的效度的两个基本问题:测验覆盖了规定的知识和技能的代表性样本吗?测验分数不受无关因素的影响吗?内容效度尤其适合于领域参照测验。领域参照测验的分数,一般以内容意义来解释,因此内容效度显然是有效使用这类测验的必要条件。(三)内容效度的应用2.内容效度也适用于某些对员工进行选拔和分类的职业测验如果测验内容是取自实际工作,或者是实际工作所需要的知识和技能时,内容效度尤为合适。美国从八十年代起,广泛采用这种方法来编制联邦政府和州政府公务员测验3.内容效度通常并不适合于能力倾向测验和人格测验虽然编制任何测验都应该考虑测验内容的恰当性和代表性。但是,相比成就测验,能力倾向测验和人格测验与所取样的行为领域的内在相似性大为降低。所以,这些测验的内容只能显示某些假设,而这种假设指导测验编制者选择某种内容来测量规定的心理属性。为了建立测验效度,需要采用效标效度和结构效度的方法在经验上证实这类假设。三、如何分析测验的效标效度(一)效标效度的含义与种类1.含义定义:测验对效标预测的有效性理想效标的条件:①有效性。②可靠性。③操作性。④实用性。2.种类:同时效度和预测效度美国心理学会在1985年制定的《测验标准》中,根据效标和测验之间的时间关系,把效标效度再分为同时效度(concurrentvalidity)和预测效度(predictivevalidity)。美国心理学会前主席、当代著名心理学家安妮.安娜斯塔西(AnneAnastasi)指出,预测效度和同时效度之间的逻辑区分,不是根据时间而是根据测验目标。测验的同时效度多用于诊断现在的状态,而测验的预测效度则预测将来的结果。一个测验有多少种具体用途,理论上就可以根据多少种效标进行效度分析。安娜斯塔西在1997年把它们分为以下7种类型。1.学业成就(academicachievement)对一般智力测验进行效度分析时,最常用的一种效标是学业成就。正是出于这种原因,往往把智力测验更确切地描述为学业能力倾向的测量。用作效标度量的具体指标包括在校成绩、成就测验分数、升级或毕业记录、某种荣誉或奖励,以及教师对学生的智力评定等。种种学业成就指标,提供从小学一年级到大学和研究生的所有教育水平的效标数据,它们也可以用于某些多重能力倾向测验和人格测验的效标。(二)七种效标类型2.特殊训练课程成绩(performanceinspecializedtraining)特殊能力倾向测验的常用效标是特殊训练课程的成绩。例如:机械能力倾向测验可以根据工艺课程的期终成绩进行效度分析。在音乐或美术学院的成绩,也可以用来对音乐或美术能力倾向测验进行效度分析。训练成绩作为效标,其具体指标可以是完成训练后所实施的成就测验的成绩、正式评定的等级、指导教师的评定、成功完成训练或被中途淘汰等。3.实际工作表现(jobperformance)对于许多测验目的来说,最令人满意的效标度量是实际工作表现的追踪记录。这种效标:主要用于特殊能力测验的效度分析;有时也用于一般智力测验和人格测验的效度分析;也常用于具体工作的专门化测验。所谓的“工作”,在水平和种类上大不相同,包括商业工作、工业工作、专业工作、军事工作等。即使名称相同的工作,其性质在不同的组织中也有所差异,所以采用工作效标来分析效度时,不仅应该报告所用的具体的效标度量,而且应该报告员工从事的工作的职责。4.对照组(contrastedsoups)对照组一般是一个合成效标,它反映日常生活中累积的、不可控制的选择影响。这种效标最终是根据某特定团体之内的幸存者与淘汰者。例如,把音乐学院学生的分数与未经选择的大学生的分数相比较,就可以得出音乐能力倾向测验的效度。当然,选取对照组,可以根据任何效标,例如学校成绩、评定或工作表现,只要选择效标度量分布的两端就行。在人格测验的效度分析中,也经常使用对照组方法。例如:分析一个社交特质测验的效度,可以把推销员的测验分数与工程技术员的测验分数相比较;兴趣测验经常采用各种不同职业对照组进行效度分析;态度测验有时也采用其他对照组进行效度分析,例如政治团体、宗教团体、地理团体,以及众所周知在某些问题上代表不同观点的特别团体。5.精神病诊断((psychiatricdiagnosis)精神病诊断既是人格测验选择项目的基础,也是人格测验效度分析的证据。精神病诊断应该是根据长期的观察和详尽的个案史,而不是根据仓促的会谈或检查,这样就有理由认为,在表示个体情绪状态方面,精神病诊断确是一种令人满意的效标。6.评定((ratings)评定包括学校教师、专业课程的指导教师、工作单位的管理人员等作出的某些评定。另外还有学校咨询人员对学生的评定,或由同学、同一俱乐部成员以及其他团体会员作出的评定。评定不仅只是获得学
本文标题:效度概念的演进、新进展及效度的估计方法
链接地址:https://www.777doc.com/doc-5659725 .html