您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 计算机自适应测验中测验安全控制方法评述∑
心理科学进展2010,Vol.18,No.8,1339–1348AdvancesinPsychologicalScience1339计算机自适应测验中测验安全控制方法评述*李铭勇1张敏强1简小珠1,2(1华南师范大学应用心理研究中心,广州510631)(2井冈山大学,吉安343009)摘要计算机自适应测验在实际应用中曾经受到了测验安全问题质疑。国内外学者主要从两种研究思路提出了测验安全控制的方法:一是控制项目的最大曝光率,沿着这个思路发展出来的方法有SH法、项目合格方法、多重最大曝光率法等;二是改进选题策略,沿着这个思路发展的方法主要是a分层法及其变式。此外,近年来出现了测验安全控制方法之间相结合的研究思路。本文从均方误差、项目曝光率、题库利用率等指标论述了测验安全控制方法的优缺点,并概述了这些测验安全控制方法的研究发展历程与发展思路,展望了今后的研究趋势。关键词测验安全;SH法;项目合格方法;多重最大曝光率法;a分层法。分类号B8411CAT中测验安全控制的研究背景1.1CAT在教育与心理测验实践中的应用计算机自适应测验(ComputerizedAdaptiveTest,CAT)是现代测量理论与计算机技术相结合的产物。与传统的纸笔测验相比,CAT具有诸多优点,例如:它能够根据被试能力水平选择相适应难度的试题,进行施测;不同的测验成绩具有可比性;不需要安排在固定的时间、固定的地点;能够实时评分等等,使得国内外学者对CAT的理论研究和应用研究越来越多。美国的许多大型考试,如GRE(研究生入学考试)、TOFEL、CGFNS(护士资格考试)、SAT(学术能力测验)、GMAT(美国商学院入学考试)、ASVAB(美国军队职业能力倾向测验)等都使用了CAT的形式;国内的一些考试也采用CAT形式,比如全国大学英语四、六级考试(试用阶段)、台湾初中升高中的基础知识测试(简称“基测”)等等。1.2CAT的选题策略及由此产生的项目曝光率问题由于CAT根据被试能力水平选择能提供昀大信息量的试题,因此一些测量性能优良的试题往往会被优先选择。对于三参数Logistic模型来收稿日期:2010-03-28*广东省自然科学基金(9151063101000002)、教育部人文社科基地项目基金(2009JJDXLX006)资助。通讯作者:张敏强,E-mail:zhangmq1117@yahoo.com.cn说,项目的信息函数是:221.7()1.7()2(1.7)(1)()[][1]iiiiiiiababiacIceeθθθ−−−−=++(1)其中a、b、c分别是区分度参数、难度参数、伪机遇参数。由公式1可知,项目的a参数越大、c参数越小、()ibθ−越小,则越能够提供更大的信息量。IRT中定义测量误差为测验信息量的平方根的倒数(漆书青,戴海琦,丁树良,2002),即:()1()iiSEIθθ=∑(2)由公式2可知,测验信息量越大,对特质点ˆθ的估计标准误就越小,此时CAT能得到昀大的精确性。因此,CAT的选题策略往往是昀大项目信息量法或其变式。基于昀大项目信息量的选题,必然使高a参数、低c参数的项目选中的几率非常大;反之,则选中几率就低,甚至为零,这就导致了题库曝光的程度极不均衡。试题曝光率问题在昀早的CAT测验ASVAB-CAT就进行了探讨,并使用了试题曝光率控制方法(Sands,Waters,&McBride,1997)。1.3CAT在实践应用中的试题泄露问题由于CAT不像纸笔测验那样,安排在固定的时间、地点考试,而是一年中反复举行多次,所以已经参加过考试的考生就有可能将试题泄露-1340-心理科学进展2010年给将要参加考试的朋友,这种考生之间的题目分享行为会导致得到试题的考生分数偏高。而更为严重的是有组织的盗题行为(organizeditemtheft),这会对题库造成巨大的伤害。在CAT的历史上曾经出现两次较大的盗题事件,一次是1994年Kaplan教育中心的盗题事件(张华华,程莹,2005a),另外一次是亚洲非法网站公布GRE真题事件,这两次事件都使得ETS公司被迫暂时放弃机考,即计算机自适应考试形式,改为传统的纸笔测验形式。而自2002年8月7日,ETS终止了在中国内地、香港、台湾地区和韩国的CAT-GRE之后,至今尚未恢复机考形式,给这些地区的考生造成了极大的不便与困扰。CAT是一种新型的测验形式,是考试方式的一次伟大变革。如果仅仅因为测验安全问题而被迫暂时放弃CAT考试形式是非常可惜的,但是题库的容量是有限的,而题库又必须高频地运行,测验安全控制问题就变得极为迫切。许多研究者都已经从多个角度与思路来探讨和研究测验安全问题。2测验安全控制方法及其发展评述2.1各种控制测验安全方法的评述在CAT测验发展过程中,研究者已提出了多种测验安全控制方法,本文将这些方法归纳概括,详细介绍其中具有代表性的四种方法:(1)SH条件概率法及其变式;(2)项目合格方法;(3)多重昀大曝光率法;(4)a分层法及其变式。下面分别从它们的基本思想、方法与步骤、优缺点及其发展趋势进行论述。2.1.1SH条件概率法及其变式1985年,Sympson和Hetter昀早提出了控制曝光率的条件概率法(简称SH法),它是一种利用条件概率对项目曝光率进行控制的方法,其根本思想就是在项目的选择和昀终抽取之间,加设一个“过滤器”。假定某一项目已经被选择,那么要不要安排这个项目给被试则取决于该项目的曝光参数()iiPAS,对于比较容易安排给被试的项目,其曝光控制参数可以设为一个合适的值,使这些项目的昀大曝光率不能超过某一个预设值maxr,而对于那些很少被选择的项目,他们的项目曝光参数可以昀高设为1,以增加这个项目的曝光率。具体说,在SH方法中要首先定义两个事件:iS:项目i被选择iA:项目i被安排给被试项目i只有先被选择才有可能安排给被试,因此对于所有的项目i来说,iS这个集合包含iA这个集合,即iiAS⊂。对于给定的能力值为θ的被试,项目i安排给被试的概率是:()()()iiiiPAPASPS=(3)公式3中,()iPS的值与选题策略、题库中的项目、被试总体特质水平分布有关,一旦这些因素确定,()iPS值就是确定的,那么要使max()iPAr≤,则只需要确定()iiPAS值即可。在SH法中,条件概率值()iiPAS需要经过多次模拟仿真实验得到。如果1,2,...t=表示模拟的次数,那么在SH方法中,随着测验的进行,其条件概率的调试遵照下面的公式:max(1)maxmax1()()()()()ttiiitttiiiiifPSrPASrPASPAifPSr+⎧≤⎪=⎨⎪⎩(4)SH法是昀早提出的使用条件概率控制曝光率的方法,此种方法的提出具有开创性的意义,为后人研究曝光率控制方法提供了思路。但是正如vanderLinden(2003),Barrada,Olea和Ponsoda(2007)指出的一样,SH法作为一个先导性方法具有其一些缺点:首先,它只关注曝光率过高项目,未关注低曝光率或零曝光率的项目,所以虽然能够降低原本曝光率过高的项目的抽取概率,却不能提高那些曝光率过低或从未被抽取的项目的抽取概率,所以题库的利用率并未得到显著提高;其次,SH法与昀大信息量法同时使用时,测量的精度不能保证;第三,确定曝光参数值时,要通过多次模拟仿真试验,测验条件稍有改变,就须重新进行模拟试验,这个模拟过程非常耗时;第四,曝光参数的模拟依赖于被试能力分布,模拟曝光参数的被试分布要与实际参加测试的被试分布相符,否则其得到的曝光参数不能保证所有项目的曝光率低于maxr,而这个条件往往难以满第18卷第8期计算机自适应测验中测验安全控制方法评述-1341-足;另外,曝光参数在模拟过程中的收敛问题也困扰着研究者。之后的十几年间,围绕这种方法展开了大量的研究,很多专家学者提出了SH方法的一些变式,如Davey和Parshall(1995)提出的DP法,Stocking和Lewis(1995,1998)提出的非条件化多项式法(unconditionalmultinomial,简称SL法),以及Stocking和Lewis(1998)提出条件化的多项式法(conditionalmultinomial,简称SLC法)。这些研究中模拟曝光控制参数时,设定一定的条件,使得曝光控制参数()iiPAS的计算更快也更有效,在一定程度上改善了SH方法。另外,Revuelta和Ponsoda(1998)提出了限制方法(restrictedmethod,简称RT法),此法遵循了SH法的思想,但另辟蹊径,提出在题库运行中(onthefly)自动调试曝光参数为0或1,即若项目i在前j个被试上的曝光率大于等于maxr时,则将1jk+值设为0,反之则为1,具体公式为:(1...)(1)max(1...)max1()0()jjijiifPArkifPAr+⎧⎪=⎨≥⎪⎩(5)这种方法有它独特的贡献,为以后研究项目曝光率方法提供了新的思路。2.1.2项目合格方法vanderLinden和Veldkamp(2004,2007)提出了项目合格方法(itemeligibilitymethod,简称IE法),这种方法认为项目曝光的控制不是在项目选择之后,而是在被试参加测试之前。也就是说,不是要决定选择的项目是否安排给被试,而是在项目选择之前就决定题库中的哪些题目对于被试来说是合格的,如果项目是合格的,那它就留在子题库中(或者叫做影子题库),否则就从子题库中移除。这个方法实施的关键是将能力分为不同的水平(abilitylevel),1,...,kkKθ=,在被试参加测试之前就确定了项目对能力水平kθ的合格(不合格)概率,每个能力水平kθ对应一个子题库,在测试过程中,IE法只需根据被试当前能力估计值进入不同的子题库中选题。对照SH法来看,要实施IE法首先要定义两个事件:iE:项目i是合格的iA:项目i被安排给被试如果项目i是合格的,它就保存在对于被试j合格的试题的子题库中,否则就移出这个题库。类似地:()()()iiiiPAPAEPE=(6)但是与SH方法不同的是,IE法不需要用多次模拟仿真实验计算控制参数,而是吸收了RT法的思想,在题库运行中(onthefly)自动控制对项目合格的被试的概率,这个概率是()jiPE。()jiPE值在题库运行中根据以下公式调试:1..max1max1..1..max1()()()()()()()jjjiiijjjjiiiiifPAPErPErPEPAifPAPEr+⎧≤⎪=⎨⎪⎩(7)其中1()jiPE+是项目i对1j+个被试合格的概率,1..()jiPA是项目i安排给前j个被试的比例。IE法的优点有:(1)不需要迭代模拟过程去确定曝光控制参数;(2)曝光控制参数根据每个被试调试。但是此法也有其局限性:对测验精度、题库安全、题库利用率等的控制效果不明显;只能降低过度曝光项目的曝光率,并不能提高低曝光率项目的曝光率。2.1.3多重最大曝光率法Barrada,Veldkamp和Olea(2009)提出了多重昀大曝光率法(multiplemaximumexposureratemethod,即为multiple-maxr,简称MRM法),此法在测验中的每一个项目位置(itemposition,若一位被试在某次考试中作答Q个项目,那么就有Q个项目位置)上都设置一个昀大曝光率,其方法与原理如下:它的主要目标与其他所有控制项目曝光率的方法一样,就是使所有项目的曝光率低于一个预设值,即为:max,1...1...()iqqPAr≤(8)其中max1...qr为q位置上项目i的昀大曝光率,,1...()iqPA是前q位置中项目i的曝光率。max1...qr要满足以下三个限制:maxmax1...11...qqrr+(9)max1...qrqn≥(10)max1...1Qr≤(11)由式9、10、11可以看出,随着项目位置q增大,此位置所允许的昀大曝光率也逐渐增大,也-1342-心理科学进展2010年就是说测验中第一个位置上的
本文标题:计算机自适应测验中测验安全控制方法评述∑
链接地址:https://www.777doc.com/doc-1269277 .html