您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > Rasch 的简单介绍
Rasch模型的简介制作人:杨卫敏一、Rasch的由来二、Rasch的理论基础及特点三、Rasch模型与二参数和三参数的比较四、Rasch的应用一、Rasch的由来CTTVSIRT1、CTT求得的测验统计量都是依赖于样本的,即会有样本依赖现象;IRT的项目与特质参数具有不变性2、在CTT中,被试特质和项目难度被定义在毫不相干的两个维度上,不能相互比较;IRT则定义在同一度量系统上3、在CTT指导下的测验编制策略单一;而IRT提出了测验编制的指导原则。4、CTT中,测验统计量(难度、区分度)是分别求取分别应用的,而且其值是笼统的就全组被试来说的一种“平均”值;IRT则定义了项目与测验信息函数。5、在CTT中,处于中心地位的基本概念——信度,由于建立在平行观念上,显得含糊而且不确切,据此求得的测验精度,常常是低限估计或偏差不明的估计CTTIRT:视角的转换外在观测代表潜在特质外在表现推测潜在特质测验水平项目水平潜在特质与观测之间的关系:线性非线性项目反应理论也称项目特征曲线或潜在特质理论,它是依据一定的数学模型,用项目特征参数估计潜在特质的一种测量理论。该理论中最重要的两个基本概念是“潜在特质”和“项目特征曲线”。潜在特质(LatentTrait):心理学上把制约人的行为的心理特征称为心理特质,又称潜在特质,如在认知测量中,潜在特质通常被称为被试能力,具有间接测量性。对于人的某一行为起制约作用的若干潜在特质的集合称为潜在特质空间,在IRT中,一般限定为单维的,要求设定的特质空间必须是全特质的空间。IRT的简单介绍项目特征曲线依据经验,一个好的测验的试题正确作答的概率与被试总分之间应该呈正相关,那么这就要求项目特征曲线的形态特点是:人的潜在特质应该定义在正负无穷的区域内的;被试在试题上正确作答的概率,记为P(θ),无论其处于什么特质水平,取值都在[0,1]区间之内;在较好的测验中,被试正确作答的概率会随被试特质水平的提高而提高项目特征曲线项目反应模型的特征模型的假设:被试在一个测验上的行为完全依据被试在潜在特质空间各特质分量表上的地位来解释和预测,与其他任何因素无关;模型能揭示被试行为与相关心理特质之间的真实关系;模型应该能够提供测验被试估计特质分数的方法;被试特质分数必须由且也只能由被试在一组测验项目上的行为估计;项目反应模型必须具有自变量取值在正负无穷范围和因变量的值域在[0,1]区间单调递增。(单维的项目反应模型)1952年洛德(Lord)在其博士论文《关于测验分数的一个理论》中,第一次对项目反应理论(ItemResponseTheory,IRT)作了系统的阐述(当时他称其为项目特征曲线理论,后改名为项目反应理论)。通常将此看作是项目反应理论诞生的标志。于此同时,洛德提出了IRT中的第一个模型——正态肩型曲线模型,模型函数:IRT的模型Rasch模型Rasch模型(Rasch,1960)是由丹麦数学家和统计学家GeorgRasch(1901~1980)基于项目反应模型提出的一个潜在特质模型最早的拉希模型实际上包括拉希在20世纪50年代所创建的三个项目反应模型:泊松模型、测验项目的结构模型、拉希模型在Rasch模型中,个体的能力题目的难度以及个体给出正确答案的可能性之间的关系可以由方程来表达。既然Pmi表示的答对题目的概率,那么取值范围就是[0,1]。逻辑斯蒂克模型模型定义:c不会随着能力水平的变化而变化理论上,实际上,是可接受的此时,难度的定义发生变化作为一种潜在特质模型,Rasch模型通过个体在题目上的表现(通常表示为原始分数)来测量不可直接观察的、潜在的变量。根据Rasch模型原理,特定的个体对特定的题目作出特定反应的概率可以用个体能力与该题目难度的一个简单函数来表示。个体回答某一题目正确与否完全取决于个体能力和题目难度之间的比较。Rasch的理论基础二、Rasch简介Rasch模型是一个理想化的数学模型。它要求所收集的实证数据必须满足事先规定的标准和结构,才能实现客观测量。Wright和Stone(1979)指出,Rasch模型对于客观测量有两个要求,即:(1)对任何题目,能力高的个体应该比能力低的个体有更大可能作出正确回答;(2)任何个体在容易题目上的表现应该始终好过在困难题目上的表现。Rasch模型的假设(1)单维性假设,即测验中的每一个项目都测量到同一种共同的潜在特质;(2)局部独立性假设,即被试在每一个项目上的反应是独立的,在n项目中观察到的反应并不能对n+1个项目的反应提供附加的信息;(3)非速度测验假设,即测验的进行是在没有时间限制的条件下完成的,被试在项目反应上不理想,是由于能力不足引起的,而不是由于时间不够所致;(4)知道——正确假设,即被试知道某一项目的正确答案,他必然答对,换句话说,若答错某一项目,则他必然不知道答案。Rasch模式量尺的特点1、Rasch模式具有预测功能:Rasch模型对于客观测量的两个要求充分显示了测量数据必须适合模型,那么由模型去推测潜在特质就是比较精确的,即有一定的预测功能。2、Rasch模式中的量尺θm和δi可以避开古典测量理论中样本依赖的情况,属于客观测量(objectivemeasurement)(通过公式证明其特点——客观测量)1.对任何题目而言,能力越高,答对的机率就越高。当能力趋近无限大时,答对机率趋近1。当能力趋近无限小时,答对机率趋近0。也就是說,这些试题特征曲线是单调递增加(monotonicallyincreasing)2.对任何受试者而言,题目越难,答对的机率就越低。例如对所有的受试者而言,答对第1题的机率,永远都大于答对第2题,而它也永远大于答对第3题的机率。Rasch模式的量尺θ和δ可以分离,因此可以测验独立和样本独立。G.Rasch本人称这种参数分离(parameterseparation)的特性为特定客观性(specificobjectivity)量尺具有比率或等距的特性。Rasch模型的主要特点1、个体和题目共用一把尺(logit量尺)Rasch模型通过对数转换Rasch模型通过对数转换,将个体和题目在同一单维度尺上进行标定(Wright&Masters,1982)。基于各自在此单维度连续体上的位置,个体与个体之间、题目与题目之间、个体与题目之间可以方便地进行直接比较。2、数据的线性特质Rasch模型可以将非线性数据转换成为具有等距意义(对于所测量特质而言)的“logitscale”数据,从而使客观的测量成为可能。3、参数分离Wright和Stone(1979)指出了客观测量两个相辅相成的要求。一个是题目难度的标定必须独立于被试样本的分布,另一个要求是对个体能力的测量必须独立于题目的难度分布。此一特点称为“参数分离”或“参数恒定”由前面的公式推导可知,正确反应的概率只由个体的能力(θm)和题目的难度(δi)所决定。这意味着Rasch模型所提供的个体能力和题目难度参数,是完全独立样本分布或题目难度分布的。因此,Rasch模型符合客观测量对于参数分离的要求。Rasch模型拟合度Rasch模型区别于IRT模型或其他统计方法的重要一点就是Rasch模型要求所收集的数据必须符合模型的先验要求。运行Rasch分析的计算机程序(例如,WINSTEPS,ConQuest)提供两种形式的卡方拟合指标:OutfitMeanSquare(OutfitMNSQ)和InfitMeanSquare(InfitMNSQ)。这些拟合指标都是由残差计算而来。OutfitMNSQ是残差的均方。InfitMNSQ则是加权(以方差为加权系数)后的残差均方。OutfitMNSQ对极端值(异常数据)比较敏感,InfitMNSQ对题目难度与个体能力水平相当的数据较为敏感。OutfitMNSQ和InfitMNSQ的取值范围介于0到正无穷大。理想值为1,意味着实际数据完全与Rasch模型相拟合。大于1(underfit)表示实证数据的变异数多于Rasch模型的预期;小于1(overfit)表示实证数据的变异数少于Rasch模型的预期。从测量的角度来看,underfit(大于1)的数据对测量客观性的负面影响要大过overfit(低于1)的数据。InfitMNSQ和OutfitMNSQ可接受的取值范围在很大程度上取决于研究目的。在Rasch分析中对于拟合指标的使用必须谨慎。Wright和Panchapakesan(1969)指出,在测验发展过程中,简单地删除拟合指标不好的题目并非值得提倡的做法。测验设计者应该仔细审查这些拟合指标不好的题目,找出可能对其产生影响的其他因素,如区分度和猜测效应的影响。Bond和Fox(2007)也建议利用拟合度指标来查找表现异常的题目和个体,而不是将它们作为决定是否删除某个题目的简单标准。Smith(2002)指出,应该把实证数据对测量模型的拟合程度看作是一个连续体,而不是一个简单是或否的问题。换句话说,“拟合”与“不拟合”之间并没有森然的壁垒,应该根据不同情况选择合适的标准。Rasch模型的发展趋势1、Rasch模型的一个特点就是它完全是根据被试能力水平与项目难度关系而导出的正确作答概率公式,并没有借助任何现有的数学函数式。因此Rasch模型在实现测量的客观性上实现了很大的突破。2、Rasch模型产生半个多世纪以来,仍由旺盛的生命力。发展之一:多维度Rasch模型(MultidimensionalRaschModel)。多维度Rasch模型在某种程度上解决了单维度模型分析多维度测验数据时遇到的信、效度问题(Rost&Carstensen,2002;Yao&Schwarz,2006),也使测验在涵盖较为广阔范围内容的同时,也有较高的测验精确度(Chengetal.,2009),从而极大地延伸了Rasch模型的应用空间和前景;3、测验的等值和链接(Testequatingandlinking)是Rasch应用的另一个热点研究领域;测验的等值与链接是指将不同测验中取得的分数转化为可以互相替换或比较的分数的统计过程。等值主要处理内容相同而难度不同的测验,而链接则用来处理内容和难度都不相同的测验(Kolen&Brennan,2004)。越来越多的研究着眼于运用Rasch模型建立一把垂直量尺。4、基于Rasch模型的计算机自适应性考试(ComputerAdaptiveTesting,CAT)已成为当今教育测量研究与实;践的一个重要发展方向;5、对于Rasch模型在实现客观测量中的作用,除了持续不断的理论探讨之外,也越来越多地得到了实际应用的佐证。Lexile系统(Stenner,Sanford,&Burdick,2007)便是其中较为成功的一个范例。Lexile是一个英文阅读评估系统,其基础是基于Rasch模型发展而来的针对个体阅读能力和文章阅读难度的Lexile量尺。这把量尺有固定的原点和相等的测量单位,可以提供关于个体英文阅读能力和英文阅读材料(包括段落、文章、甚至整本书)的难度水平的客观信息。利用这些信息,可以将个体的阅读能力与阅读材料的难度水平进行匹配,从而更好地促进阅读能力的发展。Lexile系统现阶段主要还是应用于以英文为母语的群体中,但据笔者所了解的情况,针对中文阅读的Lexile系统也正在发展当中。三、Rasch与二参数和三参数的比较模式里的量尺Rasch模式中,测量是客观测量,量尺是等距、等比得的。真正实现了对同一被试,不管题目难度是多少,这条线是唯一的,同理,同一个题目,不管受试者的能力是多少,这条线也是唯一的,受试者能力、试题答对概率关系(试题特征曲线)在Rasch中,把多个题目的特征曲线连在一起,这两条线并不交叉,如果第2题比第一题难,那么对能力高的被试者如此,对能力低得受试者也是如此,可见,rasch模式符合特征曲线的第二个标准。也就是说,题目是难是易,是独立的,与受试者的能力高低无关。Rasch模式的试题特征曲线在Rasch模式里,題目只有一個参数,难度δ。二参数中多了一
本文标题:Rasch 的简单介绍
链接地址:https://www.777doc.com/doc-3211764 .html