您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第二章 教育测量的质量指标1(信度)
第二章教育测量的质量指标信度·效度·难度·区分度第二章教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度主要对整个测量而言。效度难度主要对测量的项目而言。区分度第一节信度一、信度的概念二、信度系数的类型三、信度对于教育测量的意义四、提高信度的方法一、信度的概念信度(reliability):指的是测量结果的稳定性和可靠的程度,亦即测量的结果是否真实、客观地反映了考生的实际水平,可记为rxx。具体而言,可以从以下三方面来理解测量的信度:(一)信度指实测值和真值相差的程度x=T+E(公式1-1)x表示实测值,T表示真值(是未知的,可以把多次测量的实测值的平均值作为真值的近似值),E表示误差。E=x-T(公式1-2)(一)信度指实测值和真值相差的程度1、试比较以下两次测量结果(只进行一次)的信度:用尺子量100cm高的一个儿童,得到1cm的绝对误差;量185cm高的一位运动员,也得得到1cm的绝对误差。要比较两种测量结果的信度,一定要看误差分数(E)对于真分数(T)所占的百分数是多少。这个百分数表示该实得分数(x)的相对误差。其计算式如下:相对误差=E/T×100%公式(1-3)把上述两次测量(设为甲和乙)和绝对误差分数和真分数代入上式,得:相对误差(甲)=1/100×100%=1%相对误差(乙)=1/185×100%=0.54%据此,度量乙的信度要比度量甲的信度高。最大绝对误差=E/x×100%公式(1-4)2、怎样估计对一组人或一个人测量多次的实测值与真值(真分数)的差异程度呢?判别两组数据谁好谁差,不能只靠对平均数的统计和比较,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响,我们借鉴研究加权平均数的方法,选用各个偏差的平方的平均数,来描述一组数据偏离其平均数的大小,这就是方差。根据假设,实得分数的方差应等于真分数的方差加上测量误差的方差。即:公式(1-5)2E2T2xσσσ2、怎样估计对一组人或一个人测量多次的实测值与真值(真分数)的差异程度呢?于是,信度(rxx)可定义为真分数的方差与实得分数方差的比率。即:公式(1-6)公式(1-7)可见,越小,测量的信度就越高。信度的取值范围为[0,1]。2x2E2x2E2xxxσσ1σσσr22xTxxr2Eσ例:对5个人的某种智力因素的测验结果如表1-1,试估计测量的信度。表1-1测量5个学生的某种分数学生真分数误差分数实得分数A18-216B9+110C15+217D21+122E12-210学生真分数误差分数实得分数A18-216B9+110C15+217D21+122E12-210平均数15015方差182.820.8并列入表内。和σ、σ分别计算σ的方差公式,N)x(x(1)按σ2x2E2T22=0.86520.82.8=1-σσ1- r7)代入公式(1若不知真分数方差,则=0.86520.818=σσ6)r 代入(17)计算r6)或(1(2)代入公式(12x2Exx2x2Txxxx统计量是指样本上的各种数字特征。(如样本平均数、标准差等);参数是总体上的各种数字特征(如总体平均数、标准差等)。在统计学中,统计量越接近参数,这个统计量的可靠性越高。而要知道统计量与参数的接近程度,可以对参数进行区间估计。(二)信度指统计量与参数之间的接近程度我们不妨将测量的平均值看做平均数抽样分布中的一个平均数,真值视为平均数抽样分布的总平均数(μ),这样一来,只要能估计出实得分数分布的标准差——测量的标准误,就可以利用区间估计的公式,算出实测值与真值的接近程度,从而计算出测量结果的信度。(二)信度指统计量与参数之间的接近程度)公式( -=) 公式(-= 918122E222E222x22TxxxxxxxxxExxxrrr例:根据对一组人(设n>30)进行某种智力因素测验的结果,计算出有关统计量如下,求真分数的置信区间(或真值在什么数值的范围内)。865.08.20152xxxrx 。的概率为区间包含真分数或真值答: )=( )(则)(间的概率; 求真分数在某一区计的公式,)根据总体均数区间估(=)(= 求测量的标准误;),式()将已知统计量代入公(解:95.027.1873.1195.027.1873.11P95.067.196.167.196.1P95.096.196.1P267.1865.018.20911EEEuuxuxxux(三)信度指两次重复测验或等值测验之间的关联程度统计学中估计事物或现象间数量变动的一致性,主要采用相关分析的方法,即计算出两种变量的相关系数(rxy)。在使用相关系数表示信度的高低时,相关系数可称为信度系数(coefficientofreliability)。它是对相同应试者的同一特性的两次测量分数的相关系数,是测量结果的一致性的指标。三、信度系数的类型(一)稳定性系数(二)等值性系数(三)内部一致性系数(四)论文式测验的信度系数(五)评分者信度(一)稳定性系数(coefficientofstability)又称重测信度,是指用同一量表对相同被试者(一组人)在不同时间测验两次的实得分数的相关系数。估计稳定性系数的基本程序:测验A1适当时距测验A2(一)稳定性系数相关系数可以用不同方法计算,这取决于数据的性质。最为普遍的是皮尔逊积差相关系数:)10-1(])([])([222221公式YYNXXNYxXYNrAAX为第一次测验的实得分数;Y为第一次测验的实得分数;N为应试者数.(一)稳定性系数用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?序号123456789101112X202021222323232425262627Y202121202323252526262729A1A2X2Y2XYXY010203040506070809101112202021222323232425262627202121202323252526262729400400441484529529529576625676676729400441441400529529625625676676729841400420441440529529625625650676702783ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420286691212280659412[286280642012])([])([22222221YYNXXNYxXYNrAA解:(1)把资料列表于后,计算出公式(1-10)所需的各种统计量:ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420(2)把所计算的统计量代入公式(1-10):采用重测法计算稳定系数时,要注意的问题:1、两次测验之间的时间间隔要适宜,尽可能在较短的时距内进行。2、两次测验试卷要等值,即在内容范围、题型、题数、难度、区分度等方面要基本相同。3、确定两测验是否等值,还要考察两次测绘结果的平均数与标准差。4、重测法适用于速度测验而不适用于难度测验。5、测试应注意提高被试者的积极性。(二)等值性系数(coefficientofequivalence)又名复本信度(alternate-formsreliability):是以两个等值(题型题数、难度、区分度相等)但具体内容不同的量表,在最短时距内,对相同应试者先后施测两次所获得的两组对应分数的相关系数。其模式是:11AB测验测验适当时距(二)等值性系数(coefficientofequivalence)以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212(二)等值性系数(coefficientofequivalence)优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。(二)等值性系数(coefficientofequivalence)缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。(三)内部一致性系数(internalconstancy)又叫同质性信度(homogeneityreliability)。是同一测验量表的两个部分(例如分为奇数题和偶数题,或者量表的前一半和后一半)得分的相关系数。估计方法有两种:1、分半法(Split-halfmethod):是将一次测验分成两个假定相等而独立的两部分来记分。通常是以题目的奇数为一组,偶数为一组,计算两级的相关系数,最后用斯皮尔曼-布朗公式校正,求得整个测验的信度系数。斯皮尔曼-布朗公式为:) 公式(11112xyxyttrrrrxy为两组测验分数的相关系数,rtt表示整个测验的信度系数。问题:为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加以校正?这是因为测验的长度(指量表中所包含的题目数)对信度的大小有一定的影响,测验越长,信度越高。而用分半法,实际上等于把整个测验长度减小了一半,所以按分成两半的资料求出的信度必然低于整个测验的信度。例:有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?得分被试奇数题总分偶数题总分XY010203040506070809103837384140363839403537373639393438393936方法:分半法得分被试奇数题总分偶数题总分X2Y2XYXY010203040506070809103837384140363839403537373639393438393936144413691444168116001296144415211600122513691269129615211521115614441521152112961406136913681599156012241444152115601260ΣX=382ΣY=374ΣX2=14624ΣY2=14014ΣXY=14311解:把有关统计量代入公式(1-10),求相关系数84.0)3741401410)(3821462410(374382143111022xyr用斯皮尔曼-布朗公式校正,91.084.0184.0212 xyxyttrrr经校正后的信度系数很大(0.91),说明整个测验的信度高。2、库德尔-理查森公式法(KuderRichardsonreliability)用此法只需测验一次,然后以各个问题的正确反应数为基础(此可视为各题难度的信息),或根据各人总分的平均数和标准差,计算信度系数。此公式有几个,其中常用的有rKR
本文标题:第二章 教育测量的质量指标1(信度)
链接地址:https://www.777doc.com/doc-442141 .html