您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第二章 教育测量的质量指标2(效度)
第二章教育测量的质量指标第二节效度第二节效度一、效度的概念二、效度的统计学原理及其与信度的关系三、效度的估计四、提高效度的方法一、效度的概念•效度(Validity)是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。•第一,效度是一个相对的概念。–1.测量的效度始终是对一定的测量目的而言的。–2.测量的效度是相对于测量的结果而言的。•第二,一种测验的效度只是高或低的问题。•第三,在教育测量中,效度问题比在其他领域的测量中更为重要。一、效度的概念•这是因为:•⑴教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如语言或动作等)的测量,以间接认识其心理活动、心理特征或知识水平等。•⑵学生的心理活动、心理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。•⑶教育测量的对象不是物而是有主观能动性的人。人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。二、效度的统计学原理及其与信度的关系1、效度的统计学原理在实际测量中,影响效度的主要因素是系统误差。因而在讨论效度时,还必须把真分数方差分解为两个部分,一是潜在真分数方差(σV2),另一部分是系统误差分数方差(σI2),它与由随机误差引起的变异(σE2)不同。)22()12(2222222公式 因而, 公式 EIVxIVT 公式 即:)之比,)实得分数方差(潜在真分数方差(定义为所以可以将效度222222222222x2V)32(1)(xIxxxEIxEIxxVxyxyrrr2、效度与信度的关系σV2σI2σE2σV2σI2σE2σV2σI2σE2根据公式(2-2)和(2-3),可将效度与信度的关系图解于后:根据分析,可得结论如下:1)高信度是高效度的必要条件,而非充分条件。2)效度系数不会大于信度系数的平方根。可以用下式表示:) 公式(42xxxyrr高效度、高信度低效度、高信度低效度、低信度三、效度的估计•效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。•1974年美国心理学会发行的《教育和心理测量的标准》一书将效度分为三大类:内容效度、效标关联效度和结构效度。(一)内容效度(Contentvalidity)•又称合理效度或逻辑程度,是指测验内容或行为取样的代表性和适当程度;即测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。•估计内容效度的方法:估计内容效度的方法:(1)逻辑分析的方法。其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(2)统计分析法。从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。采用求统计量的公式进行计算,其公式有以下三种形式:内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。(二)效标关联效度•又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验效度的高低的。•效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量。它是用来检验测验效度的外在的、客观的标准和尺度。•效标关联效度又可分为同时效度和预测效度。(用全国高考的成绩作为效标来检验高中毕业生会考的成绩,计算两者之间的相关系数就是会考的同时效度;而用大学一年级的成绩作为效标来检验高考的成绩,计算两者的相关系数就是高考的预测效度。)•估计效标关联效度可采用积差相关、二列相关或点二列相关、四格相关和多元相关系数等计算各种相关系数。1、用积差相关系数的方法估计效度•积差相关,是计算两个变量线性相关的一种方法,由英国统计学家皮尔逊提出,因此也称为皮尔逊(Pearson)相关。要使用积差相关必须同时具备如下几个条件:•①两个变量都是由测量获得的连续性数据,即等距或等比数据。•②两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称分布,当然样本并不一定要正态。•③必须是成对的数据,而且每对数据之间是相互独立的,即各自互不影响,本条件是难以检验的。•④两个变量之间呈线性关系。一般用描绘散点图的方式来观察,最好是先各自转化为Z分数,单位会统一些。例:某中学数学教研组的教师积多年的教学法经验,认为刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱。为了证明这个论点,他们让刚入高中的103名学生作10道题,测量其空间想像力。为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分,试卷暂不评阅。立体几何学完后,进行考试,按得分多少把成绩分为五等(A、B、C、D、E)分别得5、4、3、2、1分。这时才评阅入学时的试卷,统计出期末得5、4、3、2、1分者在入学测验中分别答对1道题至10道题的人数(见表2-1)。就现有资料,用什么方法可以判断教师们的意见是否正确?表2-1:(答对的题数)12345678910所评的等级ABCDE5432113105421688431245983111321111211解:(1)设期末考试的等第为y,空间想像力测验答对的题数为x,列出二重交叉次数分布表:X(答对的题数)12345678910Y所评的等级ABCDE543211310542168843124598311132111121125313296合计241014202017952103(2)用积差相关系数公式计算效度系数:验的得分和的题数与期末测是指刚入学测验中答对标准差。是期末测验各人得分的对题数的标准差,是刚入学的测验各题答人得分平均数,是期末测验中的人数的平均数,道题道题到是刚入学的测验中答对式中公式 fxySSyxssyxNfxyryxyx103101)42(/12.1/)(58.3103619232331425510394.1103/])55.510(2)55.52(4)55.51(2[55.5103210591034221101/)(22222NyyfSSyySxxNxxfSSyyxxx标准差。是期末测验各人得分的=)++++=(人得分平均数,是期末测验中=)++++=(道题的人数的平均数,道题到是刚入学的测验中答对=对题数的标准差,是刚入学的测验各题答式中预测效度,前者对后者有一定的学习成绩有较高的相关体几何间想像力测验成绩与立相关系数较大,表明空)3(699.012.194.158.355.5103/22032203)15(1)510(2)59(4)58(5)57(10)56(3)55(1xyrfxy二列相关•适用于两个变量就其实际含义而言是等距或等比数据,它们服从正态分布,其中一列人为地划分为两类。时的纵高。中从左到右概率值为指的是在整个正态曲线。-=比,的次数占总次数的百分是二分称名量表中一种量值的标准差。是该例连续变量全部变平均数。”相对应的连续变量的”或“是二分名称变量中“或公式pypqpSXXypqSXXrtqptqpb1015)-(2点二列相关•适用于一列数据为等距或等比且总体服从正态分布(实际上只需要单峰对称分布,如T分布),另一列变量是按事物的性质划分为两类的变量,也可以是一个双峰分布,人为划分为两类,如文盲与非文盲。这种相关系数多用于测验中评价题目的区分度。对选择题、判断题在整个测量中作用作出判断。•基本计算公式:。-=比,的次数占总次数的百分是二分称名量表中一种量值的标准差。是该例连续变量全部变平均数。”相对应的连续变量的”或“是二分名称变量中“或公式pqpSXXpqSXXrtqptqppb1016)-(2•例:有一位教师自编了一套测验题,用来预测学生一年后的某科成绩,自编测验按百分制评分,一年后考试评分只把学生分为及格者和不及格者。试就所获资料估计自编测验的预测效度。•解:1)把两次测验成绩成对排列:被试者1234567891011121314自编测验的成绩(X)6710204460436110262330183523一年后考试成绩(Y)111001101001112)计算出二列相关公式所需统计量:绩。不能用来预测学生的成极低,个测验结果的预测效度相关系数极小,说明这=-)代入公式计算得: 。-=比,的次数占总次数的百分是二分称名量表中一种=量值的标准差。 是该例连续变量全部变=++平均数。”相对应的连续变量的”或“是二分名称变量中“或公式0.00736.064.0125.1840.3367.33336.01,64.01491125.1840.335302310604467.33923351067016)-(2pbttqpqptqppbrpqppqpSSXXXXpqSXXr(三)结构效度(Constructvalidity)•结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度。它的目的在于从心理学的理论观点就测验的结果加以解释和探讨。•这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念、构想、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。•结构效度主要用于智力测验、人格测验等一些心理测验方面。•例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。(1)结构效度的特点•结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。•当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。(2)建立结构效度的步骤•A、提出理论假设;•B、根据假定结构拟定测题,编制测验;•C、以测验结果为根据来验证假设结构中的各种因素是否成立。(3)结构效度的估计•A、因素分析法•其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。•B、多元特质多重方法矩阵法•是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。•这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。四、提高效度的方法•(一)各种效度系数的要求•(二)影响效度的因素–测验的构成(要素)–测验实施方面(过程)–被试主观状态方面–估计效度所依循的效标–样本方面四、提高效度的方法•(三)提高效度的方法:1、控制系统误差2、精心编制量表3、妥善组织测验4、扩充样本的容量和代表性5、合理处理效度和信度的关系6、适当增加测验的长度表2.1测验长度与信度和效度的关系题数与原测验题数之比信度系数效度系数1020306012014048012361214480.3000.4620.5620.7200.8370.9110.9540.4000.4960.5480.6190.6680.6790.713第三节难度及其计算•一、难度的概念•难度是指测量试题的难易程度。•一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关。•这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。二、难度的计算•(一)计算难度的基本公式•1、客观题难度的计算NRp2、主观题难度的计算表示此题的满分。)题上的平均得分,表示所有考生在某一道 (KKXXpP表示难度指标,N表示参加考试的总人数,R表示答对某道客观题的
本文标题:第二章 教育测量的质量指标2(效度)
链接地址:https://www.777doc.com/doc-442142 .html