您好,欢迎访问三七文档
主讲:马晓辉所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(TrueScore)真分数。而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。经典测验理论——真分数理论由于有测量误差存在,所以,观察值并不等于所测特质的真实质,换句话说,观察分数中包含有真分数和误差分数。而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。所谓真分数就是一个测量工具在测量没有误差时,所得到的纯正值。这实际上是个循环定义,因为一个量具若测得真值,便没有误差。真分数的操作定义是,经过无数次测量所得的平均值。可见,真分数是一个在理论上构想出来的概念,在实际测量中是得不到的,因为一个测量工具无论多么精确,也会有误差,我们只能通过改进量具来接近真值,而不能完全得到它。把任何一个测验成绩都看做是真分数和测量误差的和,这是经典测量理论的基本思想X=T+E这里X为实得分数或观测分数,T是假设的真分数,E是测量误差。关于测量误差(E)有以下假设:1)如果对一个人测量无数次,其平均误差为0,即E=02)真分数和测量误差是相互独立的,即rTE=03)误差分数和实得分数的相关为0,即rEX=0在上述三个基本假设的基础上,真分数理论作出了如下两个重要推论:第一,真分数等于实得分数的平均数(T=E(X));第二,在一组测量分数中,实得分数的变异数(方差)等于真分数的变异数(方差)与误差分数的变异数(方差)之和。即(S2X=S2T+S2E)。经典测量理论在真分数理论假设的基石上构建起了它的理论大厦,主要包括信度、效度、项目分析、常模、标准化等基本概念。信度的定义信度又叫可靠性,指的是测量的一致性程度。一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致,否则便不可信。信度只受随机误差影响。随机误差越大,信度越低。因此,信度亦可视为测量结果受机遇影响的程度。系统误差产生恒定效应,不影响信度。信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可信的,信度最高。在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。关于信度定义的说明1)信度是测量工具所获的结果的可靠性,而非指工具本身。同一个测验会因测量对象的性质和测验时的情况不同导致结果有很大差异。2)每一个信度的估计值,仅指某一特定方面的一致性,而非泛指一般的一致性。测验分数可能在某一方面一致性很高,在其他方面一致性很不理想。3)信度的估计是完全采用统计方法的。要估计测验的信度,必须以所编制的测验对一组较具有代表性的样本实施一次或数次测验,然后求测验结果的一致性信度系数大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。对信度系数也要注意三点:1)在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。信度的种类与估计方法重测信度又称再测信度、稳定性系数,指的是用同一个测验对同一组被试施测两次所得结果的一致性程度。反应两次测验结果有无变动。大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。假设所测量的特性必须是稳定的被试遗忘与练习的效果基本上相同或相互抵消在两次施测的间隔时间内,被试的学习效果没有差别。复本信度又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。复本信度的缺点1、如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;2、如果第二个测验只是改变了题目的内容,已经掌握的解题原则可以很容易地迁移到同类问题;3、对于许多测验来说,建立复本是很困难的事。内部一致性信度重测信度和复本信度主要考察了测验跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度系数主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。分半信度反映测验项目内部一致性程度,即表示测验测量相同内容或特质的程度。具体分析是在测验后将测验项目分成相等的两组(两半),通常采用奇偶分组方法,即将测验题目按照序号的奇数和偶数分成两半,然后计算两项项目分之间的相关。相关越高表示信度高,或内部一致性程度高。分半信度实际上反映的只是两半测验项目之间的相关系数,由于在其他条件相同的情况下,测验越长,信度越高,因而分半法经常会低估信度,必须通过一些公式去加以修正,借以估计整个测验的信度。同质性信度同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,其测验为同质的。相反,即使所有题目看起来好像测量同一特质,但相关很低或为负相关时,其测验为异质的。此外,对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用若干个相对异质的分测验,并使每个分测验内部具有同质性,这样每个分测验就能用来预测异质效标的某一方面。评分者信度评分者信度用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。当多个评分者评定多个对象,并以等级法记分时,可采用特定公式去估计评分者信度。估计信度的方法远不止上面介绍的几种,实际上有多少误差的来源,便有多少估计信度的方法。所以,在考察测验的信度时,应根据情况采用不同的信度指标,原则上一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要有几种信度系数,这样我们就能把总分数的变异数分成不同的分支加以考察。影响信度的因素被试主试•试题数量•测验难度•同质性程度测验工具间隔时间信度多高是好的?一般情况下,标准化或学绩测验信度应在0.9以上人格测验的信度应该0.8以上教师自编学绩测验能达到0.6以上,就可以被认为是较高信度了低于0.6的信度估计一般被认为不可接受。效度要解决的问题测验测量的是什么?或者说,测验测到了它要测的东西吗?测验对它所测量的东西测量到什么程度?效度的定义效度是指一个测验或量表实际所能测出其所要测的心理特质的程度。一个测验的效度必须被反复验证,不断搜集、积累、整合效度资料。效度的种类内容效度指测验题目对有关内容或行为范围取样的适当性。例如,在成就测验中,测验题目是根据教学大纲和教材内容适当抽出的,内容效度就是判断测验题目(内容)是否符合它欲测的目标。确定内容效度的方法主要有两种:①专家判断即由有关专家对测验题目与原定内容范围的符合性作出判断;②统计分析克伦巴赫法:复本信度再测法:测验成绩的变化内容效度比:统计分析专家评定的一致性构念效度,也称结构效度,指测验分数能够说明心理学理论上的某种结构或特质的程度。在心理学上,所谓构念(construct)是指心理学理论所涉及的抽象而属假设性的概念、特质或变量,如智力、焦虑、机械能力倾向、成就动机等,通常采用某种操作性定义并用测验来测量。确定构念效度的逻辑和方法从某一构想的理论出发导出各项关于心理功能或行为的基本假设设计和编制测验然后由果求因,以相关、实验和因素分析等方法,审查测验结果是否符合心理学上的理论观点。构念效度的心理测量学证据内部一致性,测验的同质性指标说明项目在测量同一特质上是一致的与其他测验的相关,新测验与类似的旧测验(公认的权威)之间的相关发展变化,年龄效应、教育与训练效应因素分析,EFA和CFA效标关联效度指测验分数与效度标准的一致程度。效度标准简称效标,是足以反映测验所欲测量或预测的特质的独立量数,并作为估计效度的参照标准。之所以要以效标为参照,是因为心理特质无法直接测量,只能以某种能代表所要测量特质的外在表现作为替代。飞行员的工作表现、工人的工作绩效测验分数与效标的一致程度以二者的相关系数表示,这种相关系数称为效度系数。效度系数越大,测验的效度越高。由于用相关系数这种统计数值表示,这种效度又称统计效度。从操作上来讲,效标可以是多种事物,没有规定说一个效标应该由什么构成。测验分数、一个具体的行为、精神病学的诊断、培训的费用、缺勤率等效标的选取要满足几个条件相关性有效性无污染效标关联效度可分同时效度和预测效度。同时效度指测验分数与当前的效标之间的相关程度,通常与心理特性的评估和诊断有关,常用的效标资料包括在校学业成绩、教师评定的等级、临床检查、其他同性质测验的结果等;预测效度指测验分数与将来的效标之间的相关程度,它对人员的甄选、分类与安置工作等甚为重要,常用的效标资料包括专业训练的成绩和实际工作的成果等。运用追踪法对行为表现作长期观察、考核和记录,以累积所得的事实资料衡量测验结果对将来成就的预测性。三种效度策略的使用对一个具体的测验来讲,并不总是需要收集所有效度形式的证据。收集效度证据的恰当策略取决于测验的目的。内容效度最适合测量具体属性的测验,比如成就测验构念效度最适合测量抽象概念的测验,如自我效能感、心理资本等效标关联效度最适合用来预测结果的测验,如各种人事选拔测验影响效度的因素测验本身长度信度效标效标的选择效标的信度效标与测验之间的相关类型样本的代表性找到一篇教育或心理测验编制的论文介绍并评价其编制程序及各项指标也可以使用该测验的题目收集部分数据,进一步进行分析评述该测验字数3000字左右2020/8/3046
本文标题:第三讲-信度与效度
链接地址:https://www.777doc.com/doc-6862120 .html