您好,欢迎访问三七文档
第五章人事测评质量分析•一项测评是否可靠、可信?•一项测评是否准确、有用?•一项测评是否公正、公平?•一项测评是否经济、合理?本章教学内容:•5-1测量的信度–5-1-1信度及其影响因素–5-2-2信度的评估方法•5-2测量的效度–5-2-1效度及其影响因素–5-2-2效度的评估方法5-1测量的信度•信度是标准化人事测量的基本要求之一,如果测量工具的信度不理想,测量结果就无法被认为能代表应试者的一致、稳定和可靠的行为表现,就可能误导对应试者的评价。5-1-1信度及其影响因素5-2-2信度的评估方法5-1-1信度及其影响因素•如果我们用一个游标卡尺来测量一个钢管的外直径,每次测量时都难免会有一定的误差。•首先,游标卡尺作为一种测量工具是有一定精度限制的,也就是说,测量工具本身存在误差。当然这种误差是必然存在的,而且误差是在一定范围中有规律的变动的,这种误差在测量工作中被称之为系统误差(systematicerror)。•其次,我们每一次测量都可能出现操作上的差异,或者由于不可预见的外界因素的影响,产生测量误差。这些误差是很难控制的,而且无规律可循,有时大有时小,这种误差被称为随机误差(randomerror)。•前者在一定程度上可以控制,而后者很难控制.1、信度的概念2、信度的计算3、信度的作用4、信度的影响因素1、信度的概念•信度(reliability)信度是标示测验一致性高低的统计指标。主要指测量结果的可靠性或一致性,可以定义为测验结果不受测验情境或测验过程中无关变量影响的程度。2信度的计算:信度系数•信度指标的一般公式:测验分数=真实分数+测量误差或者:X=T+e•信度的高低通常以相关系数表示,称为信度系数(reliabilitycoefficient)。信度系数一般是同一样本所得的两组资料的相关,因此有:测验分数方差=真实分数方差+误差分数方差X2=T2+e2•信度系数:rxx=T2/X2=T2/(T2+e2)•信度系数即是真实分数方差(变异数)与测验分数总方差(变异数)之比。3、信度的作用•测验信度要能够区分出:导致一致性的因素:个体稳定的特性(测量对象)导致不一致性的因素:可能影响测验,但又与测验对象没有关系的个体和环境的特性•在人事测量中,对信度系数进行确定通常有以下作用:–解释真实分数与实得分数之间的相关–说明可以接受的信度水平解释真实分数与实得分数之间的相关•信度可以解释为总的方差(标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。•例如:当rxx=0.90时,我们可以说,实得分数中有90%的方差是来自真实分数的变化,仅有10%是来自测量的误差。•信度系数的分布是从0.00-1.00的正数范围,代表了从缺乏信度到完全可信的所有状况。•思考:如果rxx=1.00表示什么?rxx=0.00表示什么?说明可以接受的信度水平•信度的理想水平是1.00,但是实际上是达不到的。•一般能力与成就测验的信度系数在0.90以上;人格、兴趣等测验的信度通常在0.80-0.85之间。•一般来说,当rxx0.70时,不能用测验对个人进行评价,也不能在团体间作比较;当rxx0.70时,可用于团体间比较;当rxx0.85时,可用于鉴别个人。几种心理测验的信度系数测验类型信度低中高成套成就测验0.660.920.98学术能力测验0.560.900.97成套倾向性测验0.260.880.96客观人格测验0.460.850.97兴趣问卷0.420.840.93态度量表0.470.790.984、信度的影响因素•受试者个体持久而泛化的特性:–进行测验的一般技能水平–理解测验指示语的一般能力水平–进行类似测验的一般的人格特质•受试者个体持久而特殊的特性:–进行某项测验(或其形式)需要的特殊的技能、能力和特质;以及稳定的反映定势;–对某个测验项目内容的熟悉程度•受试者个体短时而泛化的特性:–健康、疲劳、动机、情绪状态、测验自如性;温度、光亮、通风等测验外部条件•受试者个体短时而特殊的特性–对特殊测验的理解,测验所需要的特殊技巧;为做测验所进行的练习;–对测验项目内容的注意、记忆等的飘忽不定。•影响测验过程和解释的外部因素系统改变–测验条件;对测验的各种限制;干扰程度;指示语的清晰度;–受试者在个性、性别、种族等与测验主试的交互作用;–对测验结果的不一致或有偏差的评判。•无法解释的变化(随机因素)–猜测、运气,以及暂时的干扰4、信度的影响因素5-2-2信度的评估方法•针对不同的误差来源,信度可以有不同的确定方法。信度系数类型误差来源重测信度时间取样复本信度(连续施测)内容取样重测复本信度时间和内容取样分半信度内容取样同质性信度内容的异质性评分者信度评分者间差异1、重测信度(test-retestreliability)•又称为稳定性系数,是采用重测法计算信度的方法,即用同一测验在不同时间对同一对象施测两次,两次测量分数的相关系数即为重测系数。•人事测量所测查的特质中,有相当多的内容具有一定的稳定性,如人格、能力倾向等,因此,对于这些内容而言,重测信度对于衡量测量工具的质量是很重要的指标。•例如:如果用一个智力测验测量某人的智力,第一天测量得到100分,表示智力中等;第二天测量却变成了150分,这个分数意味着这个人在一夜之间变成了天才,如果没有特殊原因,这种事绝对是小概率事件,不太可能发生,可信度极低。不能用这个结果帮助决策。•在日常生活中,你也许常常到市场上去买东西。如果你买了5斤瘦肉后觉得比上次少了点,没有那么重,那么你可以自己再用称称一下。如果也是5斤,那么你可能就会觉得确实有5斤。这是因为两次称得的结果完全一致,变异度为0。•人的素质测评没有这么简单,因为素质本身又是无法精确定义,因而我们常常把对个体测评结果的准确性检验,置于群体测评结果的相互关系之中,转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后,其顺序位置关系变异很小时,则说明测评结果比较准确。•例如:在技能测评中A分数88,在全体被测者中排名第一。这是否可靠可信?我们可以再测一次,结果A分数95,还是排名第一,而且其他被测的位置顺序变化很小。这时我们可以说第一次的技能测评结果是可靠的(信度高)。重测信度的考察对象•重测信度所考察的误差来源是时间的变化所带来的随机影响(气候、噪音的干扰、疾病、疲劳、情绪的影响等),根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度。重测信度表示测量能够应用于不同时间的程度,信度越高说明测量结果受环境中日常的随机因素影响越小,测量结果越稳定、可靠。•评估重测信度时,要注意重测间隔的时间,时间太短被试对测试题记忆犹新,必然会造成假性相关;时间太长,测验结果又会受应试者的身心特质改变的影响,使相关系数降低。间隔时间的长短必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化,则重测间隔时间应该长一些。例如人格测验一般间隔2-6个月比较合适。应用重测信度应注意:•重测信度一般只反映由随机因素导致的变化,而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高,不是重测信度考察的因素。这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。•不同行为受随即误差影响不同。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。•只有不大容易受重复影响的测验,如感觉-运动测验或人格测验,才比较适合用重测法计算信度系数。因为被测者一旦知道答案就不容易忘记,从而造成假性相关。2、复本信度(alternative-formreliability)•又称为等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一对象,然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。•复本信度考虑的是内容取样误差的影响问题,计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。•例如同样是测量数学运算能力的测验,如果一个测验复本侧重于考核加减法的运算,而另一个复本侧重乘除法的运算,两者之间的相关必定不会抬高,即复本信度低,说明必定有一项测验复本的取样有问题。•优点:–能够避免重测信度的一些问题,如记忆效果、练习效应等;–适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响;–减少了辅导或作弊的可能性。•缺点:–如果测量的行为受练习的影响,复本信度只能减少而不能消除这种影响;–有些测验的性质会由于重复测量而发生改变,例如某些问题解决型的测验,如果掌握了解题原则就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强;–有些测验很难找到复本。3、一致性信度consistencyreliability•一致性信度又称为同质性信度,是指一个测评活分测评中各个题目所测内容的一致性。•同质性是保证测评只测量同一特质的必要条件。也就是说,评估一组测验题目内部一致性程度,对于确定测验题目是否测量了同一事物很重要。如果同质性差,则表示测评混淆了不同的测评内容,其结果就无从判断究竟是否反映了被测者的某一特质。•如果被测者在第一个项目上比其他人分数高,在第二个项目上又比其他人高,在第三个项目上也比其他人高……相反另一个人在第一个项目上比其他人分数低,在第二个项目上又比其他人分数低,在第三个项目上也比其他人分数低……那么毫无疑问,我们会认为测评结果比较可靠。一致性信度的作用•重测信度和复本信度分别注重考虑测量跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度用内部一致性系数表示,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。•同质性的测验,其结果的解释较为明确。例如:在一个同质性的语言逻辑推理能力测验中,应试者的得分可以反映其语言逻辑推理能力的高低;而如果一个测验既包含有测查逻辑推理能力的试题,又含有测查数量分析能力的试题,那么在应试者得分低的情况下,就无法说明被测者到底哪种能力不足。一致性信度应用实例•例如:在人格测评中,乐观情绪特质和外向特质是两个容易混淆的内容,这就要求测评设计时能够找到相应的题目把二者区分开来。•再例如:在考察管理技能时,预测和决策、监督和控制等都是不太容易区分的,对题目设计的要求就相当高,否则就会把不同技能混淆,导致结论错误和用人失误。•在设计测评题目时,所有测评题目都要保证只测量一种特质或内容,如果需要在一个测评中测量不同内容,就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评,每个分测评量表只对一种人格特质进行测评。一致性信度的计算方法•分半信度——项目折半分析,是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半,并分别计算每位被测者在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半侧眼内容取样的一致性程度。•同质性信度——α系数分析,是指测验内部的各题目在多大程度上考察了同一内容,即所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。4、评分者信度(ratersreliability)•在有些测量情形中,评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情境模拟等,都依赖于评分者的判断,这种判断的主观性往往造成不同评分者的评分很不一致,因此有必要考虑评分者信度。•评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。评分者的评分越一致,评分者信度越高。(等级相关)信度小结:•各种信度评估的适用情景:–重测信度评估侧重考察测评跨时间的一致性和稳定性;–复本信度评估侧重考察测评跨形式的一致性和等值性;–内部一致性信度评
本文标题:人事测评质量分析
链接地址:https://www.777doc.com/doc-998866 .html