您好,欢迎访问三七文档
信度和效度Thereliabilityandvalidity案例:•A应聘某公司的经理岗位,考官拿出一个企业忠诚度测验让他答卷,经评估后得出结论,A忠诚度不够。结果A不服,要求重新答一次,结果正好相反。•B学习成绩一直很差,他找老师咨询,老师找了一个智力测验让他做,结果还不错,智商有120,母亲觉得不可思议,这么高的智商为什么学习成绩那么差呢,于是她带着B去了一家咨询机构,那里的咨询师拿出了同样一个智力测验让B做,结果算出来智商只有88。一、信度的概念•这种稳定可以是在对同一测验而言,也可以是对平行测验而言。•信度反映的是消除随机误差的程度。•信度通常以相关系数计算,取值范围为[0,1]。信度(Reliability)即可靠性,是指根据测量工具所得到的测量结果的一致性或稳定性,反映客观事物被测特征真实程度的度量指标。二、信度的种类及计算信度主要分为四大类:•重测信度(Test-retestReliability)•复本信度(Alternate-formReliability)•内部一致性信度(InternalConsistencyReliability)•评分者信度(ScorerReliability)1.重测信度是指用同样的测量工具,对同一组被调查者间隔一定时间重复测试,两次测试结果的相关程度。重测信度可以通过两种途径进行考察:•计算两次测试结果的相关系数•对两次重复测试结果进行两个相关样本差异的统计检验由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难,仅适用于事实式调查。2.复本信度复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。3.内部一致性信度主要评价了测验各个部分之间是否测量了相同的心理特质,反映的是题目内容的抽样一致性程度。•分半信度(split-halfreliability)•库得─理查森信度(Kuder─Richardson)•Cronbach’sα信度系数(1)分半信度分半信度常用在不可能进行重复调查的情况下。其计算方法是将调查的条目分成两半,计算这两半测量结果的相关系数r,以此为标准来衡量整个量表的信度。计算二部分的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)。分半信度法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。(2)库得─理查森信度库德-理查森信度适用于计算“对或错”的是非题的同质性信度,其是计算所有可能的分半信度的平均数。最有代表性的计算公式是库德-理查森公式:为问卷测验总得分的方差,pi表示答对该题的人数占总答卷人数的比例,pi可视为该题的难度,qi=1-pi。式中n为问卷包含的题项总数.(3)Cronbach’sα信度系数α系数取值在0到1之间,α系数越高,信度越高,问卷的内部一致性越好。Cronbach’sα系数不仅适用于两级记分的问卷,还适用于多级计分的问卷。计算公式:其中,K为量表中题项的总数,为第i题得分的题内方差,为全部题项总得分的方差。α系数有以下性质:(1)α系数是所有可能的分半信度的平均值;(2)α系数是估计信度的最低限度;(3)当问卷计分为二分名义变量时,即答案为0或1,α系数与KR20值相同,即库德-理查森信度公式是克隆巴赫的α系数的一个特例。α系数评价的是量表中各题项得分间的一致性,属于内在一致性x信度系数。这种方法适用于态度、意见式问卷(量表)的信度分析。(4)评分者信度考察评分者信度的方法为,随机抽取相当份数的问卷,由两位评分者按记分规则分别给分;然后根据每份问卷的分数计算相关系数,就得到评分者信度。评分者信度也可以是一位评分者两次评分的相关系数。如果是多个评分者或一位评分者两次以上的评分,可采用肯德尔和谐系数和Kappa系数。肯德尔和谐系数用于等级资料,Kappa系数用于定性资料。三、影响信度的因素评分者测试时间被试主试测试环境测试工具信度案例:•美国杜克能源公司某蒸气站被12名黑人雇工告上了法庭,缘由是该公司把他们都当勤杂工使用,他们原本指望能被提升到像运煤工这样层次更高的岗位上,但公司说他们的智力测验分数不够,而该公司的14个黑人员工中有13个做勤杂工,诉讼的理由是智力测验有种族歧视。而公司说没有任何歧视,岗位安排完全根据测验结果来定,没有歧视黑人。•某大学学生期终考试后向校方提出质疑,说教授给出的考试范围是教科书中的1—10章,但考试内容却都集中于前三章,这样的考试无法检验真实的学习成绩,也就是考试并没有提供一个让我展现所学全部知识的机会。一、效度的定义效度(Validity)即有效性,它是指测量工具能够准确测量出所欲测量特性的程度,即测量到的是不是所要测量的特征。比如一项知识水平的测量测得的结果竟是逻辑能力,那么这种测量就完全没有效度。对于一个标准测验来说,效度比信度更为重要。•效度是针对测验结果的,“这个人格测验有效吗?”这样的问题。•效度是针对某种特定的测量目标或用途而言的。•效度只有程度上的差异。二、二、效度的分析方法由于“真实值”往往未知,所以对效度的评价常常不可能有绝对肯定的答案。尽管我们不可能证明效度,但是可以用指标来评价效度。一般来说,有四种类型的效度:•效标效度(criteriavalidity)•内容效度(contentvalidity)•构念效度(constructvalidity)•区分效度(discriminantvalidity)1.效标效度效标效度又称为标准效度,以相对准确的测量手段或指标的测量结果作为“金标准”,考察待评测量手段或指标的测量结果是否与其一致。例:用高考成绩预测大学生的学习成绩。通过分析题目对测量目标的内容领域的代表性,来证明测验的有效性。内容领域代表了一系列的行为,这些行为可以用于测量被试的具体特征。例:一个篮球中锋应具备的技能。2.内容效度内容效度评价主体:专家评价标准:考虑题目与测量目标和内容领域之间的逻辑关系和内在联系。是效度验证的一种途径。表面效度评价主体:受测者,外行评价标准:只考虑题目与测量目标之间表面形式上的直接关系。不能成为效度证据。比较常用的内容效度的评价方法有两种:一是专家法,即请有关专家对问卷题目与原来的内容范围是否符合进行分析,作出判断,看问卷题目是否较好地代表了原来的内容。二是统计分析法,即从同一内容总体中抽取两套问卷,分别对同一组答卷者进行测验,两种问卷的相关系数就可用来估计问卷的内容效度。3.构念效度测验并不总是用来预测,还可以从测验能够说明心理学上的概念或特质的程度来检验效度。构念效度就是指一个测验测到所要测量的理论结构或特质的程度。例:责任心包括条理性,美德,传统主义,自我控制,责任心和勤奋六个低阶成分,那么如果一个责任心测试测到了所有这六个特质,那么我们说,这个责任心测验具有结构效度。*构念:就是指研究学家为了解释一组相关的现象或行为而构造的观念。如智力、外向、抑郁、神经质等等。常用的确定构念效度的方法有:(1)根据文献、前人研究结果、实际经验等建立假设性理论建构;(2)对问卷题目进行分析。主要是分析问卷的内容,答卷者对题目所作的反应,问卷题目的同质性以及分项目之间的关系来判断问卷的结构效度;(3)根据建构的假设性理论编制适当的问卷;(4)计算与同类权威问卷的相关;(5)以统计检验的实证方法去考查问卷是否能有效解释所欲建构的特质。4.区分效度如果测量的结果能区分已知的不同特征的人群,就认为该测量具有区分效度,一般使用t检验或方差分析得出结论。例如,测量结果能够区分“健康人”和“病人”效度单测验材料必须对整个内容有代表性;测题设计时应尽量避免引起误差的题型;测题的难度要适中,具有较高的区分度;测题的长度要适当,即要有一定的测题量;测题的排列按先易后难的顺序测验本身的因素主试的影响因素被试的影响因素测验实施中的干扰因素样本团体的异质性干涉变量样本团体的性质三、效度的影响因素:信度与效度的关系:•1.信度和效度的共同点都是以相关系数来表示其大小的。都是整个运用问卷调查技术进行科研工作的可靠性保证。•2.不同点主要是:①研究的对象不同。信度:答卷者;效度:组卷人。②研究的角度不同。信度:测量的质量;效度:问卷的质量。举例来说:
本文标题:42信度效度
链接地址:https://www.777doc.com/doc-3638114 .html