您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 医学教育质量考核体系研究的现状与发展趋势(1)
医学教育质量考核体系研究的现状与发展趋势南方医科大学文民刚一、医学考试的发展历史考试的本质就是对群体或个体教育质量或人才质量测定与认定的手段。追溯我国医学考试的历史,最早应始于唐朝。公元624年,唐设立太医署,既是国家最高医疗机构,又是医学教育机构。太医署安排了完整的教学计划,开展了分科教学、课程设置和成绩考核。欧洲各国也在13世纪建立了由政府主管部门控制的医师资格考试和大学医学学位考试。但对建立这种考试制度的理论研究只是近半个世纪的事。1902年,美国医学会根据考试评价对医学教育过程和医疗质量控制的管理功能,提出了建立国家医学考试的设想。在我国,现代医学考试测量的理论研究和实践开始于80年代,经过20余年的探索,取得了许多研究成果:如国家执业医师考试制度的建立国家级基础医学和临床医学试题库的建立OSCE多站考试的研究与初步实践教育目标分类学理论在医学考试中应用等这些研究成果医学对教育考试测量制度的改革和医学教育质量的提高起到了巨大的推动作用。但由于受到医学院校教学管理人员、教育研究者、教师教育科学知识和现代考试测量理论水平的限制。课程考试往往由各教研室按本学科的传统做法自行命题和实施考试,考试的范围、深度和方式根据教学时数、教学内容和任课教师的既往经验和偏爱来决定。时至今日,医学考试作为医学教育和医学测量的重要研究课题,受到世界各地、各国同行的关注,并在理论与实践的各个环节,进行了大量地研究和探索,使医学考试理论和实践方法取得了很大成就,展现出一个全新的现代医学考试面貌。然而,仍有一些不尽人意的问题,没有得到较好的解决。一个科学、合理的医学考试,应该是既能考出被考者的知识,又能考出能力。虽然知识与能力是相辅相成的,有时甚至是相互融合的,但从整体人才结构来说,知识与能力是两个不能混淆的组成部分。从医学特点出发,对医学人才的整体评价,可能能力要比知识更为重要一些。然而,我们现在进行的各种不同类型的医学考试,多数仍是以考核知识储存和运用为主,而对被考者的职业道德、工作态度、临床技能、思维能力等直接影响到人才素质的构成因素,却缺乏有效的、等值的、易于量化的、简单易行的考核方法。二、教育测量学的几个里程碑1、Dowine(1967)根据信息论的原理和反馈信息的调节功能,提出了在教学过程中建立安置性考试、形成性考试、总结性考试和教学过程中自检考试的理论;Thornkike根据教育心理学中的效应法则(Lawofeffect),按照动机形成机制,提出了建立考试制度的理论。2、WHO专家委员会曾于1968年进行了专门的讨论,根据现代教育测量的理论,由Charvat.J等起草了专题报告(WHO,PublicPapers,36,1968),从理论上和实践上对现行的考试制度进行了广泛的评论,提出了改革传统考试方法的设想。3、我国学者李忠诚(1972)还根据系统工程学的理论和工业企业管理中的PDCA法,提出了考试评价在质量管理中应用的理论,为建立考试评价制度提出了新的理论依据。4、关于各种测量技术的理论,国内外教育界多倾向于目标评估,并以美国教育心理学家Bloom.B.S建立的教育目标分类学模型作为设计各种考试方法的理论依据。Bloom.B.S1964年提出了认知领域和精神运动领域教育目标分类学模型;Krathwohl.D.R和Bloom.B.S等人1973年又进一步提出了情感领域的教育目标分类学模型。McGuire.C对Bloom等人对教育目标分类学模型进行了简化,并把这一分类模型成功地用于医学考试方法的设计。Guillbert.J.J编著的医学教育手册(WHOOffetPublicationNo35,1977)对Bloom和McGuire.C的教育目标分类学模型及其应用作了详细的论述。医学中认知领域中教育目标简化为三类:(一)回忆(Recall)指专业所需的各种知识在大脑中的再现,是认知领域最初级的行为。包括对术语、具体事实、准则、方法、原理、过程、概念,公式等知识的回忆。该层次的特点是:1、强调的重点:注重对知识的记忆,不要求对知识理解。尽管贮存在人脑中的大量知识的记忆要伴随着对其意义的理解,但有不少知识只需机械记忆,也可正确回答属于这一层次的问题。2、测验情景:以“非常接近”于学习时的情景或形式测量知识的记忆。换句话讲,试题的内容基本上与教科书的内容相同。3、涉及的心理过程:记忆。有时可能伴随理解、联想或简单推论,但以记忆过程为突出。(二)解释指运用所学的知识对新的资料进行论述的过程。该层次的特点是:1、强调的重点:注重对知识的理解。理解了的知识能正确运用,进而对新情况进行分析综合,得出结论。2、测验情景:以变换了的“新的”情景或形式测量对知识的理解和掌握。即涉及知识的“迁移”。3、涉及的心理过程:记忆、理解、分析、综合。属思维水平的心理过程。(三)问题解决:应用有关知识,在解释新情况基础上决定下一步措施,或对复杂资料、研究报告等作出平价。是高级的认知行为。该层次的特点是:1.强调的重点:解决问题的决策过程,即提出下一步的行动方案。2.测验情景:以复杂的情景测量解决问题的能力。3.涉及的心理过程;记忆,理解、分析、综台、决策。属思维水平的心理过程。我们对各层次特点的介绍希望为今后试题的认知分级,提供一些思路。试题举例例题1:鉴别消化性溃疡和慢性胃炎的最有价值的方法是:A赞便隐血检查Bx线钡餐检查C纤维胃镜检查D胃粘膜脱落细胞检查E胃液分折被试者只要能回忆出鉴别这两种疾病的最有价值的方法是什么,就能正确回答试题。答题的心理过程只涉及记忆——对特定方法的记忆。教科书在消化性溃疡的鉴别诊断中明确写道:“胃镜检查是鉴别两者的主要方法。”这与测验情景非常接近。故本题属于回忆层次。例题2:男,22岁,畏寒、发热一天,伴腹痛,腹泻,里急后重。大便每日10余次,量不多,有粘液。粪检:脓细胞26-30/高倍视野,红细胞l0-20/高倍视野。找到结肠阿米巴滋养体。最可能的诊断是:A急性肠胃炎B阿米巴痢疾C副霍乱D细菌性食物中毒E急性细菌性痢疾此题可从三个方面进行分解。其一,被试应当正确回忆被选答案中的疾病诊断依据,这是记忆水平。其二,要对新的看起来是零散的资料进行理解,与所学的医学知识相对应或匹配,以便归纳出病史特点。如该患者的特点为急性起病,发热伴腹痛腹泻,直肠刺激症状,大便次数多,有大量脓细胞等。其次,要考察这些病史特点在说明或支持什么疾病诊断(即将新资料与诊断依据对照加工)中的作用,以便用这种病史特点的组合来形成疾病诊断(或除外其他疾病)。这就是分析综合的过程。因此,此题属于解释层次。例题3:男,18岁,急起发热5天,头痛全身痛,乏力,呕吐一次。查体:神清,球结膜水肿,前胸及腋下可见针头大小出血点,肝大肋下1.0cm:血压70/50mmHg。血白细胞18200/mm3,中性粒细胞80%,血小板5万/mm3,血红蛋白17.5g/dl,尿蛋白+++。应首先采用的治疗是A大量抗生素抗感染B血管活性药物升压C扩充血容量D肾上腺皮质激素E肝素抗凝治疗被试首先要完成类似例题2的思维过程(解释层次),得出疾病诊断(或目前病情状况的判断),然后遵循决策程序,对各种可能性方案进行分析,选择最佳行动方案。对此病例,首先考虑最可能的诊断是流行性出血热,同时基于该患者的特殊资料考虑属于低血压休克期,然后对备选答案中的各种可能性治疗方案进行分析,比较各种疗法对于患者的适宜性或采用顺序(即对各种疗法的价值进行评价)。同时要考虑不选择其他方案的理由。如该患者的治疗首先不宜选血管活性药物升压,是因目前的低血压等状况主要因全身性小血管损害,血浆外渗,血容量不足。鉴于此,应首选扩充血容量。综上所述,这种对新的零散资料进行加工处理、最后进行决策的过程,使问题得以解决,其心理过程显示出较大复杂性,故本题属于问题解决层次。5、1982年,我国对部分医学院校毕业生实施业务统考在考试方法设计时,也主要参考Bloom的教育目标分类学模型。总的说来,近50年来,由于教育测量理论和技术的发展,并把这些成果引进医学考试领域,促进了传统考试方法的改革,从而使“医学教育测量形成一个新的和有价值的领域”。三、医学考试存在的问题中国医科大学对109所医学院校课程考试情况的调查显示:1、10.0%的院校按教育目标分类学指导命题;2、6.6%的院校建立了各学科考试命题大纲,许多院校课程考试命题完全由教研室负责,教研室则交由授课教师按教学“讲什么,考什么”,考试质量得不到保证;3、对试题进行难度分析的院校占57%,区别度分析的仅占43%;4、对试卷进行有效性分析的院校占33%,可靠性分析的占37%;5、有30%的院校建立了试题库;6、运用电子计算机管理考试的(如阅卷、题库、考试分析等)的院校仅占22%;7、大部分院校比较重视分数在学生升、留级上的作用,忽视考试在教学反馈上的作用;8、一些院校考试分数贬值,绝对分数偏高等。四、医学考试的标准从现代医学考试理论、教育测量与教育评价的角度出发,任何一个科学的考试都应符合如下基本要求:(1)效度——效度也称“有效性”,是指考试结果能否准确地表明被考人所具有的知识或能力的程度。从测量学观点来看,效度是一个相对程度上的概念,只有高低之分,没有“有”或“无”之分。虽然某一次考试的效度可以从不同层次去理解,如:内容效度、预测效度、共时效度、结构效度等,其中重要的是内容效度。考试内容效度是指一份考卷的内容(试题)是否能够较好的代表了所要考查的全部内容。如果出题有误,不能反映或代表该学科的整体内容,自然大大减低了考试的有效性。(2)信度——是指考试结果的准确程度。也就是说,依据某一次考试的结果来评价被考人员人才质量的某一侧面是否可靠,关键在于考试信度的高低,为此,考试信度也称“可靠性系数”。考试的信度直接反映在考试的稳定性上,也就是考试的可重复性上。一个信度较高的考试,尽管重复进行,结果都会准确地反映出被考者的程度,不会这次考试结果是“好”,而下次考试结果则为“坏”。正如用尺量布,第一次为3m,第二次为4m,显然是测量信度过低,不可靠。(3)区分度——是指考试能否将不同程度的考生较好而准确的区别开。假设一次考试不能区分出考生的“好”与“坏”,甚至“较好“的考生考出较坏的结果,而平时”较坏“的考生反而取得较好的考试结果,这样的考试显然是失败的,不仅起不到正确评价的作用,反而会影响干扰正确的评价和判断。区分度的大小与考试的试题质量和数量有密切关系,我们切不可简单地认为试题越难就越能增加考试的区分度。当然过于容易的试题大家都很容易答上,自然难以区别考生的好坏,但是如果试题过难,全体考生均答不上,不但也会出现与容易试题相同的结果,而且可能因考生无根据的胡乱猜测,导致出现与考生实际程度完全相悖的结果。那么,现在医学考试中最常见的题型是什么呢?大致分为两类。一类是自由应答式题型另一类就是固定应答式题型(1)“自由应答试题型”考试:传统的考试几乎都是自由应答型试题。不论是简答题、论述题、填空题,都属于自由应答型考试范畴。其主要标志是每一道试题的标准答案,只有评定成绩的“采分点”(就是要求答出哪几方面或知识点),而具体对问题的回答则由考生进行自由的论述。这种试题大众软件可以显示出不同考生的思路与论述技巧,然而,也必然要出现对考题要求知识点存在着回答程度上的区别。也就是有的回答得完全正确,有的虽然不完全,但也联系到一些;或者说,从另一方面理解也应该给一点分。此时,考生的考试成绩,在很大程度上与判卷人的理解和掌握的松紧有很大关系(也可以说,有意无意地受到判卷人的主观意识影响),同样一道试题答案,不同判卷人完全能够得出不同的成绩。有人进行试验证明,这种差异常常是很明显的。(2)“固定应答试题型”考试:在20世纪初到60年代,随着心理和教育测验运动的兴起,人们逐渐探索出一种能够较好地显示考试的客观性,并对测试误差进行有效控制,明显区别于传统考试方式的新型考试类型——标准化考试。这种新的考试形式也称为“客观性考试”,其突出特点就是尽量减少在考试当中可能出现的、人为的、受主观意识影响的环节,使考
本文标题:医学教育质量考核体系研究的现状与发展趋势(1)
链接地址:https://www.777doc.com/doc-442734 .html