您好,欢迎访问三七文档
教育评价:矛盾与分析【内容摘要】新课程改革过程中需要正确处理几对矛盾,即教育评价的理论模式与操作程序的矛盾,量化评价与质性评价的矛盾,以及评价方法的“西化”与本土化的矛盾。独断地宣称一种评价方法的合理性和不合理性,无益于评价改革;简单地复制西方国家的评价方法,特别是某些国外已淘汰的方法,对评价理论的创新不利;以特定情境为基础的、冷静的教育评价研究,具有长久的、普遍的意义。【关键词】教育评价;量化评价;质化评价一、理论模式与操作程序的矛盾理论模式与操作程序是科学研究的一对普遍矛盾,在人文社会科学领域中更是如此,教育评价也不例外。当前,在我国基础教育新课程改革中流行的一些理论模式都是比较先进的,例如,根据加德纳的多元智力理论,教育评价应该评价学生的多元智力,而传统的评价主要评价了言语智力以及数理逻辑智力,对多元智力的其他成分则评价甚少。又如,根据建构主义教学理论进行评价,必须评价师生的相互作用。后现代理论强调评价学生学习的主体性,等等。但所有这些,操作起来都非常困难。这些困难,集中表现在评价主体的多元性之难和评价内容的全面性之难两个方面。(一)评价主体多元性之难评价主体单一化的局限性是不言而喻的。现代教育评价强调评价主体的多元性:首先,评价者与被评价者的人格平等;其次,评价者应该是多方面人员组成的集合,不能只是少数的所谓权威;第三,重视被评价者的自我评价。这三点都是合理的主张。第一点诉求的人格平等,反对者不多,但它的陷阱,也有不少人堕入──人格平等与知识平等和评价权力平等不是一回事;第二点谋求的评价集合的形成,反映了权威的失落和从去中心到无中心的转向追求。实际上,这种追求无处不遭遇抵制和遏制,因为评价制度和评价传统恰恰是建立在一定的权威预设和中心维系的基础上。最后一点,自我评价在现代教育评价中的地位之所以得1到提高,是因为它在自我激励和自我提高中的重要意义,自我评价体现了一定程度的主体自觉。因此,若把现代教育评价的若干假定具体化为操作程序,必面临很多困难。首先,到底什么人能够和应该成为评价者?其次,各方面的评价者在总评价中占什么地位、发挥什么作用?也就是说,各方面评价者的评分在总分中占多大权重才是合理的(如果不得不计算总分的话)?再次,怎样保证(各方面评价者)评价的信度?信度若没有得到保证,强行使用信度低的评价结果,不只是犯什么错误的问题,它甚至产生更消极、更恶劣的社会效应和滞后影响。第四,如何进行评价者的心理调控?评价主体的多元性必然带来评价主体间的相互作用。这样,评价者就容易受各种心理效应的干扰,使评价结果产生严重偏差,评价将不再为评价。(二)评价内容全面性之难传统的评价在评价内容方面存在的片面性是明显的。在认知因素与情感因素之间,重认知,轻情感;而在认知因素内部,又是重知识,轻能力;在学科知识因素之间,重核心学科知识,轻非核心学科知识。新课程评价强调评价内容的全面性,这个立意,无可厚非,但问题是造成评价内容的片面性的原因是复杂的,从中也显现谋求评价内容全面性之难。第一,认知与知识因素比较容易测评。在测评理论中,越是稳定的因素越易测评。认知与知识因素相对稳定,学生也不会隐藏其智能的真实水平。其次,测评都受时间限制,测评内容只能从教学内容的总体中抽取样本进行。这就产生了无法回避的,甚至是自评价制度建立以来一直存在而未能很好地解决的问题:评价内容的代表性如何?即评价的效度问题。关于哪些学科应成为核心学科的问题,长期以来,我们以不断变换的方式尝试了解决问题的种种可能,但事实上,不但始终没有找到一种充分合理、相对最好的学科组合模式,而且尝试的效应和后果为全社会的评价者和被评价者承担。因此,需要在教育测评的核心学科的争议中寻求最大共识,需要发掘片面测评的若干合理因素;需要研讨评价内容的代表性的尺度和标准问题,即加强对评价效度问题的研究。学术界对课程评价的很多新理论都是很熟悉的,但在教学过程中却沿用传统评价模式。这不只是传统模式的惯性在发挥作用的问题,还必须承认,片面的、2有局限性的评价模式,有操作简便之长。不好的习惯可以慢慢得到纠正,而执行复杂的操作程序的难度,可能比我们想象的要大。从技术上、资源上和心理上看,短期内实行高度复杂评价程序的可能性并不大。因此,人们有理由怀疑,号称很好的评价方法却无法实行,它是不是很好的评价方法?一些更功利、更现实的考虑,不是不合理的。采用新的评价模式不一定能提高学生的考试分数,而学生的考试分数几乎是当前评价教师的唯一标准。试想,如果一位教师,辛辛苦苦采用了很多很好的评价方法,但学生的高考成绩反而没有别的学生好,他还会继续进行这种改革吗?即使他想坚持,也注定得不到支持。二、量化评价与质性评价的矛盾所谓量化教育评价,就是“力图把复杂的教育现象简化为数量,进而从数量的分析与比较中推断某一评价对象的成效”。[1]这种评价方法在20世纪60年代之前占据主导地位。随后,人们认识到评价不是一个单纯的技术问题,纯粹价值中立的描述是不存在的,价值问题在评价中凸显出来,质性评价应运而生。量化评价与质性评价是课程评价中的两种基本方法,这两种方法在理论基础、评价目的、评价过程、评价的具体方法、评价的角色、评价的特点以及使用范围等方面都有显著的不同。美国的大学招生,除了看SAT和ACT成绩①以外,还看很多方面。比如,中学教师的推荐信。最近,国内某大学附中的一名学生被哈佛大学录取,有两位美国历史教师给她写了哈佛大学历史上最好的推荐信,这信对她的录取起了很大的作用。值得指出的是,随着高校招生自主权越来越大,我们需要克服教育腐败现象。假定任何不同方法之间都存在不可调和的对立关系和取代关系,这是不是现代教育评价的新思维?其实,西方国家对质性评价的重视,建立在量化评价的发展(有人用“泛滥”)基础上。尚无充分根据显示,在我国,量化评价大肆泛滥并完全地、彻底地主宰了评价模式。如果这个认识是成立的,则说明我们对量化评价的研究和使用,需要研究借鉴其他国家的成熟做法。一些号称的量化评价,未必不是感觉经验的数字化。甚至可以假定,比较准确地理解和领会了最基本的量化概念(比如χ2检验之类)的教育学教授,包括那些专事责难量化方法的教授,不占其总量的十分之一。承认这一点,就需要我们一方面同时加强对量化评价和质性评价的研究;3另一方面立足于我们自己的评价对象和评价背景上,摸索分化、整合的可能性。后者即评价方法的“西化”与本土化的矛盾问题。三、评价方法的“西化”与本土化的矛盾目前,我国的教育评价方法主要是借用西方国家特别是美英等国的。这些方法,往往先通过译介而引进,后生搬硬套地推广和运用。比如,越来越为人们熟悉的档案袋评价(有人翻译为成长记录袋)、表现性评价(有人翻译成遂行评价)、[2]真实性评价、苏格拉底式评价、发展性评价、质性评价等等,都来自国外。可以假定,西方国家的评价方法是长期的实践智慧和科学研究的结晶。在实践智慧和科学研究二者之间,前者是高度情境化的,后者是高度抽象化的。情境化的,就是本土化的,比如,学生群体、班级规模、考试模式、选拔传统、流动机制等等。这些,既不能够引进,也不应该忽视。②抽象化的,就是普遍化的、标准化的、不受情境制约的。③能够为我们学习和引进的,只能是所谓“普遍化的、标准化的、不受情境制约的”后者,不能是前者。假定前者并非确实是“普遍化的、标准化的、不受情境制约的”,而是个人性的、地方性的、情境性的,则有助于解释为什么会出现“橘生淮北则成枳”的现象。西方国家教育评价方法的二重性特点,是其价值和局限共处的空间。即使其“抽象”的一端放之四海而皆准,“情境”的一端也绝非如此。从这个意义上说,国外的评价方法不一定适合我国的情况,有时甚至可能适得其反。当前,课程改革中的很多流行理论,例如,从多元智能理论、建构主义教学理论到后现代或后后现代理论,都是西方国家的情境化产物。以它们为支撑的有些评价方法,有的在西方国家已经废止,在我国却方兴未艾。比如,发展性教师评价制度于1998年在英国废止,[3]现在我们却开始热衷这种评价方法,好像每个人都透彻掌握并真心赞成这种评价方法,把过去的评价一概打成奖惩性评价,就像我们在推行素质教育的时候把过去的都打成“应试教育”一样。对这类现象,很难说出多少新话,多是一些老话:教育评价需要实事求是静心徐察的勇气,需要具体问题具体分析的耐心。因为任何评价方法都有它产生的土壤和条件,也有它的使用前提和适用对象,绝非任何地区或国家都能够使用同一种评价方法且产生同样效果。“橘生淮北则成枳”的道理恐怕谁都明白,为什么在实施中却“橘枳”不分呢?④可以猜想一下:某些研究者图简单、省事,将4国外的先进方法直接引进,不但完成了“科学研究”的任务,而且一下子就达到了“国际领先水平”。它,误导并操纵了教育评价行动,好像再现了“西海潮流猛秦火,东风复助为妖祸”的历史景观。以目前在我国推行的“档案袋评价”方法来说,笔者了解到的情况是,使用过这种方法的教师,很少赞成普遍推广它。它的主要局限有以下六点。●档案袋评价的工作量大,需要占用教师很多的时间精力,在教师教学任务繁重的情况下带来过重的负担。●档案袋内容太多,标准化程度低,不好整理分析,用于大范围的评价时难以控制。●档案袋评价存在着主观性太强的特点,评价过程中很难保证公平、公正。尤其是学生互评过程中很多主观因素影响着评分。●难以保证信度、效度,很能达到客观、真实。●如果各科都建立学生档案袋,肯定会导致学生的厌烦情绪。●教师在不同的时间对学生的评分是不一致的。⑤更重要的是,到底有谁来看这些档案袋,有多大用途?如果高考还是原来的高考,这些既费时又费力的档案袋可能没有很大的作用。反过来,如果档案袋在选拔中占了一定的比例、起了一定的作用,哪怕是一点点作用,谁又能保证档案袋内容的高信度?现时,能否信心十足地说,家长不会弄虚作假,教师不会弄虚作假,学生不会弄虚作假?评价方法“全盘照搬”行不通,要在挑选之后“拿来”。在“拿来”的时候,对拿者的素质也有较高的要求。正如鲁迅说的那样,“首先要这人沉着,勇猛,有辨别,不自私”。只对拿者的个性和素质提要求,还是不够的。更重要的是,改造知识情境和评价情境。在评价的实施过程中,还存在其他一些不易化解但可能被人忽视的矛盾,诸如,评价过程的全程性与评价结果的终结性的矛盾;课程标准的理想导向与评价结果的功利导向的矛盾;评价理论的模糊性与评价实施的清晰性之间的矛盾;评价的理论研究不足与实践作用的过分夸大的矛盾;等等。凡此种种,都需要进一步的研究。①SAT是ScholasticAptitudeTest的缩写,译为“学术性向测验”;ACT5是AmericanCollegeTest的缩写,译为“美国大学测验”,在美国中西部被广泛采用。美国绝大多数高校两种考试都认可。②例如,“班级规模”就是一个极重要的尺度,它综合地反映了教育资源的总量、分布、分配、占有和支配模式。可惜,在过去二十多年的专业研究和政府文告中,它不是一个常为人充分注意的概念。因此,它对教育评价的规定和对教育改革的诉求,也没有充分展示和揭示。夸张地说,仅采取班级规模合理化这一种手段,就可以减少现行教学及其评价的若干积弊。参见PeterBlatchfordetal.(1998),ResearchonClassSizeEffects:ACritiqueofMethodsandaWayForward,InternationalJournalofEducationalResearch,29.③科学知识具有普遍化、标准化和不受情境制约的特性之说,从20世纪50年代到80年代,先后被波兰尼(1958)、吉尔兹(1983)和劳斯(1987)等人否定。(《个人知识──迈向后批判哲学》,许泽民译,贵州人民出版社,2000;《地方性知识──阐释人类学论文集》,王海龙等译,中央编译出版社,2004;《知识与权力──走向科学的政治哲学》,盛晓明等译,北京大学出版社,2004)他们或者发现了科学知识的个人性,或者揭示了其地方性、情境性。法兰克福学派、特别是哈贝马斯,则着力批判科学技术的操纵功能。自伏尔泰到波普,都强调科学知识与人文知识和社
本文标题:教育评价论文
链接地址:https://www.777doc.com/doc-2262102 .html