您好,欢迎访问三七文档
1第四章语言测试实施李筱菊(2001:82)将语言测试实施阶段的所有任务按照职能划分为考务行政工作、学科业务工作和统计分析工作三个方面(如图18-1所示)。根据任务安排的先后从1到6进行编号,从中我们不仅一目了然任务的所属和顺序,而且可以看出同一任务对应不同职能部门时的分工与合作。下面将按照这一思路,以任务发生的时间为序,介绍测试实施过程中以及测试施考结束后评分的有关细节。表18-1测试工作环节考务行政工作学科业务工作统计分析工作1.试题生产2.考务准备3.测试实施3.主持测试4.组织评分4.评分5.结果的统计分析6.反馈,总结第一节施考准备为了确保测试实施顺利进行,撰写施考操作手册时有两点基本注意事项:第一,保证测试按设计的要求进行。比如试卷、考场准备、监考工作等。第二,保证全体受试者是在公平、一致的实施条件下参加测试。因为试题保密关系到对受试者的公平与否,所以试题的保密问题也需要注意。这不仅是指考前保密,尤其还要包括考后保密。做到以上两点,必须有一套严密的考务工作制度,包括监考细则。此外,施考准备阶段需要完成的其他任务还有试题生产、考场准备等。Hughes(2000:152)提出测试准备工作中有关材料和设备的五点注意事项:1.安排充足的时间来打印试卷和答题纸。检查并确保其中没有任何错误。2.如果试卷册被测试者使用过,请确保测试者没有留下任何标志(比如下划线)。3.将试卷页数标注好,这将保证测试实施前、测试中和测试后的安全性。4.确保有评分方案且数量充足,没有错误。5.检查所有的仪器设备(录音机,扬声器系统等),确保它们将会有很好的工作状态。第二节实施测试1.主持测试由于大型语言测试往往需要很多监考人员,他们对所主持的测试很陌生,因此一些著名考试如雅思、托业等,会在测试进行前对监考考人员进行短时培训,并且分发施考指南。Hughes(2000:152-153)提出主考人员的五点注意事项有:1)为所有测试者准备好详细的考试说明,其中要包括所有可能发生的事件说明。这些考试说明至少在考试实施前一天发出。具体内容请参看下面的实施部分。2)主考者需要练习他们需要向测试者读出的所有指令。3)需要使用设备(如录音机)的主考者要熟悉它们的操作程序。4)需要在听力测试中大声朗读的主考者要练习,最好能有一个磁带录音样本。5)口语主考者必须彻底了解考试程序和评分系统。(只有那些被培训过的口语主考者才能参加)2外语测试和其他学科的测试不同的一点,是它包括口试。口试需要学科专业人员当主考。口试主考,除了主持测试(与受试者对答)之外,一般同时也当评分员。口试的主考人员,除了他们的态度和技巧对考生的影响之外,他们对所主持的特定口试的指导思想和设计意图如果不了解,也很难把口试主持好。因此,对口试主考教师有两个要求(李筱菊2000:85):第一,口试主考的目标语整体水平,尤其是口语水平,必须达到一定标准。由于中国外语教师本身口语与书面语有相当的差距,所以选聘口试主考时应予考虑,不能以书面语水平为依据。最基本的是对语音语调的要求。口试主考的语音语调要基本正确和清楚。对口试主考教师培训时,还要注意培训教师能够在语流中结合意思去调整语音语调(尤其是节奏、重音、弱化等)。第二,了解所主持的特定口试的指导思想和设计意图。主考教师主持测试的态度和技巧能体现出他对语言教学、测试的总的认识,和对主持特定口试的指导思想和设计意图的了解。另外,Hughes(2000)的意见可以作为对施考阶段其他注意事项的补充:1)应试者需要被要求在测试时间开始之前到达。2)迟到的应试者不允许进入考场。如果可行,他们将被指令到另一个教室,在那里迟到的应试者(一定时间范围之内)可以进行测试。当然,他们不可以干扰正在进行考试的其他测试者。3)需要检查应试者的身份证明。4)如果可以,应试者应该被安排到适当的位置以防止朋友间传递信息。5)为所有测试者准备好详细的考试说明,其中要包括所有可能发生的事件说明。主考者要对应试者给出明确的考试说明。其中应包括的信息有:在必要的情况下,应试者如何吸引监考者的注意,还有那些提前完成测试的应试者应当做什么。主考者还需要警告那些有不正当行为的学生,告诉他们作弊的后果。强调在考试期间保持安静。6)测试资料应该由监考者逐一发放并确保测试题和答题纸标有它们的页码。对此要进行记录。测试者不允许自行发放试卷。7)主考者应指导应试者在答题纸或试卷册上填写所要求的信息(比如考号,日期)。如果在测试卷中要附加口语测试的考试说明,主考者应朗读此说明,包括给出的例子。主考者需要准确地把握测试时间,确保每位应试者准时开始,测试结束后不允许继续答题。8)一旦测试在进行中,监考者应谨慎地监控测试者的行为。他们需要按照考试说明中列举的方式处理任何违规行为。9)测试期间测试者只被允许每次一人离开考场,如果可以由一名监考者陪伴。10)监考者要确保当测试者被要求时立即停止答卷。直到所有试卷被收取并检查过试卷的页数测试者要留在原地。2.组织评分评分工作是关系到测试信度的最要害的环节,评分工作做不好,测试会信度全失。评分工作分主观题评分和客观题评分。错误!未找到引用源。主观题评分主观题评分主要指产生性技能及产生性运用试题的评分。主观题评分的关键是设法排除三个不一致—评分场之间的不一致、评分员之间的不一致和评分员自身的不一致。为了排除这三个不一致,必须采取一定的控制措施。不同评分方式有不同控制措施,这些措施构成各特定方式的必要条件(李筱菊2000):第一条:制定统一的评分标准。有综合性评分和分解性评分两条路。综合性评分(globalmarking)把语言放在交际实际中作为一个整体去评价,符合第三代语言测试体系的观点。主要问题在于不容易控制评分的不3一致,靠统一评分标准没有太大作用。分解性评分(analyticalmarking)可以把同一评分标准定得比较死,借此控制三个不一致。主要问题在于把语言分割对待,反映了一种分割式的语言观,不符合现代语言教学和测试的新观点。第二条:评分员经过培训。这一条应该和第一条一起实施。因为光有评分标准,没有评分员培训是很难控制评分标准统一的。对评分员的培训经过理论认识、对本测试本试题的认识和实际试评等步骤,目的是对评分取得一致认识。第三条:评分地点集中。集中阅卷地点将有助于排除第一条中的“三个不一致”。第四条:受试者身份不为评卷者所知。目的是防止阅卷者在认识受试者的情况下给出不合理的分数。一般要求是,在笔试情况下,试卷送评时受试者的姓名乃至编号应隐匿不见;在口试的情况下,主考应回避考本校、本班、本单位、或与自己有关系或认识的受试者。第五条:按随机抽样分配被评试卷。第六条:必要时加第三位评分员。专指双人评分而言。当两个评分员评一份卷子或者一个受试者时,如果两人给分的差距超过总分的一定比数,就要求另请第三位评分员给一个分,三个分中取两个相近者而弃其较远者。这是保证评分公正有效的措施。第七条:计算机调整分数。用一套调整主观题分数的计算机程序对主观题评分加以调整。原理是受试者参加语言测试时,同一份试题中客观题的得分和主观题的得分应是相关的。错误!未找到引用源。客观题评分客观题评分方式主要有三种。第一种为人工评分。第二种为人工输入和机器评分相结合的方式。第三种是机器读入及评分的方式。其中第二和三种方式远优于第一种。目前,很多国内、国外的大型考试都已经采用第二、三种方式。原因在于人工评分的弊端是试题测试后无法保密,失去入库再用的可能性,对试题生产劳动是极大浪费,评分信度不高。第三节分析测试结果测试目的是为了获得受试群的某些信息,这些信息体现于测试结果中。测试结果还包含测试本身的信息。测试结果的统计分析是整个测试工作不可少的一部分。1.分数计算错误!未找到引用源。基本分数计算的数据和分数常模基本的分数计算要得出的数据包括受试者个人、参试单位和整个应试群的分数。如果是标准化测试,除了按基本的分数计算出各个层次的平均分、最高分、最低分和标准差外,还要建立分数常模,把得分(原始分)转换为标准分,推算出每个分数的百分位。应用标准分和百分位的优点是,每名受试者与其他受试者无论横向或纵向相比的位置都能很明确地表示出来。大面积多类型受试者的考试,可以分地区、分类型建立常模。建立联区常模和跨类型常模,既明确了每个受试者在本地区本类型群中的位置,也明确了它与其他地区、其他类型群相比的位置。错误!未找到引用源。分数计算的特点4为了更好地结实测试的结果分数,使测试用户及受试者对测试结果包含的信息全貌和有关细部能更好地理解,并能根据特定目的有效地利用这些信息。分数计算是以下其他方面的统计分析工作的基础。2.分数检验和调整前文已经设计了主观题分数检验和调整的方式,此处主要介绍等值检验和调整。这在反复性测试中尤为必要。反复性测试,即每次使用一套新试题,按要求必须做次与次之间的等值处理(包括等值检验和调整),以保证考试的纵向稳定。据李筱菊(2000:96)介绍,我国反复性大规模考试多数都不做等值检验和调整。而托福考试由于采取等值处理的办法保证了考试的长期基本稳定,获得了国际威信。等值处理的方法有两种。一是在正式试题中插入部分跨年使用的共同题目,以计算与往年的难度差距。这部分题目分数不算入成绩。二是出一套跨年使用的等值试题,找一些目标水平比较稳定的固定点,比如某些水平比较稳定的学校等,每次正式考试前或后,让这些固定点的受试者做这套等值题。同一批受试者在考等值题前后不久还会参加正式考试。把他们等值考试与正式测试的成绩对比计算,就能得出本次考试与以往考试的难度差距。第四节评估测试质量分析评估目的是从测试结果中取得关于测试本身的质量信息。对保证测试的质量,改进测试考务行政、学科业务、统计分析三个方面的工作都是必不可少的环节。一个科学的测试,在每次测试结束之后都必然要做这个工作并且把数据公布给所有相关人员。1.按常模的要求分析评估标准化测试,结果分数分布在多大程度上符合正态分布的常模是测试质量检查的第一个准则。建立一个常模依赖两个变量,分别是平均分和标准差。每种标准化测试都需根据自己定的标准分平均分即标准差建立常模,然后每次测试的分数分布都要求基本上符合这个常模。测试结果分数的分布,把数据输入电脑,可用程序把分数分布曲线显示出来,便可看出是否符合常模。同时也可以用公式计算是否符合常模。2.对试题的微观分析:题目分析科学的测试,尤其是标准化测试,试题经审改(moderation)在放进正式测试之前先得试测(pretesting)。根据试测的结果,对试题做题目分析,也就是试题的质量分析,取得每道试题的一系列质量指标数据。根据这些数据,对试题再作审改、选定,才放进正式测试中去考。正式测试考完,又再作题目分析。对每一道题的质量再做检查,把数据一方面反馈给命题人员及参试学校,以便改进命题及教学,一方面也把数据连同试题入档,以备后用。题目分析中取得的一些主要数据和如何理解这些数据。这些数据包括:错误!未找到引用源。答对率(facilityvalue):也称通过率,代号是P或F,指答对的人数与全体受试人数之比。错误!未找到引用源。区分度:指试题能否把高低水平的受试者区分开来,是试题一个很重要的质量指标,有不同的计算方法。用大题的答题情况区分高的和低的受试者,然后结合本题的答题情况,计算出双列相关系数(biserialcorrelation),这就是该题的区分度。1.对试题的宏观分析:全卷,部分及大题的质量分析5错误!未找到引用源。难度和区分度语言测试大题、部分及全卷的答对率,是小题答对率的平均。对于大题、部分或全卷,理想的答对率一般是0.5。测试大题、部分和全卷的难易度,也可以根据小题的难易度计算出来。大题、部分和全卷自然也需要计算区分度。宏观的区分度用Rbis表示。一般要求不低于0.3。标准化测试,通常把Rbis≥0.3定为测试的质量分析指标之一。除了总的区分度指标外,还定出区分度低于0.3的小题不能超过全部试题的百分之多少的指标。一般未经试测的考试,rbis0.3的小题要求控制在总题数约5%以下。错误!未找到引用源。全距(r
本文标题:第四章语言测试实施
链接地址:https://www.777doc.com/doc-2170738 .html