您好,欢迎访问三七文档
当前位置:首页 > 财经/贸易 > 资产评估/会计 > 主观题自动评分算法分析与实现
龙源期刊网主观题自动评分算法分析与实现作者:查卫亮来源:《软件导刊》2011年第09期摘要:利用网络进行考试将成为考试方式发展的必然趋势。针对网络考试系统中主观题自动评分这个技术点展开研究,提出基于关键词与语法相似度的主观题自动评分算法,详细阐述了实现的关键技术,并通过实验数据得出语法相似度阀值与阅卷比例参数的最佳参考值。关键词:语法相似度;自动分词;模式匹配;模糊匹配中图分类号:TP301.6文献标识码:A文章编号:1672-7800(2011)09-0043-02作者简介:查卫亮(1975-),女,江苏南通人,江苏省惠山中等专业学校电信工程系讲师,研究方向软件技术。1主观题人工阅卷思路与步骤教师在人工批改主观题如名词解释与简答题时,一般按照如下的思路与步骤:(1)确定主观题标准答案的得分点,每一个得分点所对应的关键词,每一个关键词的权值。(2)教师开始对学生答案进行评阅,将学生答案中出现的词汇与标准答案中的关键词进行比对,如果两者相同或是近义词,那么学生取得该得分点的分值,该题最后的总得分为所有得分点的总和。(3)为了防止学生在答题时只答关键词,而出现语句不通的情况,教师在查找学生答案得分点的同时,也会查看学生答案语句的组织是否符合题目的要求,最后将根据实际情况作扣分处理。2主观题自动评分算法设计思路人具有自己的思想,能独立思考问题,并发执行许多事情,但这对计算机来讲就不行了。它只能模拟人工阅卷过程。以下为主观题自动评分算法的设计思路:龙源期刊网(1)评分结果是否正确合理与标准答案的确定有很大的关系,所以首先对标准答案进行如下处理:对标准答案进行分句处理,确定每一个分句的句子模式;确定每一个分句中的关键词及每一个关键词对应的权值;建立关键词的近义词表。以上工作可以在出卷时完成,也可以在阅卷之前完成。(2)阅卷时通过程序对学生答案进行如下处理:对学生答案进行分句预处理与处理,确定每一个分句的句子模式;将标准答案中的分句与学生答案中的分句进行模式匹配,保留有用的分句,删除无用的分句,并得到该句语法相似度的值;对保留下来的有用分句采用最大正向匹配算法与现有词库进行对比,作自动分词处理;将学生答案分词处理后的关键词与标准答案中的关键词作模糊匹配处理,并得到关键词得分;该题的最后得分为关键词得分与语法相似度得分之总和。从上述处理过程不难看出,本算法的句子相似度等于语法相似度与语义相似度之和,语义相似度即关键词匹配得分。(3)整个过程如图1所示:图1阅卷程序流程说明:由于学生答案中有可能会出现空格与回车等无用字符,所以在分句与分词处理之前首先进行预处理,删除无用字符。3实现的关键技术3.1词库的建立标准答案与学生答案在进行自动分词时都需要与词库中的词进行比对来提取关键词,因此词库的建立在网络考试系统中占有重要的作用。为了提高自动分词的效率,本算法在建立词库时附加两个字段分别为首字编码字段名为“WordCode”,词长度字段名为“WordLength”,词库中的词将按照“WordCode”与“WordLength”两字段进行排序。在分词检索过程中,可先计算首字编码的值,根据首字编码的值在词库中查找相应的词,如没有找到,将直接跳过本次搜索;如能找到再按词长定位查找。采用此种方法将大大提高搜索的效率。除些之外,随着大规模、可计算的语义知识库《知网》的进一步完善和涵盖专业领域的词语逐步增多,建立一种通用的主观题阅卷词库系统也将成为可能,在此不作进一步阐述。3.2分句处理与语法相似度计算龙源期刊网无论是标准答案还是学生答案都是以一段或几段文本的形式呈现,每段中包括若干语句。为了方便句子的模式匹配与关键词的模糊匹配,首先需要将标准答案与学生答案进行分句处理。由于事先对学生答案进行了分句的预处理,所以答案前、后无用的空格、回车换行已删除。接着便可以根据句号、分号、逗号、问号、感叹号等标点符号对标准答案与学生答案进行分句处理了。在完成分句处理后,将学生答案与标准答案分别放入不同的数组中。然后把学生答案中的子句与标准答案中的子句进行模式匹配,主要看它们的谓语中心词与其它成分是否匹配,保留学生答案中语法匹配的子句,为后面的自动分词作准备。假设标准答案中共有m个子句,在学生答案中找到n个与之匹配的子句(0<n≤m),则学生答案的语法相似度为n/m。3.3自动分词技术在模式识别后,学生答案中的有用分句被保留了下来,分词处理是关键词模糊匹配算法的重要环节,直接影响关键词匹配的得分,所以本文研究的主观题自动评分算法是否成功在很大程序上依赖于分词结果的正确性。目前国内常用的分词方法有最大正向匹配法、逆向最大匹配法、双向扫描法、逐词遍历法、最佳匹配法、基于词频统计的分词法、基于期望的切词法等。最常用的是最大正向匹配法,本文的自动分词技术也采用这种方法。最大正向匹配法也称MM法(MaximumMatc址ngMehtod)。从被切分的分句中,按给定方向顺序截取定长的字符串,通常为6到8个汉字,这个字符串的长度,叫做最大词长。将这个最大词长的字符串与系统词库中的词进行匹配,若匹配成功,则可确定这个字符串为词,计算机程序将向后移动最大词长的长度,继续进行匹配:否则,将该字符串逐次减一,再与系统词库中的词进行匹配,直到成功为止,通过自动分词将确定学生答案与标准答案中的所有词组,为关键词模糊匹配作好准备。3.4关键词模糊匹配算法关键词模糊匹配算法主要完成学生答案中关键词的得分计算,本文将采用了动态规划算法。经过分词处理后,已把学生答案和标准答案分成若干个词组,并分别保存于数组A[i](i=0,1,2,…,n)与B[j](j=0,1,2,…,m)中。两数组词汇进行关键词模糊匹配(用result()自定义函数实现,该函数最大值为1,最小值为0),将模糊匹配的结果乘以相应关键词的权值,最后所有关键词模糊匹配的累加和就是学生答案关键词的得分。4主观题自动评分算法根据上述主观题自动评分算法的设计思想及关键技术的分析,得出主观题评分算法公式:龙源期刊网*φ\-i)+(1-P)*T\-0(0<T\-0=[JB({]0(T\-0<1(T\-公式中各参数表示的意义:S:学生的实际得分;P:关键词得分在该题目中所占比例;1-P:语法相似度得分在该题目中所占比例;\-i:学生答案要第i个关键词相似度得分;φ\-i:学生答案要第i个关键词权值;T\-0:学生答案语法相似度,取值0或1。说明:T为语法相似度阀值,如果学生答案语法相似度的计算结果大于等于T,T\-0的值为1,表示学生答案的语法符合标准答案的求,反之T\-0的值为0。通过调整T值的大小控制阅卷要求的高低。可以调整P的大小改变关键字得分与语法相似度得分在总得分中所占的比重,P的取值也反映了阅卷的严格程度。5实验结果分析该算法用于课程《操作系统》某次测试,主观题评分结果如表1所示:实验结果表明,当语法相似度阀值T取0.62,比例参数P取0.75时,自动阅卷的分值最接近工人阅卷的分值。6结束语本文从分析主观题人工阅卷的思路与步骤出发,提出了主观题自动评分算法的设计思路,阐述了自动评分算法中涉及的关键技术,并通过实验数据得出语法相似度阀值与比例参数的最佳取值。该算法在实际工作中得到了较好的应用。参考文献:[1]高恩丹,袁舂风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004(14).[2]南铉围.基于语句相似度计算的主观题自动评分技术研究[D].延吉:延边大学,2007.[3]刘春辰,刘大有,王生生,等.改进的语义相似度计算模型及其应用[J].吉林大学学报(工学版),2009(1).龙源期刊网[4]LIMINGQIN,LIJUANZ,WANGZUOYING,eta1.AstatlsticalmodelforparsingsemanticdependencyrelationsinaChinesesentence[J].hineseJournalofComputers,2004(12).[5]麦范金,赵子强,岳晓光.基于语义相似度的主观题阅卷系统模型设计[J].微计算机信息,2009(18).(责任编辑:余晓)
本文标题:主观题自动评分算法分析与实现
链接地址:https://www.777doc.com/doc-4401451 .html