自动化评卷系统有主观题吗(自动化评卷系统)
—— 大规模外语考试主观题自动评分研讨会
8月25日下午,题为《大规模英语考试主观题自动评分系统》的研讨会在北京外国语大学逸夫楼举行。来自中国的三位学者对自动评分系统对写作、汉英翻译、英汉翻译等主观题的评分进行了精彩的讲解。
本次研讨会的主持和发言者是教育部人文社会科学重点研究基地北京外国语大学中国外语教育研究中心——的梁茂成教授。本次研讨会的主要演讲嘉宾包括扬州大学王金泉教授和对外经济贸易大学姜锦林博士。
梁茂成教授首先对自动评分系统的研发背景、历史、运行机制、可信度、漏洞和局限性进行了清晰全面的介绍。他提到,目前托福、GRE等国际标准大型考试不仅包括人工阅卷,还包括机器阅卷;与阅读理解等客观题相比,主观题人工评分成本较高,可靠性有待进一步研究。阅卷者通常需要在短时间内进行高强度的作业,这进一步凸显了主观题自动化评分系统的必要性。
该自动评分系统是该学术研究团队从2002年开始历时近十年研发而成,是凝聚众多学者心血的重要研究成果。该系统的评分在可靠性和稳定性方面与人工评分相当,有时甚至表现更好,但系统对于创意作品仍然无能为力。梁茂成教授表示,该系统未来将探索更多有代表性的文本特征,以提高其可信度和稳定性,并将为受试者提供及时、具体的反馈,使其不仅是评分专家,而且对受试者来说是一个有益的指导到语言学习。
写作自动评分
随后梁教授介绍了写作自动评分系统项目。他从国际国内相关研究成果入手,评估利弊,介绍了该系统的具体研发技术,如机器学习、自然语言处理、信息检索、统计等。梁茂成教授进一步介绍了写作评分中关注的三大文本特征:语言、内容和组织。
为了让与会者有更深入的体验,梁教授现场演示了自动评分系统应用的具体流程,让大家了解了研发中的两大模块:模型构建和训练的实际步骤,以及自动评分的实际操作。
据梁茂成教授在研讨会开始时介绍,翻译题的评审过程也存在着标准不一致、评分者匹配度低的问题。在讲解研究背景时,蒋锦林博士表示,自动翻译评分系统也有实际需求,但相关研究并不多。因此,学者们陆续开始构建自动翻译评分系统的模型。王金泉教授和蒋金林博士分别介绍了汉英翻译机评分和英汉翻译机评分的研究过程。
王金泉教授详细介绍了汉英翻译机评分研究的五个步骤,分别是:数据收集、人工评分、模型构建、模型验证和软件编程。汇编)。本研究使用的语料来自不同级别大学英语专业三、四年级学生在规定时间内完成的翻译作业。数据收集完成后,三位专业评级员进行了两次评级,评级间隔为16个月。评级包括形式和语义方面。然后,分析人工评分的匹配度,构建模型。模型验证过程证实了机器评分系统在判断诊断和选择性检查方面的卓越性能。未来研究的重点将是如何让评分系统的语料拥有更多的文章体裁、更多的评分样本、更多的通用语言特征点。
姜锦林博士介绍了英汉翻译机评分的研究过程。本研究使用的语料来自中国外语学习者平行语料库(PACCEL),最终收集到310个译文。本研究中三位评估者两次评级之间的时间间隔为一年。语料库分为训练集和验证集。首先对构建组的语料进行人工评分,然后进行文本分析。分析得出的标准应用于验证组的机器评分。验证小组还将接受人工评分以分析系统的性能。实验结果证明机器评分的可靠性达到了较高水平。
如果英语考试主观题(作文、翻译)的机器评分能够达到较高水平并应用于实践,就能很好地解决人工评分耗费大量时间、人力、精力、财力的问题。最终让机器评分系统投入使用并完全取代人工评分是研究人员的梦想,他们正在为这个梦想而不懈努力。
^