超越记分牌：为什么自动作文评分需要新方向

想象一下，一位高中英语老师在周日晚上坐在书桌前。面前是 150 篇关于“计算机对社会的影响”的作文。批改每一篇至少需要 10 分钟。那仅仅为了一次作业就要花费 25 个小时。

这种场景是 自动作文评分 (Automated Essay Scoring, AES) 发展的驱动力。50 多年来，研究人员一直追寻着自然语言处理 (NLP) 领域的圣杯: 一个能够阅读学生作文并即时给出与人类专家相匹配分数的系统。

在过去的十年里，我们看到了性能的巨大飞跃。在深度学习和海量数据集的推动下，现代 AES 系统与人类评分员的相关性得分达到了以前认为不可能的高度。然而，得克萨斯大学达拉斯分校的研究人员 Shengjie Li 和 Vincent Ng 最近发表的一篇立场论文表明，该领域可能正在朝着错误的方向奔跑。

在这篇深度文章中，我们将探讨他们的论文 “Automated Essay Scoring: A Reflection on the State of the Art”。我们将剖析为何痴迷于打破基准数据可能会阻碍真正的进步，并看看作者提出的修复作文评分未来的七项具体建议。

现状: 今天的 AES 是如何工作的

要理解这一批评，我们需要先了解当前 AES 研究的“配方”。

从核心上讲，AES 是一个监督学习问题。你有一个输入 (一篇作文) 和一个输出 (通常是 1-6 分量表上的整体评分) 。目标是建立一个将文本映射到分数的模型。

原料

写作提示 (Prompt) : 学生写作的具体问题或主题。
作文 (Essay) : 学生的回答。
评分标准 (Rubric) : 人类用来确定写作质量的指导方针。
分数 (Score) : 分配给作品的最终整数值。

让我们看一看论文中的一个具体例子，看看这些数据在实践中是什么样子的。

表 1: 取自 ASAP 语料库 Essay Set 1 的一篇样本作文。写作提示显示在顶部。表 2: ASAP 语料库 Essay Set 1 的作文评分标准。

如上图 Figure 1 所示，我们看到一个提示，要求学生给报社写一封关于计算机影响的信。提供的样本作文试图论证计算机通过提供娱乐和交流造福人类。

然而，如果你仔细阅读，你会发现行文重复 (“So as you can see…”) ，论点浅薄，过渡生硬。根据 Figure 1 下半部分的评分标准，这篇作文得了 3 分 。它表明了立场，但支持不足。

一个典型的 AES 系统会摄入成千上万个这样的例子。在早期，研究人员使用 启发式方法 (heuristics) ——手动编写规则，比如“如果作文有 5 段，就在组织结构上给高分”。后来，该领域转向 机器学习 (ML) 方法，统计句子长度、词汇丰富度和语法错误等特征。

如今，标准是 深度学习 。研究人员使用神经网络 (如 LSTM 或 BERT 等 Transformer) 自动学习作文的“表征”。这些模型阅读文本并预测分数，无需手动进行特征工程。

指标: 二次加权 Kappa 系数 (QWK)

我们如何知道一个模型是否优秀？行业标准指标是 二次加权 Kappa 系数 (Quadratic Weighted Kappa, QWK) 。

QWK 衡量计算机与人类之间的一致性，但它比简单的准确率更聪明。它对“严重偏离”的惩罚远大于“轻微偏离”。

如果人类给 4 分，计算机猜 3 分，这是一个小惩罚。
如果人类给 4 分，计算机猜 1 分，这是一个巨大的惩罚。

这个指标主导了该领域。一篇成功的 AES 论文通常遵循一个可预测的模式: 提出一个新的神经架构，在标准数据集上运行它，并证明你的 QWK 比之前的最先进模型高出 0.01。

问题: “排行榜”陷阱

作者认为，这种专注于在单一数据集上逐步提高 QWK 的做法是危险的。它鼓励了“小格局思维”。

如果整个领域都在为一个数字进行优化，我们就有过拟合特定数据集怪癖的风险，而不是解决评估写作的实际问题。我们可能会建立极其擅长猜测特定 8 年级作文分数的系统，但在现实课堂中或面对英语作为第二语言的学生时却毫无用处。

Li 和 Ng 提出，我们需要停止盯着记分牌，开始关注比赛本身。他们将反思归类为几个关键领域: 评估、数据、任务以及大型语言模型 (LLM) 的角色。

反思 1: 评估与可解释性

建议 #1: 超越 QWK 分数。

深度学习模型通常是“黑盒”。一个基于 BERT 的模型可能处理 Figure 1 中的作文并正确输出“3”，但它能告诉我们 为什么 吗？

在前神经时代，模型在设计上是可解释的。如果回归模型给出低分，你可以看权重: “哦，模型惩罚这篇作文是因为句子复杂度得分低。”

对于现代神经网络，模型学习的是文本的密集向量表征。我们不知道它给作文打“3 分”是因为重复的过渡语 (“So as you can see”) ，还是仅仅因为作文很短。

作者敦促研究人员进行严格的 错误分析 。研究人员不应只报告平均分，而应追问:

模型在议论文上的表现是否优于记叙文？
它是否对少数类别 (例如得分极高或极低的作文) 有偏见？
它实际上是在检测“连贯性”，还是仅仅在数单词？

如果不理解模型为何提高性能，这种提升在科学上是空洞的。

反思 2: 数据的单一化

建议 #2: 不仅在 ASAP 语料库上进行评估。

在 AES 的世界里，有一个数据集统治着一切: 自动学生评估奖 (Automated Student Assessment Prize, ASAP) 语料库。它发布于 2012 年的 Kaggle 竞赛，包含数千篇由 7-10 年级美国学生写的作文。

虽然 ASAP 是一个很好的资源，但完全依赖它会产生盲点:

人口统计: ASAP 作文主要由美国学校系统中的英语母语者 (或精通英语的学生) 撰写。它们不能反映英语作为第二语言 (ESL) 学习者的具体困境，后者会犯不同类型的语法和词汇错误。
长度混淆: 在限时测试设置中 (如收集 ASAP 的环境) ，作文的长度与其分数高度相关。较长的作文通常得分较高。在 ASAP 上训练的模型通常会学习到一个简单的启发式规则: “越长 = 越好”。

如果你拿一个在 ASAP 上训练的模型，应用到学生有无限时间 (因此每个人都写了长作文) 的家庭作业中，模型可能会彻底失败，因为长度不再是一个有用的信号。

作者建议研究人员必须在多样化的语料库上测试他们的系统，例如 CLC-FCE (剑桥学习者语料库) 或 ICLE (国际英语学习者语料库) ，以证明他们的模型在不同的写作条件和作者背景下具有鲁棒性。

反思 3: 跨题评分的挑战

建议 #3: 解决跨题 AES 这一难题。

大多数 AES 研究是在 同题 (Within-Prompt) 设置下进行的。这意味着:

你有 1,000 篇关于“计算机的影响”这一题目的作文。
你用其中的 800 篇进行训练。
你用剩下的 200 篇进行测试——针对完全相同的题目。

这是“简单”模式。模型不需要理解问题；它只需要识别该特定主题的高分作文的词汇模式。

现实世界并非如此运作。老师想要一个能够给模型从未见过的新主题作文评分的系统。这就是 跨题 (Cross-Prompt) AES , 它也是出了名的困难。

为了有效地给新题目评分，模型需要当前系统所缺乏的两样东西:

世界知识: 如果新题目是关于“死刑”，模型需要知道哪些论点与该主题相关，以判断作文是否有说服力。
评分标准意识: 什么算作“好”作文的标准可能会改变。关于暑假的记叙文与关于政治的议论文有不同的标准。

作者批评目前的跨题尝试完全忽略了题目和评分标准。他们认为我们需要明确阅读新题目和评分标准 (可能使用 LLM 来提取知识) 的模型，以动态调整其评分标准。

反思 4: 特征 (Traits) 的力量

建议 #4: 使用具体特征来解决可解释性和泛化问题。

目前，大多数系统输出一个 整体分数 (Holistic Score) ——一个总结质量的单一数字。但回顾 Figure 1 , 评分标准不仅仅是一个单一数字。它描述了具体的维度:

立场表明 (Position Taking)
组织结构 (Organization)
句子流畅度 (Sentence Fluency)
受众意识 (Audience Awareness)

这些被称为 特征 (Traits) 。

作者认为，特征是解决反思 1 和 3 中提到的问题的关键。

对于可解释性: 如果模型预测整体分数为 3，但也预测组织结构为“低”分，语法为“高”分，学生就知道确切需要修改什么。
对于跨题泛化: 虽然作文的词汇因主题而异，但“良好的组织结构”这一概念相对稳定。无论是写计算机还是气候变化，结构良好的段落看起来都是相似的。

通过专注于对这些具体特征建模，而不仅仅是最终得分，研究人员可以建立更稳健且对学生更有帮助的系统。

反思 5: 数据瓶颈

建议 #5: 优先考虑语料库开发和共同愿景。

为什么我们在最初发布 10 多年后仍在使用 2012 年的数据集 (ASAP) ？因为建立作文数据集极其困难。

与抓取推文或新闻文章不同，出于隐私考虑，你不能轻易抓取学生作文。此外，标注它们很昂贵。你需要受过训练的教师来阅读，而不仅仅是随机的众包工人。

作者强调了一个“第二十二条军规”式的困境:

我们需要更好的模型 (如多特征评分) 。
为了建立它们，我们需要标注了特征的数据。
但标注特征太贵了，所以没人创建数据。
所以研究人员坚持使用旧数据 (ASAP) 。

为了打破这个循环，作者呼吁大型组织 (如 ETS 或大学) 发布 原始的、未标注的作文 或在这些作文上预训练的模型。他们还建议社区需要就标注达成“共同愿景”。如果我们要花钱进行标注，我们需要哪些层级？错误？论点强度？连贯性？

反思 6: LLM 的角色

建议 #6: 使用 LLM 进行辅助，而不仅仅是替代。

随着 ChatGPT 和 GPT-4 的兴起，AES 社区的直接反应是: “我们可以直接提示 LLM 给作文评分吗？”

早期结果表明，虽然 LLM 令人印象深刻，但在评分方面它们尚未优于微调过的专用模型。它们对提示的具体措辞很敏感，并且可能不一致。

然而，Li 和 Ng 建议了一种使用 LLM 的更聪明的方法: 增强 (Augmentation) 。

我们可以利用 LLM 处理研究中的“苦差事”，而不是要求 LLM 给出最终分数:

语料库创建: 要求 LLM 生成特定熟练程度的合成作文，以训练更小的专用模型。
标注辅助: 要求 LLM 对作文进行“预评分”或高亮潜在的语法错误。然后由人类专家审查 LLM 的工作。验证 LLM 的批评比从头开始评分要快得多。

这种“人机协作 (Human-in-the-loop) ”的方法利用 LLM 的生成能力来解决反思 5 中讨论的数据稀缺问题。

反思 7: 评分之外

建议 #7: 将 AES 集成到教育系统中。

最后，论文提醒我们，分数不是终点。在课堂上，分数旨在成为反馈循环的一部分。

目前的 AES 研究将分数视为最终产品。作者鼓励研究人员思考 智能辅导系统 (Intelligent Tutoring Systems) 。如何将评分模型嵌入到一个写作助手当中，在学生起草时为其提供帮助？

如果我们将特定特征评分 (反思 4) 与反馈生成相结合，我们就从“自动作文评分”迈向了“自动写作评估”，这在改善教育成果方面具有更大的潜力。

结论: 推动领域向前发展

自动作文评分领域正处于十字路口。我们已经掌握了在 ASAP 数据集上训练神经网络预测数字的艺术。但正如 Li 和 Ng 所论证的那样，最大化 QWK 是一场短期游戏。

为了构建下一代写作技术，研究人员需要接受这样一个事实: 问题比排行榜更复杂。我们需要:

更深入的分析 , 了解模型为何如此表现。
更广泛的数据集 , 反映全球学习者的现实。
基于特征的模型 , 提供可操作的反馈。
LLM 的协作使用 , 以建立该领域缺乏的基础设施。

通过将重点从“击败最先进技术”转移到“推进对写作的理解”，AES 社区可以兑现 50 年前做出的承诺: 节省教师的时间并帮助学生写得更好。

现状: 今天的 AES 是如何工作的#

原料#

指标: 二次加权 Kappa 系数 (QWK)#

问题: “排行榜”陷阱#

反思 1: 评估与可解释性#

反思 2: 数据的单一化#

反思 3: 跨题评分的挑战#

反思 4: 特征 (Traits) 的力量#

反思 5: 数据瓶颈#

反思 6: LLM 的角色#

反思 7: 评分之外#

结论: 推动领域向前发展#