想象一下,一位高中英语老师在周日晚上坐在书桌前。面前是 150 篇关于“计算机对社会的影响”的作文。批改每一篇至少需要 10 分钟。那仅仅为了一次作业就要花费 25 个小时。
这种场景是 自动作文评分 (Automated Essay Scoring, AES) 发展的驱动力。50 多年来,研究人员一直追寻着自然语言处理 (NLP) 领域的圣杯: 一个能够阅读学生作文并即时给出与人类专家相匹配分数的系统。
在过去的十年里,我们看到了性能的巨大飞跃。在深度学习和海量数据集的推动下,现代 AES 系统与人类评分员的相关性得分达到了以前认为不可能的高度。然而,得克萨斯大学达拉斯分校的研究人员 Shengjie Li 和 Vincent Ng 最近发表的一篇立场论文表明,该领域可能正在朝着错误的方向奔跑。
在这篇深度文章中,我们将探讨他们的论文 “Automated Essay Scoring: A Reflection on the State of the Art”。我们将剖析为何痴迷于打破基准数据可能会阻碍真正的进步,并看看作者提出的修复作文评分未来的七项具体建议。
现状: 今天的 AES 是如何工作的
要理解这一批评,我们需要先了解当前 AES 研究的“配方”。
从核心上讲,AES 是一个监督学习问题。你有一个输入 (一篇作文) 和一个输出 (通常是 1-6 分量表上的整体评分) 。目标是建立一个将文本映射到分数的模型。
原料
- 写作提示 (Prompt) : 学生写作的具体问题或主题。
- 作文 (Essay) : 学生的回答。
- 评分标准 (Rubric) : 人类用来确定写作质量的指导方针。
- 分数 (Score) : 分配给作品的最终整数值。
让我们看一看论文中的一个具体例子,看看这些数据在实践中是什么样子的。

如上图 Figure 1 所示,我们看到一个提示,要求学生给报社写一封关于计算机影响的信。提供的样本作文试图论证计算机通过提供娱乐和交流造福人类。
然而,如果你仔细阅读,你会发现行文重复 (“So as you can see…”) ,论点浅薄,过渡生硬。根据 Figure 1 下半部分的评分标准,这篇作文得了 3 分 。 它表明了立场,但支持不足。
一个典型的 AES 系统会摄入成千上万个这样的例子。在早期,研究人员使用 启发式方法 (heuristics) ——手动编写规则,比如“如果作文有 5 段,就在组织结构上给高分”。后来,该领域转向 机器学习 (ML) 方法,统计句子长度、词汇丰富度和语法错误等特征。
如今,标准是 深度学习 。 研究人员使用神经网络 (如 LSTM 或 BERT 等 Transformer) 自动学习作文的“表征”。这些模型阅读文本并预测分数,无需手动进行特征工程。
指标: 二次加权 Kappa 系数 (QWK)
我们如何知道一个模型是否优秀?行业标准指标是 二次加权 Kappa 系数 (Quadratic Weighted Kappa, QWK) 。
QWK 衡量计算机与人类之间的一致性,但它比简单的准确率更聪明。它对“严重偏离”的惩罚远大于“轻微偏离”。
- 如果人类给 4 分,计算机猜 3 分,这是一个小惩罚。
- 如果人类给 4 分,计算机猜 1 分,这是一个巨大的惩罚。
这个指标主导了该领域。一篇成功的 AES 论文通常遵循一个可预测的模式: 提出一个新的神经架构,在标准数据集上运行它,并证明你的 QWK 比之前的最先进模型高出 0.01。
问题: “排行榜”陷阱
作者认为,这种专注于在单一数据集上逐步提高 QWK 的做法是危险的。它鼓励了“小格局思维”。
如果整个领域都在为一个数字进行优化,我们就有过拟合特定数据集怪癖的风险,而不是解决评估写作的实际问题。我们可能会建立极其擅长猜测特定 8 年级作文分数的系统,但在现实课堂中或面对英语作为第二语言的学生时却毫无用处。
Li 和 Ng 提出,我们需要停止盯着记分牌,开始关注比赛本身。他们将反思归类为几个关键领域: 评估、数据、任务以及大型语言模型 (LLM) 的角色。
反思 1: 评估与可解释性
建议 #1: 超越 QWK 分数。
深度学习模型通常是“黑盒”。一个基于 BERT 的模型可能处理 Figure 1 中的作文并正确输出“3”,但它能告诉我们 为什么 吗?
在前神经时代,模型在设计上是可解释的。如果回归模型给出低分,你可以看权重: “哦,模型惩罚这篇作文是因为句子复杂度得分低。”
对于现代神经网络,模型学习的是文本的密集向量表征。我们不知道它给作文打“3 分”是因为重复的过渡语 (“So as you can see”) ,还是仅仅因为作文很短。
作者敦促研究人员进行严格的 错误分析 。 研究人员不应只报告平均分,而应追问:
- 模型在议论文上的表现是否优于记叙文?
- 它是否对少数类别 (例如得分极高或极低的作文) 有偏见?
- 它实际上是在检测“连贯性”,还是仅仅在数单词?
如果不理解模型 为何 提高性能,这种提升在科学上是空洞的。
反思 2: 数据的单一化
建议 #2: 不仅在 ASAP 语料库上进行评估。
在 AES 的世界里,有一个数据集统治着一切: 自动学生评估奖 (Automated Student Assessment Prize, ASAP) 语料库。它发布于 2012 年的 Kaggle 竞赛,包含数千篇由 7-10 年级美国学生写的作文。
虽然 ASAP 是一个很好的资源,但完全依赖它会产生盲点:
- 人口统计: ASAP 作文主要由美国学校系统中的英语母语者 (或精通英语的学生) 撰写。它们不能反映英语作为第二语言 (ESL) 学习者的具体困境,后者会犯不同类型的语法和词汇错误。
- 长度混淆: 在限时测试设置中 (如收集 ASAP 的环境) ,作文的长度与其分数高度相关。较长的作文通常得分较高。在 ASAP 上训练的模型通常会学习到一个简单的启发式规则: “越长 = 越好”。
如果你拿一个在 ASAP 上训练的模型,应用到学生有无限时间 (因此每个人都写了长作文) 的家庭作业中,模型可能会彻底失败,因为长度不再是一个有用的信号。
作者建议研究人员必须在多样化的语料库上测试他们的系统,例如 CLC-FCE (剑桥学习者语料库) 或 ICLE (国际英语学习者语料库) ,以证明他们的模型在不同的写作条件和作者背景下具有鲁棒性。
反思 3: 跨题评分的挑战
建议 #3: 解决跨题 AES 这一难题。
大多数 AES 研究是在 同题 (Within-Prompt) 设置下进行的。这意味着:
- 你有 1,000 篇关于“计算机的影响”这一题目的作文。
- 你用其中的 800 篇进行训练。
- 你用剩下的 200 篇进行测试——针对完全相同的题目。
这是“简单”模式。模型不需要理解问题;它只需要识别该特定主题的高分作文的词汇模式。
现实世界并非如此运作。老师想要一个能够给模型从未见过的 新 主题作文评分的系统。这就是 跨题 (Cross-Prompt) AES , 它也是出了名的困难。
为了有效地给新题目评分,模型需要当前系统所缺乏的两样东西:
- 世界知识: 如果新题目是关于“死刑”,模型需要知道哪些论点与该主题相关,以判断作文是否有说服力。
- 评分标准意识: 什么算作“好”作文的标准可能会改变。关于暑假的记叙文与关于政治的议论文有不同的标准。
作者批评目前的跨题尝试完全忽略了题目和评分标准。他们认为我们需要明确阅读新题目和评分标准 (可能使用 LLM 来提取知识) 的模型,以动态调整其评分标准。
反思 4: 特征 (Traits) 的力量
建议 #4: 使用具体特征来解决可解释性和泛化问题。
目前,大多数系统输出一个 整体分数 (Holistic Score) ——一个总结质量的单一数字。但回顾 Figure 1 , 评分标准不仅仅是一个单一数字。它描述了具体的维度:
- 立场表明 (Position Taking)
- 组织结构 (Organization)
- 句子流畅度 (Sentence Fluency)
- 受众意识 (Audience Awareness)
这些被称为 特征 (Traits) 。
作者认为,特征是解决反思 1 和 3 中提到的问题的关键。
- 对于可解释性: 如果模型预测整体分数为 3,但也预测组织结构为“低”分,语法为“高”分,学生就知道确切需要修改什么。
- 对于跨题泛化: 虽然作文的 词汇 因主题而异,但“良好的组织结构”这一概念相对稳定。无论是写计算机还是气候变化,结构良好的段落看起来都是相似的。
通过专注于对这些具体特征建模,而不仅仅是最终得分,研究人员可以建立更稳健且对学生更有帮助的系统。
反思 5: 数据瓶颈
建议 #5: 优先考虑语料库开发和共同愿景。
为什么我们在最初发布 10 多年后仍在使用 2012 年的数据集 (ASAP) ?因为建立作文数据集极其困难。
与抓取推文或新闻文章不同,出于隐私考虑,你不能轻易抓取学生作文。此外,标注它们很昂贵。你需要受过训练的教师来阅读,而不仅仅是随机的众包工人。
作者强调了一个“第二十二条军规”式的困境:
- 我们需要更好的模型 (如多特征评分) 。
- 为了建立它们,我们需要标注了特征的数据。
- 但标注特征太贵了,所以没人创建数据。
- 所以研究人员坚持使用旧数据 (ASAP) 。
为了打破这个循环,作者呼吁大型组织 (如 ETS 或大学) 发布 原始的、未标注的作文 或在这些作文上预训练的模型。他们还建议社区需要就标注达成“共同愿景”。如果我们要花钱进行标注,我们需要哪些层级?错误?论点强度?连贯性?
反思 6: LLM 的角色
建议 #6: 使用 LLM 进行辅助,而不仅仅是替代。
随着 ChatGPT 和 GPT-4 的兴起,AES 社区的直接反应是: “我们可以直接提示 LLM 给作文评分吗?”
早期结果表明,虽然 LLM 令人印象深刻,但在评分方面它们尚未优于微调过的专用模型。它们对提示的具体措辞很敏感,并且可能不一致。
然而,Li 和 Ng 建议了一种使用 LLM 的更聪明的方法: 增强 (Augmentation) 。
我们可以利用 LLM 处理研究中的“苦差事”,而不是要求 LLM 给出最终分数:
- 语料库创建: 要求 LLM 生成特定熟练程度的合成作文,以训练更小的专用模型。
- 标注辅助: 要求 LLM 对作文进行“预评分”或高亮潜在的语法错误。然后由人类专家审查 LLM 的工作。验证 LLM 的批评比从头开始评分要快得多。
这种“人机协作 (Human-in-the-loop) ”的方法利用 LLM 的生成能力来解决反思 5 中讨论的数据稀缺问题。
反思 7: 评分之外
建议 #7: 将 AES 集成到教育系统中。
最后,论文提醒我们,分数不是终点。在课堂上,分数旨在成为反馈循环的一部分。
目前的 AES 研究将分数视为最终产品。作者鼓励研究人员思考 智能辅导系统 (Intelligent Tutoring Systems) 。 如何将评分模型嵌入到一个写作助手当中,在学生起草 时 为其提供帮助?
如果我们将特定特征评分 (反思 4) 与反馈生成相结合,我们就从“自动作文评分”迈向了“自动写作评估”,这在改善教育成果方面具有更大的潜力。
结论: 推动领域向前发展
自动作文评分领域正处于十字路口。我们已经掌握了在 ASAP 数据集上训练神经网络预测数字的艺术。但正如 Li 和 Ng 所论证的那样,最大化 QWK 是一场短期游戏。
为了构建下一代写作技术,研究人员需要接受这样一个事实: 问题比排行榜更复杂。我们需要:
- 更深入的分析 , 了解模型为何如此表现。
- 更广泛的数据集 , 反映全球学习者的现实。
- 基于特征的模型 , 提供可操作的反馈。
- LLM 的协作使用 , 以建立该领域缺乏的基础设施。
通过将重点从“击败最先进技术”转移到“推进对写作的理解”,AES 社区可以兑现 50 年前做出的承诺: 节省教师的时间并帮助学生写得更好。
](https://deep-paper.org/en/paper/file-2774/images/cover.png)