给评分者评分：强化学习与 QWK 如何彻底变革自动作文评分

给作文评分是一项主观、微妙且令人筋疲力尽的工作。老师不会只盯着卷子说“10 分里给 8 分”。他们会同时评估结构、词汇、语法和内容。自动作文评分 (AES) 系统试图复制这一过程，但历史上它们一直面临一个巨大的技术障碍: 训练方式与评估方式之间的错位 。

大多数 AES 系统在训练时旨在最小化简单的误差范围 (如均方误差) ，但在现实世界中，评估它们的标准是二次加权 Kappa 系数 (Quadratic Weighted Kappa, QWK) 。 QWK 衡量的是 AI 与人类评分员之间的一致性，并会严厉惩罚较大的偏差。问题在于？QWK 在数学上是“不可微的”，这意味着你无法轻易使用它通过标准的反向传播来训练神经网络。

在这篇文章中，我们将探讨浦项科技大学 (POSTECH) 研究人员提出的一个新框架，称为 SaMRL (评分感知多奖励强化学习) 。该方法通过使用强化学习直接针对 QWK 进行优化，从而弥合了这一差距，它不将作文评分视为分类问题，而是将其视为文本生成任务。

核心问题: 指标错位

要理解为什么需要 SaMRL，我们首先需要看看传统的 AES 模型是如何工作的。通常，它们分为两大阵营:

回归模型 (Regression Models): 这些模型将分数视为连续的数字。它们使用均方误差 (MSE) 进行训练。它们擅长接近目标值，但在本质上并不理解分数的“类别”。
分类模型 (Classification Models): 这些模型将每个可能的分数 (例如 1, 2, 3, 4) 视为一个独特的类别。它们输出每个类别的概率。

然而，评估这些系统的黄金标准是二次加权 Kappa (QWK) 。 QWK 很复杂: 它关心分数的排序。将 1 分混淆为 2 分是一个小错误；将 1 分混淆为 10 分是一个巨大的错误。标准的交叉熵损失 (用于分类) 对所有错误的对待大致相同。

不同 AES 框架概览。自回归框架消除了对多个特质层 (trait-wise layers) 的需求。分类和自回归 AES 模型以概率方式预测最终分数；因此，策略梯度强化算法是适用的。

如图 1 所示，研究人员建议摆脱单纯的回归或分类。相反，他们利用了自回归框架 (Autoregressive Framework) 。这意味着模型将分数作为一串文本 Token 生成 (例如，生成文本“Trait 1 Score 3”) 。这种生成过程会产生概率分布，从而开启了使用强化学习 (RL) 的可能性。

有了 RL，我们不需要可微的损失函数。我们只需要一个“奖励 (Reward)”。如果模型生成的分数与人类实现了较高的 QWK 一致性，我们就给它一个正向奖励。如果失败，我们就给它一个负向奖励。

SaMRL 方法: 深入解析

这篇论文的核心是 SaMRL 。它旨在同时对作文的多个特质 (例如内容、组织、流畅度) 进行评分。

1. 架构

该模型使用 T5 (文本到文本传输 Transformer) 架构。给定一篇作文，它不仅仅输出一个数字。它生成一串描述特质和分数的文本，例如: Content 3, Organization 4, Fluency 3...

这把评分变成了一个语言生成任务。因为模型预测下一个 Token 的概率，研究人员可以使用策略梯度算法 (具体来说是 PPO) 来训练它。

2. 强化学习循环

训练过程如下图所示。“策略 (Policy)” (即正在训练的 AI) 观察一篇作文并生成分数。这些分数与人类标签进行比较以计算奖励。

图 2: 提出的采用 SaMRL 的自回归多特质 AES 整个过程概览。我们通过 Token 级 KL 正则化在策略模型内维持分数生成的结构，并通过引入多个评分感知奖励使模型与人类判断保持一致。

这里有两个关键组件确保模型正确学习:

锚点模型 (The Anchor Model): 原始模型的一个冻结副本 (显示为蓝色) 。我们使用 KL 正则化来确保训练后的模型 (策略) 不会偏离锚点太远。这保证了模型保持生成有效的文本格式，而不会为了博取奖励系统而退化成乱码。
评分感知奖励 (Scoring-Aware Rewards): 这是论文的主要贡献。

3. 设计完美的奖励

你可能会想，“直接把 QWK 用作奖励不就行了。”然而，QWK 通常是基于一批 (batch) 作文计算的，而不是单篇。使用单一的批次级指标会导致训练不稳定，因为批次中的每篇作文都会得到完全相同的奖励，无论其个体质量如何。

为了解决这个问题，SaMRL 使用了一个包含三种不同信号的多奖励系统 。

信号 A: 批次级 QWK (\(Q_B\)) 这是标准指标。它检查整批作文中模型预测与人类标签的一致性。

\[ Q _ { B } = 1 - \frac { \sum _ { i , j } W _ { i , j } C _ { i , j } } { \sum _ { i , j } W _ { i , j } E _ { i , j } } \]

Q_B 的公式

信号 B: 特质级 QWK (\(Q_T\)) 这是一个新颖的补充。模型不仅仅关注批次，还会计算单篇作文内多个特质 (内容、组织等) 的 QWK。这提供了一个样本特定的奖励信号，使模型能够理解它在哪些具体的作文上评分表现良好。

研究人员将这两者结合成一个双向 QWK 奖励 (\(r_Q\)) :

\[ \begin{array} { r } { r _ { Q } ( S , \hat { S } ) = \lambda \cdot Q _ { B } + ( 1 - \lambda ) \cdot Q _ { T } } \end{array} \]

双向 QWK 奖励的公式

信号 C: MSE 惩罚 (\(r_M\)) 强化学习有时会“玩弄”指标，从而忽视了绝对数值。为了让模型脚踏实地，研究人员引入了均方误差 (MSE) 奖励。这作为一个稳定器，如果预测分数与人类分数之间的原始数值距离过大，就会惩罚模型。

\[ r _ { M } ( \boldsymbol { S } , \hat { \boldsymbol { S } } ) = - \frac { 1 } { m } \sum _ { j = 1 } ^ { m } \sqrt { \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( s _ { i j } - \hat { s } _ { i j } ) ^ { 2 } } \]

MSE 奖励的公式

4. 融会贯通

最终的训练目标将其视为一个多任务学习问题。总损失结合了策略梯度损失 (由上述奖励驱动) 和 KL 散度正则化。

这些损失的权重 (\(w_Q\) 和 \(w_M\)) 不是固定的常数。它们是可学习参数 。这意味着模型会在训练过程中动态决定是更多地关注提高 QWK 还是降低 MSE。

\[ l o s s _ { t o t a l } = w _ { Q } l o s s _ { R _ { Q } } + w _ { M } l o s s _ { R _ { M } } \]

总损失公式

实验结果

研究人员在 ASAP 和 ASAP++ 数据集上测试了 SaMRL，这是作文评分的标准基准。他们将自己的方法与之前的 SOTA 模型 ArTS (自回归特质评分) 进行了比较。

SOTA 性能

结果令人信服。SaMRL 在几乎每个特质上都取得了更高的 QWK 分数。

表 2: 各特质在不同题目上的平均 QWK 评估结果。特质是从右向左预测的。实现的基线模型和我们的模型中的较高值以粗体表示。

在表 2 中，我们看到结果按特质 (内容、语言、组织等) 细分。SaMRL (标记为“Ours”的行) 始终击败 ArTS 基线。这种改进具有统计学意义，验证了直接针对评估指标 (QWK) 进行优化比间接优化能产生更好的最终性能。

跨题目类型的鲁棒性

最有趣的发现之一是模型在不同类型作文上的表现。数据集包含“议论文 (Argumentative)” (题目 1, 2, 8) 和“基于源材料的作文 (Source-Dependent)” (题目 3-6) 。

与基于源材料的作文 (0 到 4 分) 相比，该数据集中的议论文通常具有更宽的分数范围 (例如 0 到 60 分) 。分类模型众所周知地难以应对宽泛的范围，因为类别数量变得难以管理。

图 3: 不同特质构成的不同题目类型之间的性能比较。题目 1、2 和 8 评估相同的特质，而题目 3-6 评估另外一组相同的特质。

如图 3 (左图) 所示，SaMRL (红色三角形) 在题目 P1、P2 和 P8 上显着优于基线 (蓝色圆形) 。这表明 RL 方法有效地处理了宽分数范围的复杂性，这是分类 AES 的历史弱点。

为什么多奖励系统很重要

复杂的奖励系统是必要的吗？研究人员进行了消融研究来找出答案。他们分别测试了仅使用 MSE 奖励 (\(SaSRL_M\))、仅使用 QWK 奖励 (\(SaSRL_Q\))，以及将 QWK 拆分为单向组件的模型。

表 4: 比较使用评分感知单一奖励和实施单向 QWK 奖励而非双向奖励的消融结果。SaMRL_biQ 表示我们的 SaMRL 模型。

表 4 揭示了两个关键见解:

MSE 帮助很大: 仅使用 MSE (\(SaSRL_M\)) 的模型实际上表现相当不错，证明简单地向生成模型添加回归惩罚是有益的。
组合为王: 完整的 SaMRL 模型 (\(SaMRL\_biQ\)) 结合了双向 QWK 和 MSE，取得了最高分。“一致性”指标 (QWK) 和“精确度”指标 (MSE) 之间的相互作用产生了协同效应。

与分类 RL 的比较

最后，值得一看的是，这种生成式 RL 方法与过去试图将 RL 应用于分类模型的尝试相比如何。

图 4: 基于分类的 RL 模型与我们的 SaMRL 在整体分数预测上的比较结果。

图 4 描绘了一幅清晰的图景。基于分类的 RL 模型 (绿色圆形和蓝色三角形) 在题目 8 (P8) 上挣扎明显，该题目的分数范围最宽 (0-60)。SaMRL (红色五角星) 保持了高性能。这证实了在应用强化学习时，将评分视为生成任务优于将其视为分类任务。

动态学习动态

SaMRL 的一个微妙但很酷的特性是损失函数的可学习权重。研究人员没有硬编码模型应该在多大程度上关注 QWK 与 MSE，而是让模型学习这些权重。

图 5: loss R_Q (W_QWK) 和 loss R_M (W_MSE) 的更新权重随训练步骤的变化 (左) ；固定权重模型与具有可训练权重的 SaMRL 模型之间按题目平均的 QWK 性能比较。

左图显示了这些权重的演变。有趣的是，MSE 的权重 (\(W_{MSE}\)，红线) 随时间增加，而 QWK 的权重 (\(W_{QWK}\)，蓝线) 减少。这表明在早期阶段，模型受益于 QWK 的结构性反馈，但随着它的收敛，通过 MSE 进行精确的误差最小化成为微调的主导驱动力。

结论与关键要点

SaMRL 论文在自动作文评分方面迈出了重要一步。通过将范式从简单的回归或分类转变为通过强化学习优化的自回归生成 , 作者解决了“不可微 QWK”这一长期存在的问题。

给学生的关键要点:

让训练与评估对齐: 如果你的指标是 QWK，就试着在 QWK 上训练。RL 允许你针对无法微分的指标进行优化。
不要抛弃 MSE: 即使在复杂的 RL 设置中，像均方误差这样简单的奖励也能提供必要的基础和稳定性。
生成模型也可以做回归: 使用文本生成模型 (如 T5) 输出数字，可以比标准的回归头 (regression heads) 提供更灵活的概率分布。

这项研究强调了像强化学习这样的“旧”技术如何被创造性地应用于像 Transformer 这样的“新”架构，以解决自然语言处理中具体、微妙的问题。

核心问题: 指标错位#

SaMRL 方法: 深入解析#

1. 架构#

2. 强化学习循环#

3. 设计完美的奖励#

4. 融会贯通#

实验结果#

SOTA 性能#

跨题目类型的鲁棒性#

为什么多奖励系统很重要#

与分类 RL 的比较#

动态学习动态#

结论与关键要点#