词汇习得往往是学生们的梦魇。无论是准备 GRE、学习一门新语言,还是掌握医学术语,海量的新词汇都让人不堪重负。认知科学早已提供了一个解决方案: 关键词助记法 (keyword mnemonics) 。 这是一种令人难忘的语言链接,它将一个新的、复杂的术语与一个更简单、熟悉的关键词联系起来,随后通过解释将两者架起桥梁。
例如,要学习 Benevolent (意味着仁慈) ,你可以将其与 Benefit (利益/福利) 联系起来。解释是: “给员工提供 benefits (福利) 的老板是仁慈的——也就是 benevolent 。 ”
虽然这种方法有效,但创造这些助记符非常消耗脑力。它需要创造力、语音意识和语义推理能力。自然地,研究人员将目光投向了大型语言模型 (LLMs) 来实现自动化。但这里有个陷阱: 仅仅要求 LLM “写一个助记符”并不能保证它真能帮助学生学习。
在这篇深度文章中,我们将探讨一篇引人入胜的论文,题为 “A SMART Mnemonic Sounds like ‘Glue Tonic’”。研究人员介绍了 SMART (Student Mnemonic Alignment for the Recall of Terms,用于术语回忆的学生助记符对齐) ,这是一个不仅仅生成文本,还能从学生的实际学习方式中进行学习的系统。
这篇论文提出了一个发人深省的发现: 学生认为有助于他们学习的东西,往往与实际上帮助他们学习的东西不同。 通过理清这两种类型的偏好并将其输入到一个复杂的贝叶斯模型中,研究人员创建了一个在性能上匹配 GPT-4 但成本仅为其一小部分的 LLM。
让我们来拆解他们是如何做到的。
自动化助记符的问题
在这项工作之前,自动助记符生成主要依赖于寻找押韵词 (语音链接) 。然而,一个好的助记符需要两个部分:
- 关键词: 一个听起来像目标术语但更简单的词。
- 解释: 一个令人难忘的叙述,将关键词的含义与目标术语的定义联系起来。
LLM 非常擅长编写解释,但它们可能会产生幻觉般的联想,或者创建令人困惑而非有益的链接。此外,大多数 LLM 训练 (RLHF——基于人类反馈的强化学习) 依赖于“表达性偏好 (Expressed Preferences) ”——即询问人类,“这两个回答中你更喜欢哪一个?”
在教育领域,“喜欢”一个回答并不意味着你从中尝到了知识。研究人员假设,要构建一个真正的教育模型,他们不仅需要将 LLM 与学生说他们喜欢的东西对齐,还需要与观察到的学习成果对齐。
SMART 流程: 概览
研究人员设计了一个四阶段的流程来构建 SMART 模型。

如图 1 所示,该流程是循环迭代的:
- 监督微调 (§2): 他们首先使用精心策划的数据集,教导基础模型 (LLaMA-2 70B) 掌握助记符的基本格式。
- 偏好收集 (§3): 他们将模型部署在一个真实的抽认卡应用程序中,从学生那里收集数据。
- 贝叶斯建模 (§5.1): 他们使用高级统计学方法来综合不同类型的反馈 (评分 vs. 学习速度) 。
- DPO (§5.2): 他们使用综合信号来优化模型,使其变得“更聪明 (smarter) ”。
让我们分解每一个阶段。
第一阶段: 初始模型 (监督微调)
你无法对齐一个产出垃圾的模型。在收集学生反馈之前,研究人员需要一个能够生成像样助记符的基础模型。
由于不存在大规模的助记符数据集,他们构建了一个。他们抓取了 MnemonicDictionary 的数据,这是一个社区网站,用户可以在上面提交助记符并进行投票。然而,互联网数据充满了噪声。一个有 5 个赞和 0 个踩的助记符可能比一个有 100 个赞和 90 个踩的助记符更好,但在样本量不同时,简单的比例会产生误导。
为了解决这个问题,他们使用贝叶斯方法,根据赞成票 (\(v_{u,i}\)) 和反对票 (\(v_{d,i}\)) 来估计助记符的“真实质量” (\(q_i\))。

他们将质量 \(q_i\) 建模为 Beta 分布。这允许存在一个“先验”信念 (即大约 20% 的助记符是高质量的) ,并根据观察到的投票更新该信念。他们选择了前 1,000 个最高质量的助记符来微调 LLaMA-2 70B。
训练目标是标准的交叉熵损失 (\(\mathcal{L}_{CE}\)) ,教导模型预测有效助记符序列中的下一个 token:

这产生了一个模型 \(p_0(m|v)\),它可以接受一个词汇术语 \(v\) 并生成一个助记符 \(m\)。
第二阶段: 在真实环境中收集偏好
这是该研究的突破性进展。研究人员没有使用付费的众包工作者来查看静态文本,而是构建了一个功能齐全的基于网络的抽认卡应用程序 。
他们招募了 45 名准备 GRE 等考试的学生。学生们通过使用该应用学习词汇来获得报酬。当学生无法回忆起定义时,应用程序会通过展示模型生成的助记符来进行干预。

这种设置允许研究人员收集两类截然不同的反馈: 表达性偏好和观察性偏好 。
1. 表达性偏好 (他们说什么)
这是 LLM 对齐中使用的标准指标。
- 李克特量表评分 (Likert Ratings) : 看到助记符后,学生可以对其进行 1 到 5 星的评分。

- 成对比较 (Pairwise Comparisons) : 如果学生最终回答正确,有时会并排展示两个助记符,并被问到: “你认为哪个助记符能更好地帮助你学习?”

2. 观察性偏好 (他们做什么)
这是隐藏的信号。由于应用程序跟踪了每一次交互,研究人员可以计算学习曲线 。
- 指标: 学生在看到助记符后,需要多少“轮次” (尝试次数) 才能正确回忆起定义。
- 如果助记符 A 让学生在 1 轮内学会了这个词,而助记符 B 花了 5 轮,那么助记符 A 在短期回忆方面客观上更有效,无论学生如何“评价”它。
冲突: 学生并不总是知道什么最好
这是论文的关键所在。你可能会假设,如果学生给一个助记符打了 5 星,说明他们很快就学会了这个词。
数据表明并非如此。

如图 5 所示,李克特评分与回忆所需的迭代次数之间的相关性基本上为零 (\(r = -0.06\))。
- 表达性偏好 (\(y_{pair}\), \(y_{rate}\)) 衡量的是用户认为什么有帮助 (或者可能是什么更有趣) 。
- 观察性偏好 (\(y_{learn}\)) 衡量的是实际的认知效用。
这两种信号之间的一致性低得惊人。如下面的表 1 所示,虽然成对比较和评分偏好在 67.5% 的情况下是一致的,但评分与实际学习成果之间的一致性下降到接近 50%——基本上就是随机概率。

这意味着,仅仅根据人类评分来优化 LLM (标准的 RLHF 方法) 可能会导致模型虽然让用户喜欢,但却无法实现教育目标。
第三阶段: 贝叶斯模型
研究人员现在面临一个两难境地。他们拥有相互冲突的信号。他们不想完全抛弃“表达性”偏好——如果一个助记符有效但具有冒犯性或怪异,学生可能会讨厌它 (这是理所当然的) 。但他们需要优先考虑学习效果。
为了解决这个问题,他们构建了一个分层贝叶斯模型 。 他们不把投票视为真理,而是将助记符的“真实有效性”视为一个潜在 (隐藏) 变量 \(\theta\)。
他们假设每个助记符都有一个有效性得分 \(\theta\),呈均匀分布:

该模型将三个数据源 (成对比较、评分、学习) 视为由这个隐藏的有效性得分生成的噪声观测值。
成对选择建模: 如果助记符 A 比助记符 B 更有效 (\(\theta_A > \theta_B\)),用户选择 A 的概率通过 Sigmoid 函数和 Bradley-Terry 模型 (一种用于竞争排名的标准模型) 来建模:

评分建模: 同样,更高的 \(\theta\) 应该导致更高的星级评分分布。

学习建模 (几何分布方法) : 这是最巧妙的建模选择。他们将“学习所需的轮次”视为一系列失败后的一次成功。这在数学上符合几何分布 。 如果一个助记符非常有效 (高 \(\theta\)) ,那么在任何给定轮次成功的概率都很高,这意味着所需的轮次 (\(t_j\)) 将会很低。

通过运行这个模型 (使用 NUTS 等采样方法) ,研究人员可以推断出每一对助记符的一个单一、综合的“有效性”得分,从而聚合了评分的智慧与学习速度的现实。
第四阶段: 直接偏好优化 (DPO)
有了贝叶斯推导出的“有效性”标签,研究人员进入了最后阶段: 对齐。
他们使用了直接偏好优化 (DPO) 。 与传统的 RLHF 不同 (RLHF 需要训练一个单独的奖励模型,然后使用 PPO 来更新语言模型,这是一个复杂且不稳定的过程) ,DPO 直接优化语言模型。
损失函数本质上是鼓励模型增加“获胜”助记符 (\(y_w\)) 的可能性,并降低“失败”助记符 (\(y_l\)) 的可能性,权重的依据是基础模型 (\(\pi_0\)) 已经对它们的偏好程度。

他们在这些基于贝叶斯推导的偏好上训练了 SMART 模型。这有效地将学生评分和学习成果的组合信号“内化”到了 LLaMA-2 的权重中。
实验与结果
所有的这些数学运算和用户研究真的能产生更好的助记符吗?研究人员将 SMART 与基线进行了评估,基线包括未经微调的 LLaMA 模型和 GPT-4。
结合偏好有帮助吗?
一个主要问题是,结合相互冲突的信号 (表达性 vs. 观察性) 是否比只使用其中一种更好。
研究人员发现,使用贝叶斯信号 (结合所有内容) 优于仅使用成对比较。为什么?
- 打破平局: 在许多情况下,学生将两个助记符评为“相等” (平局) 。标准的对齐方法会丢弃这些数据点。然而,贝叶斯模型可以查看这些“平局”助记符的学习速度数据来找出赢家。
- 数据增强: 通过使用其他数据源解决平局和缺失标签的问题,他们增加了有效的训练数据量。
如下面的表 12 所示,使用完整信号对齐的 DPO 模型 (\(p_{dpo}\)) 显着优于基础模型 (\(p_0\)),并且在方向上优于仅使用部分数据训练的模型。

SMART vs. GPT-4 vs. 人类
最终的测试是质量。研究人员聘请了专家 (助记符研究人员) 对以下系统生成的助记符进行盲评:
- SMART (对齐后的 LLaMA-2 模型)
- Transphoner (以前最先进的非 LLM 系统)
- GPT-4 (10-shot 提示)
- Human (专业创意作家)
结果 (图 6) :

- SMART 匹敌 GPT-4: 尽管 SMART 是一个较小的开源模型 (LLaMA-2 70B) ,而 GPT-4 是专有的巨型模型,但 SMART 生成的助记符质量相当。这验证了将小模型与特定领域的高质量人类反馈对齐的威力。
- 人类仍然是冠军: 专业作家在简洁性 (Simplicity) 和可意象性 (Imageability) 方面得分始终更高。
- *简洁性: * LLM 经常选择本身就很晦涩的关键词 (例如,用 Pythagoras (毕达哥拉斯) 来解释 Pithy (简洁的) ) 。人类则选择简单的词 (例如,Pithy \(\rightarrow\) Pit (坑) ) 。
- *可意象性: * 人类编写的解释能唤起生动的心理图像,这对记忆至关重要。LLM 往往更抽象。
SMART 助记符看起来像什么?
该模型生成简洁的、两部分的助记符。以下是最终模型生成的一些高质量输出示例:

- 术语: Lionized (被崇拜/被视为名人)
- 助记符: Lionized 听起来像 “lion-eyes” (狮子的眼睛) ,想象一头狮子因为它的眼睛而受到崇拜。Lionized 意味着被崇拜或被像名人一样对待。
- 术语: Escalate (升级/上升)
- 助记符: Escalate 听起来像 “escalator” (自动扶梯) ,它是往上走的,代表增加或上升。
这些例子表明模型成功地掌握了“听起来像”的组件和语义桥梁。
结论与启示
“SMART”论文在教育技术领域迈出了重要的一步,原因有二。
首先,它让高质量教学大众化。通过微调和对齐开源模型 (如 LLaMA) 以匹配 GPT-4 的性能,它为更便宜、离线或私有的教育工具打开了大门,这些工具不再依赖于对专有模型的昂贵 API 调用。
其次,也许更重要的是,它挑战了 AI 对齐中“人类偏好”的标准范式。在教育领域, 顾客并不总是对的。 学生们经常喜欢那些有趣或简短的助记符,即使它们无助于记忆保持。通过引入观察性偏好——基于实际表现的指标——研究人员展示了一种更安全、更有效的方法来对齐模型以实现人类效用。
教育科技的未来不仅仅在于能流利聊天的模型;还在于那些即使在我们自己都不了解自己的情况下,也能理解我们如何学习的模型。
关键要点:
- 表达性 vs. 观察性: 用户说他们喜欢的 \(\neq\) 帮助他们实现目标的。
- 贝叶斯融合: 你可以将“软”反馈 (评分) 和“硬”指标 (学习速度) 结合起来,创建一个稳健的训练信号。
- 效率: 一个经过适当对齐的开源模型可以在特定领域与最先进的闭源模型相媲美。
这篇博客文章基于 Balepur 等人的研究论文 “A SMART Mnemonic Sounds like ‘Glue Tonic’: Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick”。
](https://deep-paper.org/en/paper/2406.15352/images/cover.png)