Drivelology: 当 AI 遇上「深度废话」

像 GPT-4 和 Claude 3 这样的大语言模型 (LLM) 能够以惊人的流畅度撰写文章、翻译语言和生成代码。它们似乎能完美地理解我们。

但事实果真如此吗？

当我们超越直截了当的问题，进入人类交流中那个混乱、富有创造性且时常荒诞的世界时，这些模型真的能掌握其意义吗？——还是它们只是统计模式匹配的大师？

最近一篇研究论文 **《废话学: 通过解读有深度的胡言乱语来挑战大语言模型》 **(“Drivelology: Challenging LLMs with Interpreting Nonsense with Depth”) 一头扎进了这个问题。作者引入了一个引人入胜的语言学概念——废话学 (Drivelology) : 指那些 “有深度的胡言乱语”。这些陈述表面上看似荒诞无稽，但却隐藏着多层含义、幽默或社会评论。

比如:

“我看到一本书叫《如何解决你 50% 的问题》，于是我买了两本。”

这句话在语法上无懈可击，但逻辑却俏皮地“翻车”，制造出幽默的反转。笑点源于同时字面接受书的宣传语，又用荒谬的算术重新诠释它。

研究人员发现，虽然大语言模型在许多语言任务中表现出色，但在面对废话学时却屡屡失手。为进行系统化测试，他们创建了一个名为 DRIVELHUB 的全新基准数据集，并设计了系列评估任务，探查大语言模型理解能力的边界。结果揭示了 语言流畅度 与 真正的语用理解 之间的关键鸿沟——通向类人 AI 的道路，不只是预测下一个词那么简单。

背景: 超越表层理解

像 GLUE 或 MMLU 这样的传统基准，主要衡量语法、事实回忆以及基础常识推理等核心能力。虽然这些评估很重要，但它们忽视了人类表达的微妙之处——讽刺、反语、幽默、文化典故——这些才是让语言充满活力和生命的东西。

废话学的挑战性超越了简单的反讽与讽刺。

例如，经典讽刺通常是意义的直接反转:

如果你把咖啡洒在笔记本电脑上，然后说: “太好了，这正是我需要的。”意思显然与字面相反。

废话学则更进一步。比如论文中的例子:

“我非常敬佩切·格瓦拉的反资本主义精神，所以我买了他所有的周边商品。”

要体会其中的幽默，你需要文化与历史背景——明白切·格瓦拉是反资本主义的象征，认识到购买周边商品所必然包含的消费主义，再将这些元素结合，才能看出这其实是在讽刺 *表演式行动主义 *(以破坏初衷的行为来支持某个事业) 。

作者指出，废话学不同于其他“糟糕语言”。它不是所谓的 深度无意义，例如乔姆斯基那句著名的 “Colourless green ideas sleep furiously” (无色的绿色思想狂怒地睡着) 。该句在语义上是空洞的。而废话学则是精心设计，用荒谬的表层来包裹深层含义，是一种有意图、有目的的胡言乱语。

DRIVELHUB 基准: 废话学速成课

为严谨测试 LLM，团队构建了 DRIVELHUB 多语言数据集，收录超过 1200 条样本——600 条废话学，600 条非废话学——涵盖 英语、普通话、西班牙语、法语、日语与韩语。

标注由多语言专家完成，他们经历多阶段审查和辩论，确保准确捕捉每个样本的深层含义。

废话学的五种修辞手法

研究总结了五种相互重叠的修辞工具来刻画废话学的运作方式:

误导 (Misdirection)
先引导你走向预期方向，然后在结尾突然反转。
*示例: * “不要轻易放弃你的梦想！继续睡吧！”
悖论 (Paradox)
将看似矛盾的观点结合，揭示隐藏的真理。
*示例: * “除了我不会的事情，我什么都行。”
语境切换 (Switchbait)
利用双关 (“诱饵”) ，再突然转变语境 (“切换”) ，常需文化背景。
*示例: *
英国人: “你有枪支问题。”
美国人: “是啊，不过至少这是个现代问题。”
反转 (Inversion)
颠覆熟悉的短语或社会规范，以制造讽刺。
*示例: * “除了长得帅、身材好、有钱之外，我一无是处。”
文字游戏 (Wordplay)
用谐音、双关等语言技巧制造幽默。
*示例: * “你有葡萄干吗？没有？那要不要来个约会？”

许多废话学样本会混合运用这些技巧，增加理解难度。

四项评估任务

研究团队基于 DRIVELHUB 设计了四种任务，以探查 LLM 在不同维度的理解能力。

四项评估任务概览: 废话学检测、废话学标记、隐含叙事写作和叙事选择。每项任务都配有示例和简要说明。

废话学检测 (Drivelology Detection)
二元分类: 判断文本是否属于废话学。
废话学标记 (Drivelology Tagging)
多标签分类: 识别其中的修辞技巧。
隐含叙事写作 (Implicit Narrative Writing)
生成推理: 解释废话学背后的 隐藏含义。
叙事选择 (Narrative Selection)
多选问答: 从五个选项中选择正确解释。
- 简单模式: 一项正确答案 + 四个干扰项。
- 困难模式: 增加“以上都不是”选项，避免蒙猜。

主要实验发现

研究人员在 **零样本 **(zero-shot，无任务专属微调) 模式下，测试了包括 GPT-4、Claude-3、Deepseek-v3、Llama3、Qwen3 等开源与闭源 LLM。

各任务主要结果表。Deepseek-v3 始终排名靠前。

1. Deepseek-v3 拔得头筹

在 六项指标中的五项，Deepseek-v3 都取得最高分，展现出更强的语用与非线性推理能力。

2. 流畅 ≠ 理解

叙事写作结果凸显了文风流畅度 (BERTScore) 与解读深度 (LLM-as-a-judge 评分) 之间的差距:
在五分制质量评分中，只有 Deepseek-v3 和 Claude-3.5-haiku 超过 3.0 分。

3. 困难模式暴露短板

当加入“以上都不是”选项时，叙事选择准确率显著下滑，说明多数模型难以自信剔除所有误解。

提示语言重要吗？

雷达图比较使用英语 (蓝色) 和普通话 (橙色) 提示时的性能。

英语提示在奖励词汇精确度与结构化推理的任务 (比如叙事选择、叙事写作 BERTScore) 中表现更佳。
普通话提示在以内容为核心的任务 (检测、标记、人类评审的叙事质量) 中表现更好——可能是因为源数据中普通话占较大比例。

哪种语言最难？

按语言划分的叙事选择准确率条形图。韩语和普通话构成了最大的挑战。

韩语与普通话样本准确率最低——尤其是在 困难模式 下——说明这些文化语境下的废话学对当前 LLM 更具挑战性。

Deepseek-v3 在跨语言表现上最稳定。

模型越大越聪明吗？

表格显示 Qwen3 在简单与困难叙事选择任务中的规模扩展趋势。更大的模型在困难任务上表现显著更优。

在 Qwen3 系列 (4B、8B、14B 参数) 中，困难任务准确率随模型规模显著提升。
使用英文提示时，14B 模型的得分几乎是 4B 的 8 倍——指向了大型架构中 涌现的推理能力。

当模型答对时

看看这个废话学例子:

“孟婆: 忘了自己叫什么名字的，跟我走。”
(背景: 孟婆是中国民间传说中的人物，她会在灵魂转世前给他们喝下“孟婆汤”，让其忘记前尘。)

Deepseek-v3 将其标注为 语境切换 (switchbait) ，强调理解笑话的文化关键。
Claude-3.5-haiku 则标注为 悖论 (paradox) ，突出逻辑上的不可能性 (忘了名字的人怎么能响应？) 。

两个正确标签，两条推理路径——说明模型可能以不同方式得出结论。

人类标注者也遇到类似难题: 一句话常能引出多种合理解读，使废话学成为文化和逻辑推理能力的天然压力测试。

为何重要

废话学不仅是幽默测试——它还是检验 AI 在 类人叙事空间 中运作能力的试金石。
它要求:

具备文化与历史的语境认知
识别修辞策略
融合多层推理

在废话学上失误说明模型在 常识推理、社会智能、文化流畅度上存在短板。

展望未来

DRIVELHUB 数据集开启了若干研究方向:

偏好优化: 利用叙事选择任务配合组别排序 (如 GRPO) 进行微调，提高模型对细微含义的区分能力。
生成评估指标: 设计衡量“娱乐性”、“相关性”、“悖论深度”等的指标，用于评估模型创作废话学的能力，而不仅是理解。

结论

人类语言世界充满了层次丰富、看似荒诞却蕴含智慧的表达。
废话学完美刻画了这一特性——它是一种带有修辞意图的荒谬，用来考验文化洞察、逻辑灵活性与幽默感。

即便是顶级 LLM，在这里也会跌跤。这提醒我们，智能不仅在于流畅生成文本，更在于 领会言外之意，而不仅仅是 理解字面意思。

通过以“有深度的胡言乱语”挑战模型，DRIVELHUB 正在推动 AI 向更深刻的语言理解迈进——在这种理解中，意义隐藏在字里行间，等待被发现。

背景: 超越表层理解#

DRIVELHUB 基准: 废话学速成课#

废话学的五种修辞手法#

四项评估任务#

主要实验发现#

1. Deepseek-v3 拔得头筹#

2. 流畅 ≠ 理解#

3. 困难模式暴露短板#

提示语言重要吗？#

哪种语言最难？#

模型越大越聪明吗？#

当模型答对时#

为何重要#

展望未来#

结论#