像 GPT-4 和 Claude 3 这样的大语言模型 (LLM) 能够以惊人的流畅度撰写文章、翻译语言和生成代码。它们似乎能完美地理解我们。

但事实果真如此吗?

当我们超越直截了当的问题,进入人类交流中那个混乱、富有创造性且时常荒诞的世界时,这些模型真的能掌握其意义吗?——还是它们只是统计模式匹配的大师

最近一篇研究论文 **《废话学: 通过解读有深度的胡言乱语来挑战大语言模型》 **(“Drivelology: Challenging LLMs with Interpreting Nonsense with Depth”) 一头扎进了这个问题。作者引入了一个引人入胜的语言学概念——废话学 (Drivelology) : 指那些 “有深度的胡言乱语”。这些陈述表面上看似荒诞无稽,但却隐藏着多层含义、幽默或社会评论。

比如:

“我看到一本书叫《如何解决你 50% 的问题》,于是我买了两本。”

这句话在语法上无懈可击,但逻辑却俏皮地“翻车”,制造出幽默的反转。笑点源于同时字面接受书的宣传语,又用荒谬的算术重新诠释它。

研究人员发现,虽然大语言模型在许多语言任务中表现出色,但在面对废话学时却屡屡失手。为进行系统化测试,他们创建了一个名为 DRIVELHUB 的全新基准数据集,并设计了系列评估任务,探查大语言模型理解能力的边界。结果揭示了 语言流畅度真正的语用理解 之间的关键鸿沟——通向类人 AI 的道路,不只是预测下一个词那么简单。


背景: 超越表层理解

GLUEMMLU 这样的传统基准,主要衡量语法、事实回忆以及基础常识推理等核心能力。虽然这些评估很重要,但它们忽视了人类表达的微妙之处——讽刺、反语、幽默、文化典故——这些才是让语言充满活力和生命的东西。

废话学的挑战性超越了简单的反讽与讽刺。

例如,经典讽刺通常是意义的直接反转:

如果你把咖啡洒在笔记本电脑上,然后说: “太好了,这正是我需要的。”意思显然与字面相反。

废话学则更进一步。比如论文中的例子:

“我非常敬佩切·格瓦拉的反资本主义精神,所以我买了他所有的周边商品。”

要体会其中的幽默,你需要文化与历史背景——明白切·格瓦拉是反资本主义的象征,认识到购买周边商品所必然包含的消费主义,再将这些元素结合,才能看出这其实是在讽刺 *表演式行动主义 *(以破坏初衷的行为来支持某个事业) 。

作者指出,废话学不同于其他“糟糕语言”。它不是所谓的 深度无意义,例如乔姆斯基那句著名的 “Colourless green ideas sleep furiously” (无色的绿色思想狂怒地睡着) 。该句在语义上是空洞的。而废话学则是精心设计,用荒谬的表层来包裹深层含义,是一种有意图、有目的的胡言乱语。


DRIVELHUB 基准: 废话学速成课

为严谨测试 LLM,团队构建了 DRIVELHUB 多语言数据集,收录超过 1200 条样本——600 条废话学,600 条非废话学——涵盖 英语、普通话、西班牙语、法语、日语与韩语

标注由多语言专家完成,他们经历多阶段审查和辩论,确保准确捕捉每个样本的深层含义。

废话学的五种修辞手法

研究总结了五种相互重叠的修辞工具来刻画废话学的运作方式:

  1. 误导 (Misdirection)
    先引导你走向预期方向,然后在结尾突然反转。
    *示例: * “不要轻易放弃你的梦想!继续睡吧!”

  2. 悖论 (Paradox)
    将看似矛盾的观点结合,揭示隐藏的真理。
    *示例: * “除了我不会的事情,我什么都行。”

  3. 语境切换 (Switchbait)
    利用双关 (“诱饵”) ,再突然转变语境 (“切换”) ,常需文化背景。
    *示例: *
    英国人: “你有枪支问题。”
    美国人: “是啊,不过至少这是个现代问题。”

  4. 反转 (Inversion)
    颠覆熟悉的短语或社会规范,以制造讽刺。
    *示例: * “除了长得帅、身材好、有钱之外,我一无是处。”

  5. 文字游戏 (Wordplay)
    用谐音、双关等语言技巧制造幽默。
    *示例: * “你有葡萄干吗?没有?那要不要来个约会?”

许多废话学样本会混合运用这些技巧,增加理解难度。


四项评估任务

研究团队基于 DRIVELHUB 设计了四种任务,以探查 LLM 在不同维度的理解能力。

四项评估任务概览: 废话学检测、废话学标记、隐含叙事写作和叙事选择。每项任务都配有示例和简要说明。

  1. 废话学检测 (Drivelology Detection)
    二元分类: 判断文本是否属于废话学。

  2. 废话学标记 (Drivelology Tagging)
    多标签分类: 识别其中的修辞技巧。

  3. 隐含叙事写作 (Implicit Narrative Writing)
    生成推理: 解释废话学背后的 隐藏含义

  4. 叙事选择 (Narrative Selection)
    多选问答: 从五个选项中选择正确解释。

    • 简单模式: 一项正确答案 + 四个干扰项。
    • 困难模式: 增加“以上都不是”选项,避免蒙猜。

主要实验发现

研究人员在 **零样本 **(zero-shot,无任务专属微调) 模式下,测试了包括 GPT-4、Claude-3、Deepseek-v3、Llama3、Qwen3 等开源与闭源 LLM。

各任务主要结果表。Deepseek-v3 始终排名靠前。

1. Deepseek-v3 拔得头筹

六项指标中的五项,Deepseek-v3 都取得最高分,展现出更强的语用与非线性推理能力。

2. 流畅 ≠ 理解

叙事写作结果凸显了文风流畅度 (BERTScore) 与解读深度 (LLM-as-a-judge 评分) 之间的差距:
在五分制质量评分中,只有 Deepseek-v3 和 Claude-3.5-haiku 超过 3.0 分。

3. 困难模式暴露短板

当加入“以上都不是”选项时,叙事选择准确率显著下滑,说明多数模型难以自信剔除所有误解。


提示语言重要吗?

雷达图比较使用英语 (蓝色) 和普通话 (橙色) 提示时的性能。

  • 英语提示在奖励词汇精确度与结构化推理的任务 (比如叙事选择、叙事写作 BERTScore) 中表现更佳。
  • 普通话提示在以内容为核心的任务 (检测、标记、人类评审的叙事质量) 中表现更好——可能是因为源数据中普通话占较大比例。

哪种语言最难?

按语言划分的叙事选择准确率条形图。韩语和普通话构成了最大的挑战。

韩语与普通话样本准确率最低——尤其是在 困难模式 下——说明这些文化语境下的废话学对当前 LLM 更具挑战性。

Deepseek-v3 在跨语言表现上最稳定。


模型越大越聪明吗?

表格显示 Qwen3 在简单与困难叙事选择任务中的规模扩展趋势。更大的模型在困难任务上表现显著更优。

在 Qwen3 系列 (4B、8B、14B 参数) 中,困难任务准确率随模型规模显著提升。
使用英文提示时,14B 模型的得分几乎是 4B 的 8 倍——指向了大型架构中 涌现的推理能力


当模型答对时

看看这个废话学例子:

“孟婆: 忘了自己叫什么名字的,跟我走。”
(背景: 孟婆是中国民间传说中的人物,她会在灵魂转世前给他们喝下“孟婆汤”,让其忘记前尘。)

  • Deepseek-v3 将其标注为 语境切换 (switchbait) ,强调理解笑话的文化关键。
  • Claude-3.5-haiku 则标注为 悖论 (paradox) ,突出逻辑上的不可能性 (忘了名字的人怎么能响应?) 。

两个正确标签,两条推理路径——说明模型可能以不同方式得出结论。

人类标注者也遇到类似难题: 一句话常能引出多种合理解读,使废话学成为文化和逻辑推理能力的天然压力测试。


为何重要

废话学不仅是幽默测试——它还是检验 AI 在 类人叙事空间 中运作能力的试金石。
它要求:

  • 具备文化与历史的语境认知
  • 识别修辞策略
  • 融合多层推理

在废话学上失误说明模型在 常识推理社会智能文化流畅度上存在短板。


展望未来

DRIVELHUB 数据集开启了若干研究方向:

  • 偏好优化: 利用叙事选择任务配合组别排序 (如 GRPO) 进行微调,提高模型对细微含义的区分能力。
  • 生成评估指标: 设计衡量“娱乐性”、“相关性”、“悖论深度”等的指标,用于评估模型 创作 废话学的能力,而不仅是理解。

结论

人类语言世界充满了层次丰富、看似荒诞却蕴含智慧的表达。
废话学完美刻画了这一特性——它是一种带有修辞意图的荒谬,用来考验文化洞察、逻辑灵活性与幽默感。

即便是顶级 LLM,在这里也会跌跤。这提醒我们,智能不仅在于流畅生成文本,更在于 领会言外之意,而不仅仅是 理解字面意思

通过以“有深度的胡言乱语”挑战模型,DRIVELHUB 正在推动 AI 向更深刻的语言理解迈进——在这种理解中,意义隐藏在字里行间,等待被发现。