像 GPT-4 和 Claude 3 这样的大语言模型 (LLM) 能够以惊人的流畅度撰写文章、翻译语言和生成代码。它们似乎能完美地理解我们。
但事实果真如此吗?
当我们超越直截了当的问题,进入人类交流中那个混乱、富有创造性且时常荒诞的世界时,这些模型真的能掌握其意义吗?——还是它们只是统计模式匹配的大师?
最近一篇研究论文 **《废话学: 通过解读有深度的胡言乱语来挑战大语言模型》 **(“Drivelology: Challenging LLMs with Interpreting Nonsense with Depth”) 一头扎进了这个问题。作者引入了一个引人入胜的语言学概念——废话学 (Drivelology) : 指那些 “有深度的胡言乱语”。这些陈述表面上看似荒诞无稽,但却隐藏着多层含义、幽默或社会评论。
比如:
“我看到一本书叫《如何解决你 50% 的问题》,于是我买了两本。”
这句话在语法上无懈可击,但逻辑却俏皮地“翻车”,制造出幽默的反转。笑点源于同时字面接受书的宣传语,又用荒谬的算术重新诠释它。
研究人员发现,虽然大语言模型在许多语言任务中表现出色,但在面对废话学时却屡屡失手。为进行系统化测试,他们创建了一个名为 DRIVELHUB 的全新基准数据集,并设计了系列评估任务,探查大语言模型理解能力的边界。结果揭示了 语言流畅度 与 真正的语用理解 之间的关键鸿沟——通向类人 AI 的道路,不只是预测下一个词那么简单。
背景: 超越表层理解
像 GLUE 或 MMLU 这样的传统基准,主要衡量语法、事实回忆以及基础常识推理等核心能力。虽然这些评估很重要,但它们忽视了人类表达的微妙之处——讽刺、反语、幽默、文化典故——这些才是让语言充满活力和生命的东西。
废话学的挑战性超越了简单的反讽与讽刺。
例如,经典讽刺通常是意义的直接反转:
如果你把咖啡洒在笔记本电脑上,然后说: “太好了,这正是我需要的。”意思显然与字面相反。
废话学则更进一步。比如论文中的例子:
“我非常敬佩切·格瓦拉的反资本主义精神,所以我买了他所有的周边商品。”
要体会其中的幽默,你需要文化与历史背景——明白切·格瓦拉是反资本主义的象征,认识到购买周边商品所必然包含的消费主义,再将这些元素结合,才能看出这其实是在讽刺 *表演式行动主义 *(以破坏初衷的行为来支持某个事业) 。
作者指出,废话学不同于其他“糟糕语言”。它不是所谓的 深度无意义,例如乔姆斯基那句著名的 “Colourless green ideas sleep furiously” (无色的绿色思想狂怒地睡着) 。该句在语义上是空洞的。而废话学则是精心设计,用荒谬的表层来包裹深层含义,是一种有意图、有目的的胡言乱语。
DRIVELHUB 基准: 废话学速成课
为严谨测试 LLM,团队构建了 DRIVELHUB 多语言数据集,收录超过 1200 条样本——600 条废话学,600 条非废话学——涵盖 英语、普通话、西班牙语、法语、日语与韩语。
标注由多语言专家完成,他们经历多阶段审查和辩论,确保准确捕捉每个样本的深层含义。
废话学的五种修辞手法
研究总结了五种相互重叠的修辞工具来刻画废话学的运作方式:
误导 (Misdirection)
先引导你走向预期方向,然后在结尾突然反转。
*示例: * “不要轻易放弃你的梦想!继续睡吧!”悖论 (Paradox)
将看似矛盾的观点结合,揭示隐藏的真理。
*示例: * “除了我不会的事情,我什么都行。”语境切换 (Switchbait)
利用双关 (“诱饵”) ,再突然转变语境 (“切换”) ,常需文化背景。
*示例: *
英国人: “你有枪支问题。”
美国人: “是啊,不过至少这是个现代问题。”反转 (Inversion)
颠覆熟悉的短语或社会规范,以制造讽刺。
*示例: * “除了长得帅、身材好、有钱之外,我一无是处。”文字游戏 (Wordplay)
用谐音、双关等语言技巧制造幽默。
*示例: * “你有葡萄干吗?没有?那要不要来个约会?”
许多废话学样本会混合运用这些技巧,增加理解难度。
四项评估任务
研究团队基于 DRIVELHUB 设计了四种任务,以探查 LLM 在不同维度的理解能力。
废话学检测 (Drivelology Detection)
二元分类: 判断文本是否属于废话学。废话学标记 (Drivelology Tagging)
多标签分类: 识别其中的修辞技巧。隐含叙事写作 (Implicit Narrative Writing)
生成推理: 解释废话学背后的 隐藏含义。叙事选择 (Narrative Selection)
多选问答: 从五个选项中选择正确解释。- 简单模式: 一项正确答案 + 四个干扰项。
- 困难模式: 增加“以上都不是”选项,避免蒙猜。
主要实验发现
研究人员在 **零样本 **(zero-shot,无任务专属微调) 模式下,测试了包括 GPT-4、Claude-3、Deepseek-v3、Llama3、Qwen3 等开源与闭源 LLM。
1. Deepseek-v3 拔得头筹
在 六项指标中的五项,Deepseek-v3 都取得最高分,展现出更强的语用与非线性推理能力。
2. 流畅 ≠ 理解
叙事写作结果凸显了文风流畅度 (BERTScore) 与解读深度 (LLM-as-a-judge
评分) 之间的差距:
在五分制质量评分中,只有 Deepseek-v3 和 Claude-3.5-haiku 超过 3.0 分。
3. 困难模式暴露短板
当加入“以上都不是”选项时,叙事选择准确率显著下滑,说明多数模型难以自信剔除所有误解。
提示语言重要吗?
- 英语提示在奖励词汇精确度与结构化推理的任务 (比如叙事选择、叙事写作 BERTScore) 中表现更佳。
- 普通话提示在以内容为核心的任务 (检测、标记、人类评审的叙事质量) 中表现更好——可能是因为源数据中普通话占较大比例。
哪种语言最难?
韩语与普通话样本准确率最低——尤其是在 困难模式 下——说明这些文化语境下的废话学对当前 LLM 更具挑战性。
Deepseek-v3 在跨语言表现上最稳定。
模型越大越聪明吗?
在 Qwen3 系列 (4B、8B、14B 参数) 中,困难任务准确率随模型规模显著提升。
使用英文提示时,14B 模型的得分几乎是 4B 的 8 倍——指向了大型架构中 涌现的推理能力。
当模型答对时
看看这个废话学例子:
“孟婆: 忘了自己叫什么名字的,跟我走。”
(背景: 孟婆是中国民间传说中的人物,她会在灵魂转世前给他们喝下“孟婆汤”,让其忘记前尘。)
- Deepseek-v3 将其标注为 语境切换 (switchbait) ,强调理解笑话的文化关键。
- Claude-3.5-haiku 则标注为 悖论 (paradox) ,突出逻辑上的不可能性 (忘了名字的人怎么能响应?) 。
两个正确标签,两条推理路径——说明模型可能以不同方式得出结论。
人类标注者也遇到类似难题: 一句话常能引出多种合理解读,使废话学成为文化和逻辑推理能力的天然压力测试。
为何重要
废话学不仅是幽默测试——它还是检验 AI 在 类人叙事空间 中运作能力的试金石。
它要求:
- 具备文化与历史的语境认知
- 识别修辞策略
- 融合多层推理
在废话学上失误说明模型在 常识推理、社会智能、文化流畅度上存在短板。
展望未来
DRIVELHUB 数据集开启了若干研究方向:
- 偏好优化: 利用叙事选择任务配合组别排序 (如 GRPO) 进行微调,提高模型对细微含义的区分能力。
- 生成评估指标: 设计衡量“娱乐性”、“相关性”、“悖论深度”等的指标,用于评估模型 创作 废话学的能力,而不仅是理解。
结论
人类语言世界充满了层次丰富、看似荒诞却蕴含智慧的表达。
废话学完美刻画了这一特性——它是一种带有修辞意图的荒谬,用来考验文化洞察、逻辑灵活性与幽默感。
即便是顶级 LLM,在这里也会跌跤。这提醒我们,智能不仅在于流畅生成文本,更在于 领会言外之意,而不仅仅是 理解字面意思。
通过以“有深度的胡言乱语”挑战模型,DRIVELHUB 正在推动 AI 向更深刻的语言理解迈进——在这种理解中,意义隐藏在字里行间,等待被发现。