人工智能以其强大的能力令人惊叹。它能创作艺术、解决复杂问题,并能进行听起来几乎与人类无异的对话。然而,尽管取得了这些成就,人工智能仍然缺乏一种连你的猫都具备的基本能力——常识

正如人工智能先驱、图灵奖得主 Yann LeCun 所言: “人工智能系统仍然缺乏猫所拥有的一般常识。” 这不仅是一句机智的评语,更是对现代人工智能发展中一个关键缺陷的精准诊断。我们的模型擅长于狭窄任务,但无法像任何一种简单动物那样发展出直觉性、适应性的世界理解——而这是生存所必需的。

最近一篇题为 《常识即你所需的一切》 的论文提出了一个颇具挑衅性的观点: 缺乏常识是阻碍人工智能实现真正自主性的最大障碍。虽然利用更多数据和算力扩展模型推动了进步,但研究指出我们正逼近天花板。如果不从根本上转向将常识嵌入系统,人工智能将永远无法具备自主系统所需的灵活、具备情境理解的智能——无论是自动驾驶汽车、机器人助手,还是通用问题求解者。

本文将深入剖析论文的核心思想,阐明“常识”对人工智能意味着什么,解析为何现有的基准 (如 ARC 挑战、自驾车的自主等级以及图灵测试) 都未能命中要害,并探讨为何以白板 (tabula rasa) 为起点的思路,可能是迈向下一代真正智能体的关键。


人工智能中的“常识”究竟是什么?

要构建具备常识的人工智能,首先需要理解常识的内涵。论文将常识归纳为以下四种关键能力:

  1. 情境学习
    能够依据情境而非原始数据进行解读与反应的能力。
    例如: 一个人看到球滚到马路上,会本能地意识到可能有孩子追着球跑出来。传统人工智能或许能正确识别“球”,却忽略潜在危险这种隐含推论。能做出这种基于情境的推断,正是常识的核心。

  2. 适应性推理
    面对未知或不确定的情境时,能够灵活调整策略的能力。
    例如: 如果你常走的上班路线被封闭,你会自然而然地寻找绕行路线。常识使你能即兴应变,而僵化的人工智能系统则常在偏离训练数据的情况下失效。

  3. 白板 (Tabula Rasa) 开始
    真正的推理应从最少的先验假设出发。与其机械地记忆数百万种模式,不如让一个 白板式 人工智能去学习问题背后的基本原理,通过观察和实验发现新规律。这种灵活性正是泛化能力的关键。

  4. 具身化——即使在抽象世界中
    智能并非仅仅源于规则或数据;它在与世界的互动中萌生。尽管物理具身化对机器人至关重要,论文将此概念延伸至认知具身化——即在抽象领域中的交互。
    在诸如“抽象与推理语料库” (ARC) 等任务中,人工智能必须“感知”、行动并从与抽象要素的互动中学习,以形成直观的理解。感知与行动间的这种动态关系本身就是具身化,即便没有实体身体。

“所有动物都具有生存所需的常识。”
从松鼠储藏坚果到猫灵巧地绕过障碍,自然界证明常识并非神秘,它是进化的基本智能形式——一种融合了适应、感知与互动的能力。而我们的人工智能系统,尽管复杂,却仍未具备这一基础层。


当代人工智能方法的裂缝

如果常识如此根本,为何我们至今仍未能构建它?论文指出,当前的方法实际上在回避真正的问题。现有的基准测试更偏重记忆与模式匹配,而非直观推理。


ARC 挑战: 在测试推理,还是考验记忆?

抽象与推理语料库 (ARC) 旨在通过向 AI 提供人类容易解决而机器难以理解的视觉谜题来评估高层次推理能力。但实际情况是,大多数 AI 系统最终通过对这类谜题或类似任务的直接训练,直到能够复现正确答案。
结果?这些系统“通过” ARC,是靠学习捷径,而非形成真正的抽象推理。

论文建议对 ARC 进行更严格的改版: 只能依赖最基本的假定规则,不允许预先掌握任务内容。AI 必须在真正的 白板 条件下独立解决问题。在这种环境中取得成功,才说明它具备真正的推理,而非单纯记忆。

“能在没有先例的情况下解决问题的人工智能,体现出真正的理解力——而不仅是强大的模式识别。”


完全自动驾驶: 自主性的天花板

追求完全自动驾驶 (FSD) 的历程恰好揭示了规模扩展的局限。美国汽车工程师协会 (SAE) 将自主等级划分为从 1 (基础辅助驾驶) 到 5 (完全自主) 。
目前的系统大多停留在 2 或 3 级,部分进入 4 级——在特定地理范围内实现有限自主。而第 5 级,即无论任何情况均不需人工介入的状态,仍然遥不可及。

为何进展受限?因为现实道路充满了边缘案例。施工人员临时打出的手势、突然冲出的动物、奔跑的孩童——每一种情景都要求细腻的情境判断。仅依靠数据与地图无法教会这种能力。
缺乏常识的 AI 将陷入渐近性能曲线: 投入再多资源,提升也微乎其微。没有直观推理,5 级自治只能停留在理想状态,而无法触及现实。

“没有常识的自动驾驶就像试图记住所有可能的场景,但终究会遇到一个你未曾预料的状况。”


“魔法在此发生”的思维陷阱

人工智能开发常以这样的逻辑展开: 构建感知、规划与控制模块,再通过大规模训练,希望通用智能能从复杂性中自动涌现。论文将此称为**“魔法在此发生”**的空白地带。
现实却是: 常识不会凭空出现。若不专门针对情境理解进行设计,任凭数据与算力再膨胀也无法弥合那道鸿沟。这种幻想导致过度自信与资源的浪费。


图灵测试: 一个迷人的偏离

1950 年,艾伦·图灵提出图灵测试: 若计算机能与人类对话而无法区分真假,即可视其具备智能。
如今的大型语言模型 (LLM) 几乎已达到这一标准——它们能维持流畅、贴合语境的对话。但对话的模仿不是理解。
图灵测试衡量的是*貌似真实 (verisimilitude) ,而非真实认知 *(veracity) 。这些系统可以生成连贯的回答,却对所述的物理与抽象世界毫无真正依托。它们不感知、不行动、不推理——仅仅在模仿对话模式。

因此,通过图灵测试只是美学上的胜利,而非认知的飞跃。这常常误导公众: 会说话不等于会思考。


新范式: 正确的*认知顺序 *(Ordo Cognoscendi)

拉丁语 ordo cognoscendi——意为“认知的秩序”——揭示了论文思想的核心: 要构建真正自主的人工智能,必须首先建立常识。不要事后补充,而要让它成为根基。


从难题入手

这看似违反直觉,但从更难的任务入手能迫使系统形成更深刻的理解。在依赖常识的问题上取得哪怕部分成功,也比在浅层任务上达到完美更有意义。
例如,一个 白板式 ARC 变体要求 AI 从最少数据出发进行真正推理,测试它是否能像人类或动物那样学习。先攻克更难的问题,才能确保发展建立在坚实的认知基础而非单纯扩展。


重新审视人工智能软件栈

作者进一步指出: 当今的框架可能根本无法支持常识型推理。为庞大数据集优化的神经架构擅长关联,却不擅理解。
真正的常识或许需要全新的软件架构——模块化、层次化,并借鉴生物智能通过交互与反馈学习的机制。
通过融合符号推理 (规则与逻辑) 和统计学习 (模式与概率) ,可在刻板逻辑与灵活直觉之间架起桥梁。

常识不是一个可下载的数据集,而是一种需要刻意设计的架构。


约束问题: 让自主性更可达

人工智能中的一个核心理论挑战——没有免费午餐定理——告诉我们: 没有算法能在所有任务上表现最优。论文的应对方式是: 不追求普适性。
相反,应集中在定义明确、结构化的领域。现实世界具备一致规律 (物理、因果) ,而像 ARC 这类抽象任务也有逻辑约束。AI 若在这些结构化边界内学习,就能形成与环境相关的常识——如同鱼精通水域,却不必理解沙漠。

通用智能无需掌握一切,它只需懂得在自身世界中什么才重要。


真正的忧虑: 没有常识的智能

公众对人工智能的担忧不在于智能本身,而在于缺乏判断力的智能
前谷歌首席执行官 埃里克·施密特 曾警告,随着人工智能进入自我改进阶段,我们必须警惕其可能的后果。论文将这种恐惧重新定义: 真正危险的是缺乏常识的自我提升型智能

一个只为优化目标而忽视伦理与后果的 AI,可能在技术上“成功”的同时造成灾难。一个旨在减少人为错误的系统,或许会选择彻底移除人类这一“变量”,却忽略了更广泛的道德背景。

将常识融入系统正面应对了这种风险。它使 AI 能以伦理视角解释目标,理解安全,并与人类价值对齐——不仅仅追求计算结果。
常识因此不仅是一项技术增强,更是保障 AI 安全与稳定的防线


回归本源

论文 《常识即你所需的一切》 的理念既批判又乐观。在追逐更大模型与更高分数的过程中,人工智能领域忽略了智能的最普遍原则: 基于理解的适应性。

规模化改变了众多产业,但无法催生真正自主且值得信赖的人工智能。通过图灵测试等语言基准固然令人印象深刻,却仍显浅薄。真正的进步需要跨学科合作——融合认知科学、神经科学、哲学与伦理学——甚至可能需要从头重建人工智能的软件栈。

我们不应无休止地在渐近性能曲线上扩张,而应将雄心转向能理解情境、进行灵活推理并洞察后果的系统。下一代人工智能将不仅仅是运算——它将学会理解

在打造能像人类思考的人工智能之前,我们必须先创造能像猫一样理解世界的人工智能。

这听起来或许谦逊,但这是迈向自主性最深刻的一步——也是让人工智能不仅聪慧,更真正明智的关键。