引言: 不仅仅是提示

如果你曾接触过现代 AI,你肯定听说过上下文窗口 (context window)——我们向 GPT‑4 或 Claude 等大语言模型 (LLM) 输入信息的数字暂存区。我们往里塞入提示、文档和聊天记录,希望模型能理解我们的意图。这种做法通常被称为提示工程 (prompt engineering),或者更广泛地被称为情境工程 (context engineering),仿佛是为智能体时代量身打造的一项技能。

但如果它根本不是什么新鲜事呢?

研究论文 《情境工程 2.0: 情境工程的情境》 认为,这个挑战——让机器理解我们的处境和意图——其实已伴随我们数十年。技术在不断演进,但目标始终如一: 弥合人类思维与机器逻辑之间的巨大认知鸿沟。

情境工程远非昙花一现的潮流,而是一个长期发展的学科,随着机器智能的增长,经历了不同阶段的演化。该论文提供了丰富的历史叙述、形式化的理论框架,并展望了一个未来: AI 可能比我们更懂我们的情境。

让我们一起揭示情境工程的真正背景。


智能鸿沟: 情境工程为何存在

从根本上看,情境工程要解决的,是人类 (碳基智能) 与机器 (硅基智能) 之间的智能鸿沟 。 人类通过共同的经验、记忆和情感进行交流,能够轻易“填补空白”,而机器无法做到——一旦出现模糊就容易误解。

论文将情境工程定义为一个熵减过程。人类意图本质上是高熵的——杂乱、复杂、充满隐含意义。在机器能够理解并执行之前,这些高熵的信息必须被压缩并转化为低熵的表示。减少这种熵的过程正是情境工程的核心。

人类 (碳基) 和机器 (硅基) 认知能力随时间变化的轨迹。它们之间的差距是情境工程存在的根本原因。

图 2: 人类与机器智能之间的认知鸿沟驱动了情境工程的需求。

随着机器智能的加速发展,这种鸿沟的性质也在演变,重塑了我们设计情境的方式。技术突破带来情境理解的飞跃,催生界面革命,并最终重新定义人机协作的范式。

情境工程的演进周期,由技术突破驱动,这些突破增强了机器理解情境的能力,从而催生新的交互界面和工程范式。

图 3: 每一次机器智能的飞跃都会引发新的界面革命与范式转变。


情境工程的四个时代

这种演化呈现出规律性的模式,论文将其概括为四个不同的时代 。 如下图所示,我们目前正处于时代 2.0,并正在迈向时代 3.0

情境工程从 1.0 到 4.0 四个时代的概览。随着机器智能提高,其处理情境的能力增强,人机交互的成本降低。

图 1: 智能越高,情境处理能力越强,人机交互成本越低。

  1. 情境 1.0 — 作为翻译的情境: 人类手动将意图翻译成计算机可以解析的结构化格式——菜单、命令行和传感器。

  2. 情境 2.0 — 作为指令的情境: 智能体能够解释自然语言并容忍模糊性。这是 LLM 与提示工程的时代。

  3. 情境 3.0 — 作为场景的情境: AI 达到人类水平的理解能力,能够把握微妙的社会与情感背景,成为真正的协作伙伴。

  4. 情境 4.0 — 作为世界的情境: 超人智能的 AI 不仅能理解情境,还能主动构建情境,揭示我们未曾清晰表达的需求与洞见。


情境的形式化定义

为了让讨论更具基础性,论文在早期 2000 年代研究的基础上提供了一个数学定义。公式看似技术性,但其背后的直觉很直接。

  • 实体 (Entity) \(e\): 任何与交互有关的参与者——用户、应用、环境或对象。 描述该实体的信息即为其特征描述 (Characterization) \( \mathrm{Char}(e) \)。
\[ \mathrm{Char}: \mathcal{E} \to \mathcal{P}(\mathcal{F}) \]
  • 情境 (Context) \(C\): 所有相关实体的特征描述信息的并集。
\[ C = \bigcup_{e \in \mathcal{E}_{rel}} \mathrm{Char}(e) \]
  • 情境工程 (Context Engineering) \(CE\): 一个将情境与任务映射到有效处理函数 \(f_{context}\) 的优化过程。
\[ CE:(C,\mathcal{T})\to f_{context} \]\[ f_{context}(C)=\mathcal{F}(\phi_1,\phi_2,\dots,\phi_n)(C) \]

这里的操作 \(\phi_i\) 可能包括收集、存储、转换、选择、共享或适应情境——无论时代或技术如何变化。无论是 1990 年代的图形界面,还是 2025 年的智能体,挑战始终如一: 让机器真正理解人类意图。


情境工程的历史演进

了解过去有助于理解现在。下表展示了情境工程 1.02.0 之间关键的技术和方法转变。

一张表格,比较情境工程 1.0 和 2.0 的主要特征,突出技术背景、情境模态和核心机制的变化。

表 1: 情境 1.0 vs 2.0 — 技术背景与关键机制。

时代 1.0: 作为翻译的情境 (1990年代–2020年)

在聊天机器人和生成智能体出现之前, 普适计算 (Ubiquitous Computing)情境感知系统 (Context‑Aware Systems) 的研究者试图让计算机预判我们的需求。由于机器无法理解自然语言,设计者扮演着意图翻译者的角色,把人类目标转换为结构化信号,比如位置、时间或活动。

Anind K. Dey 的里程碑式定义概括了那个时代:

“情境是任何可用于描述实体状态的信息……包括用户和应用程序本身。”

情境工具包 (The Context Toolkit) 这样的框架通过模块组件——小部件 (widgets)解释器 (interpreters)服务 (services)——实现了情境的采集、解释与传递。尽管这些系统是基于规则、由传感器驱动的,但它们为后续更具适应性的架构奠定了基础。

时代 2.0: 作为指令的情境 (2020年–至今)

GPT‑3 的发布使机器具备了语言理解能力,进入日常工作流。设计者不再硬编码规则,而是开始设计情境。2.0 时代的三大关键转变如下:

  1. 高级情境采集: 数据如今从智能手机、智能手表、摄像头,甚至脑机接口中源源不断地流出。

展示现代多模态情境采集器的表格,包括智能手机、智能手表和脑机接口等。

表 2: 典型的多模态情境采集器。

  1. 对原始情境的容忍: 现代系统能够直接接收人类原生信号——文本、音频与图像——无需提前结构化,能自然应对模糊。

  2. 从感知到协作: 系统不再依赖静态的 if‑then 规则,而是理解用户目标并在工作流中主动提供帮助。例如,AI 代码助手能理解你的项目并自动建议下一步的函数。情境从被动感知转向主动协作——从情境感知 (context‑aware) 行为迈向情境协作 (context‑cooperative)


现代情境工程的设计原则

当今情境工程的发展路径围绕三大支柱: 收集与存储管理使用

一张思维导图,展示现代情境工程设计的关键考量: 收集、存储、管理与使用,并附示例技术与系统。

图 4: 覆盖收集、管理与使用的主要设计要点。

1. 情境的收集与存储

早期系统多在本地收集并存储情境。现代架构则将其分布在设备与云端,并依据时间相关性进行组织:

  • 短期记忆 — 快速、会话级窗口。
  • 长期记忆 — 跨会话持续保存的数据。

例如 Claude Code 开发工具采用此理念: 将工作进展的结构化笔记写入外部记忆,使智能体在中断后仍可无缝恢复。

2. 情境管理

处理多模态情境

智能系统必须将文本、图像、音频等不同模态的输入统一到共享表示空间。

工作流程图: 展示多模态输入 (图像、文本、音频) 的融合过程,各模态编码成向量,投射到共享空间,通过交叉注意力组合后,输入生成模型。

图 5: 多模态情境融合的工作流程。

常见方案包括:

  • 共享向量空间 (Shared Vector Spaces): 将各模态映射到公共嵌入空间以便比较。
  • 交叉注意力 (Cross‑Attention): 允许一种模态 (如文本) 对另一模态 (如图像区域) 进行选择性关注,实现语义对齐。
组织情境: 分层记忆与隔离

Andrej Karpathy 将 LLM 比作 CPU,其上下文窗口即 RAM——快速但有限。分层记忆模型可解决这一限制。

\[ M_s=f_{short}(c\in C:w_{temporal}(c)>\theta_s) \]

\[ M_l=f_{long}(c\in C:w_{importance}(c)>\theta_l\land w_{temporal}(c)\le\theta_s) \]

\[ f_{transfer}:M_s\to M_l \]

短期记忆捕捉即时情境,长期记忆保留重要抽象; 情境转移 (context transfer) 负责整合两者。同时,系统也采用情境隔离 (context isolation) ——将任务交由各自拥有独立记忆域的子智能体,以防出现交叉干扰。

情境抽象: “自我烘焙”的艺术

随着原始日志和对话历史不断积累,系统需通过抽象化将其压缩为精简结构——这被称为自我烘焙 (self‑baking)

展示四种典型的情境抽象或“自我烘焙”设计: 自然语言摘要、结构化存储、向量嵌入及固定模式知识图谱。

图 6: “自我烘焙”与情境抽象的常见设计。

示例包括:

  • 自然语言摘要 : 周期性将近期活动浓缩为文本概览。
  • 固定模式 (Fixed Schemas) : 如知识图谱或任务树;例如, CodeRabbit 在代码审查前会生成项目依赖图。
  • 向量嵌入 : 将长历史压缩成语义向量,方便高效检索,但可读性较低。

3. 情境的使用

智能体间的情境共享

多智能体框架依赖于高效的情境交换机制。

信息图展示三种跨智能体情境共享模式: 将情境嵌入提示、结构化消息传递、以及通过共享记忆空间 (黑板或语义图) 进行间接通信。

图 7: 跨智能体情境共享的典型模式。

主要模式包括:

  • 嵌入提示中: 一个智能体的输出成为下一个智能体的输入。
  • 结构化消息传递: 智能体通过固定模式 (JSON、API) 交换信息。
  • 共享记忆空间: 多智能体通过中央“黑板”或语义图进行间接协调。
选择合适的情境

并非所有存储的信息都值得调用。有效的情境选择 (context selection) 如同“注意力之前的注意力”,依据语义相关性、逻辑依赖和时效性过滤数据。若缺乏筛选机制,智能体容易遭遇情境过载,导致推理效率下降。

主动推理

最先进的智能体能够从被动反应转向主动推断。它们会推测用户未明言的目标,并提前采取行动。例如,当你频繁询问 Python 优化问题时,智能助手可能在你提出请求之前就推荐最佳实践文档。


最后的疆域: 终身情境与语义操作系统

下一个重大挑战是终身情境保存 (lifelong context preservation)——如何在多年持续的交互中,保持一份连贯且不断演化的情境记录。

主要挑战包括:

  • 存储瓶颈: 在有限资源下保留大量有意义的信息历史。
  • 处理能力退化: Transformer 的注意力随序列长度增长而下降。
  • 系统不稳定性: 长期记忆中误差会累积并放大。
  • 评估困难: 难以验证模型在长时间跨度上的推理准确性。

渐进式改良已不足以应对,需要构建一个面向情境的语义操作系统 (semantic operating system for context)——一种能够安全地存储、检索、更新乃至遗忘信息的持久认知基础设施。此类系统必须能解释自身的推理链,以赢得人类信任,让机器从被动存储迈向主动认知。


结论: 从工具到协作者

《情境工程 2.0》将被视为“新兴手艺”的领域重新定义为一个历史悠久的学科。植根于数十年的人机交互研究,它经历了多代机器智能的演进,但始终追寻同一个使命: 弥合“意图”与“理解”之间的鸿沟。

当下我们身处指令时代 (Instruction Era) , 通过设计提示与工作流来引导智能体;前方是场景时代 (Scenario Era) , AI 将理解人类情境的全部丰富性;更远处是世界时代 (World Era) , 超人智能将主动塑造情境,帮助我们探索自身思维的新维度。

正如马克思所言: “人的本质是其社会关系的总和。” 在数字时代,我们的本质或许也是我们情境的总和——一个鲜活、不断演化、映照我们认知与创造力的集合。情境工程的故事,归根结底,是在智能世界中“被理解”意味着什么的故事。