引言: 不仅仅是提示
如果你曾接触过现代 AI,你肯定听说过上下文窗口 (context window)——我们向 GPT‑4 或 Claude 等大语言模型 (LLM) 输入信息的数字暂存区。我们往里塞入提示、文档和聊天记录,希望模型能理解我们的意图。这种做法通常被称为提示工程 (prompt engineering),或者更广泛地被称为情境工程 (context engineering),仿佛是为智能体时代量身打造的一项技能。
但如果它根本不是什么新鲜事呢?
研究论文 《情境工程 2.0: 情境工程的情境》 认为,这个挑战——让机器理解我们的处境和意图——其实已伴随我们数十年。技术在不断演进,但目标始终如一: 弥合人类思维与机器逻辑之间的巨大认知鸿沟。
情境工程远非昙花一现的潮流,而是一个长期发展的学科,随着机器智能的增长,经历了不同阶段的演化。该论文提供了丰富的历史叙述、形式化的理论框架,并展望了一个未来: AI 可能比我们更懂我们的情境。
让我们一起揭示情境工程的真正背景。
智能鸿沟: 情境工程为何存在
从根本上看,情境工程要解决的,是人类 (碳基智能) 与机器 (硅基智能) 之间的智能鸿沟 。 人类通过共同的经验、记忆和情感进行交流,能够轻易“填补空白”,而机器无法做到——一旦出现模糊就容易误解。
论文将情境工程定义为一个熵减过程。人类意图本质上是高熵的——杂乱、复杂、充满隐含意义。在机器能够理解并执行之前,这些高熵的信息必须被压缩并转化为低熵的表示。减少这种熵的过程正是情境工程的核心。

图 2: 人类与机器智能之间的认知鸿沟驱动了情境工程的需求。
随着机器智能的加速发展,这种鸿沟的性质也在演变,重塑了我们设计情境的方式。技术突破带来情境理解的飞跃,催生界面革命,并最终重新定义人机协作的范式。

图 3: 每一次机器智能的飞跃都会引发新的界面革命与范式转变。
情境工程的四个时代
这种演化呈现出规律性的模式,论文将其概括为四个不同的时代 。 如下图所示,我们目前正处于时代 2.0,并正在迈向时代 3.0。

图 1: 智能越高,情境处理能力越强,人机交互成本越低。
情境 1.0 — 作为翻译的情境: 人类手动将意图翻译成计算机可以解析的结构化格式——菜单、命令行和传感器。
情境 2.0 — 作为指令的情境: 智能体能够解释自然语言并容忍模糊性。这是 LLM 与提示工程的时代。
情境 3.0 — 作为场景的情境: AI 达到人类水平的理解能力,能够把握微妙的社会与情感背景,成为真正的协作伙伴。
情境 4.0 — 作为世界的情境: 超人智能的 AI 不仅能理解情境,还能主动构建情境,揭示我们未曾清晰表达的需求与洞见。
情境的形式化定义
为了让讨论更具基础性,论文在早期 2000 年代研究的基础上提供了一个数学定义。公式看似技术性,但其背后的直觉很直接。
- 实体 (Entity) \(e\): 任何与交互有关的参与者——用户、应用、环境或对象。 描述该实体的信息即为其特征描述 (Characterization) \( \mathrm{Char}(e) \)。
- 情境 (Context) \(C\): 所有相关实体的特征描述信息的并集。
- 情境工程 (Context Engineering) \(CE\): 一个将情境与任务映射到有效处理函数 \(f_{context}\) 的优化过程。
这里的操作 \(\phi_i\) 可能包括收集、存储、转换、选择、共享或适应情境——无论时代或技术如何变化。无论是 1990 年代的图形界面,还是 2025 年的智能体,挑战始终如一: 让机器真正理解人类意图。
情境工程的历史演进
了解过去有助于理解现在。下表展示了情境工程 1.0 与 2.0 之间关键的技术和方法转变。

表 1: 情境 1.0 vs 2.0 — 技术背景与关键机制。
时代 1.0: 作为翻译的情境 (1990年代–2020年)
在聊天机器人和生成智能体出现之前, 普适计算 (Ubiquitous Computing) 与情境感知系统 (Context‑Aware Systems) 的研究者试图让计算机预判我们的需求。由于机器无法理解自然语言,设计者扮演着意图翻译者的角色,把人类目标转换为结构化信号,比如位置、时间或活动。
Anind K. Dey 的里程碑式定义概括了那个时代:
“情境是任何可用于描述实体状态的信息……包括用户和应用程序本身。”
像 情境工具包 (The Context Toolkit) 这样的框架通过模块组件——小部件 (widgets)、解释器 (interpreters) 和 服务 (services)——实现了情境的采集、解释与传递。尽管这些系统是基于规则、由传感器驱动的,但它们为后续更具适应性的架构奠定了基础。
时代 2.0: 作为指令的情境 (2020年–至今)
GPT‑3 的发布使机器具备了语言理解能力,进入日常工作流。设计者不再硬编码规则,而是开始设计情境。2.0 时代的三大关键转变如下:
- 高级情境采集: 数据如今从智能手机、智能手表、摄像头,甚至脑机接口中源源不断地流出。

表 2: 典型的多模态情境采集器。
对原始情境的容忍: 现代系统能够直接接收人类原生信号——文本、音频与图像——无需提前结构化,能自然应对模糊。
从感知到协作: 系统不再依赖静态的 if‑then 规则,而是理解用户目标并在工作流中主动提供帮助。例如,AI 代码助手能理解你的项目并自动建议下一步的函数。情境从被动感知转向主动协作——从情境感知 (context‑aware) 行为迈向情境协作 (context‑cooperative)。
现代情境工程的设计原则
当今情境工程的发展路径围绕三大支柱: 收集与存储、管理与使用 。

图 4: 覆盖收集、管理与使用的主要设计要点。
1. 情境的收集与存储
早期系统多在本地收集并存储情境。现代架构则将其分布在设备与云端,并依据时间相关性进行组织:
- 短期记忆 — 快速、会话级窗口。
- 长期记忆 — 跨会话持续保存的数据。
例如 Claude Code 开发工具采用此理念: 将工作进展的结构化笔记写入外部记忆,使智能体在中断后仍可无缝恢复。
2. 情境管理
处理多模态情境
智能系统必须将文本、图像、音频等不同模态的输入统一到共享表示空间。

图 5: 多模态情境融合的工作流程。
常见方案包括:
- 共享向量空间 (Shared Vector Spaces): 将各模态映射到公共嵌入空间以便比较。
- 交叉注意力 (Cross‑Attention): 允许一种模态 (如文本) 对另一模态 (如图像区域) 进行选择性关注,实现语义对齐。
组织情境: 分层记忆与隔离
Andrej Karpathy 将 LLM 比作 CPU,其上下文窗口即 RAM——快速但有限。分层记忆模型可解决这一限制。
\[ M_s=f_{short}(c\in C:w_{temporal}(c)>\theta_s) \]\[ M_l=f_{long}(c\in C:w_{importance}(c)>\theta_l\land w_{temporal}(c)\le\theta_s) \]\[ f_{transfer}:M_s\to M_l \]短期记忆捕捉即时情境,长期记忆保留重要抽象; 情境转移 (context transfer) 负责整合两者。同时,系统也采用情境隔离 (context isolation) ——将任务交由各自拥有独立记忆域的子智能体,以防出现交叉干扰。
情境抽象: “自我烘焙”的艺术
随着原始日志和对话历史不断积累,系统需通过抽象化将其压缩为精简结构——这被称为自我烘焙 (self‑baking)。

图 6: “自我烘焙”与情境抽象的常见设计。
示例包括:
- 自然语言摘要 : 周期性将近期活动浓缩为文本概览。
- 固定模式 (Fixed Schemas) : 如知识图谱或任务树;例如, CodeRabbit 在代码审查前会生成项目依赖图。
- 向量嵌入 : 将长历史压缩成语义向量,方便高效检索,但可读性较低。
3. 情境的使用
智能体间的情境共享
多智能体框架依赖于高效的情境交换机制。

图 7: 跨智能体情境共享的典型模式。
主要模式包括:
- 嵌入提示中: 一个智能体的输出成为下一个智能体的输入。
- 结构化消息传递: 智能体通过固定模式 (JSON、API) 交换信息。
- 共享记忆空间: 多智能体通过中央“黑板”或语义图进行间接协调。
选择合适的情境
并非所有存储的信息都值得调用。有效的情境选择 (context selection) 如同“注意力之前的注意力”,依据语义相关性、逻辑依赖和时效性过滤数据。若缺乏筛选机制,智能体容易遭遇情境过载,导致推理效率下降。
主动推理
最先进的智能体能够从被动反应转向主动推断。它们会推测用户未明言的目标,并提前采取行动。例如,当你频繁询问 Python 优化问题时,智能助手可能在你提出请求之前就推荐最佳实践文档。
最后的疆域: 终身情境与语义操作系统
下一个重大挑战是终身情境保存 (lifelong context preservation)——如何在多年持续的交互中,保持一份连贯且不断演化的情境记录。
主要挑战包括:
- 存储瓶颈: 在有限资源下保留大量有意义的信息历史。
- 处理能力退化: Transformer 的注意力随序列长度增长而下降。
- 系统不稳定性: 长期记忆中误差会累积并放大。
- 评估困难: 难以验证模型在长时间跨度上的推理准确性。
渐进式改良已不足以应对,需要构建一个面向情境的语义操作系统 (semantic operating system for context)——一种能够安全地存储、检索、更新乃至遗忘信息的持久认知基础设施。此类系统必须能解释自身的推理链,以赢得人类信任,让机器从被动存储迈向主动认知。
结论: 从工具到协作者
《情境工程 2.0》将被视为“新兴手艺”的领域重新定义为一个历史悠久的学科。植根于数十年的人机交互研究,它经历了多代机器智能的演进,但始终追寻同一个使命: 弥合“意图”与“理解”之间的鸿沟。
当下我们身处指令时代 (Instruction Era) , 通过设计提示与工作流来引导智能体;前方是场景时代 (Scenario Era) , AI 将理解人类情境的全部丰富性;更远处是世界时代 (World Era) , 超人智能将主动塑造情境,帮助我们探索自身思维的新维度。
正如马克思所言: “人的本质是其社会关系的总和。” 在数字时代,我们的本质或许也是我们情境的总和——一个鲜活、不断演化、映照我们认知与创造力的集合。情境工程的故事,归根结底,是在智能世界中“被理解”意味着什么的故事。
](https://deep-paper.org/en/paper/2510.26493/images/cover.png)