Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一份**"AI 进化论”的说明书**。它告诉我们，人工智能（AI）已经从那个只会“一问一答”的聊天机器人，进化成了能独立干活、甚至能指挥其他机器人的“智能体（Agent）”。

作者认为，要管好这些新来的“智能员工”，光靠以前那套“怎么提问”（提示词工程）已经不够了。我们需要建立一套全新的管理体系。

为了让你更容易理解，我们可以把企业里的 AI 系统想象成一家正在扩建的超级餐厅。

1. 过去的时代：提示词工程（Prompt Engineering）

比喻：点菜的艺术

以前：你走进餐厅，对着服务员（AI）说：“我要一份微辣的宫保鸡丁，不要花生。”服务员给你端上来。
现状：这招依然有用。如果你只是偶尔问个菜怎么做，或者查个菜谱，只要你会“点菜”（写提示词），就能得到好结果。
局限：但这只是“点菜”。如果餐厅要开分店，要搞连锁，要自动炒菜、自动采购、自动算账，光靠“点菜”就不行了。你没法对着服务员喊：“你去把整个后厨的运作流程都优化一下，顺便把明天的菜单也定了。”

2. 新的时代：上下文工程（Context Engineering）

比喻：给厨师配“智能工作台”

当 AI 变成“智能体”后，它不再只是回答问题，而是开始干活（比如自动查库存、自动发邮件、自动写代码）。这时候，它需要一个**“智能工作台”**。

什么是上下文？ 就是厨师做菜时手边所有的东西：新鲜的食材（最新数据）、老菜谱（历史记忆）、厨房规矩（公司政策）、以及隔壁厨师刚才切好的菜（其他工具的输出）。
为什么要搞“上下文工程”？
- 以前：厨师（AI）每次只记得你刚才说的那句话。
- 现在：如果工作台太乱（塞满了过期的菜单、无关的杂音），厨师就会**“脑子短路”（产生幻觉），或者“记错菜”**（把 A 桌的订单做成 B 桌的）。
- 核心任务：就像给厨师配一个超级整洁、只放当下需要的东西的工作台。
  - 相关性：只给做宫保鸡丁需要的材料，别把做甜品的糖也塞给他。
  - 隔离性：做中餐的厨师别看到做西餐的机密配方。
  - 经济性：别把整个仓库的库存单都打印出来给他看，只给他看今天缺什么，不然打印费（计算成本）会爆炸。

结论：谁控制了“工作台”（上下文），谁就控制了 AI 的行为。

3. 更高层级：意图工程（Intent Engineering）

比喻：给餐厅定“经营哲学”

光有整洁的工作台还不够。如果厨师（AI）手里有所有食材，但他不知道老板想赚多少钱，还是想赚口碑，他会乱做。

问题：Klarna（一家支付公司）的案例就是教训。他们的 AI 客服为了省钱（优化成本），说话特别生硬，把客户气跑了。
- 原因：AI 知道所有客户数据（上下文工程做好了），但它不知道“客户满意度比省那几块钱更重要”（意图没定好）。
什么是意图工程？ 就是给 AI 注入**“价值观”和“优先级”**。
- 告诉 AI：“在这个场景下，客户开心比速度快重要。”
- 告诉 AI：“如果不确定，宁可慢一点，也不要乱承诺。”
核心任务：解决“为什么做”的问题。
- 结论：谁控制了“意图”，谁就控制了 AI 的战略。

4. 最高层级：规范工程（Specification Engineering）

比喻：编写“全自动连锁店的宪法”

当你要开 1000 家分店，有 1000 个 AI 员工同时工作时，靠口头交代（“大家看着办”）肯定乱套。你需要一本机器能读懂的“宪法”。

问题：以前公司的规矩都在 PDF 文件里，或者老员工脑子里。AI 看不懂 PDF，也没法读心。
什么是规范工程？ 把公司的所有规矩、标准、流程，变成机器能直接执行的代码或规则。
- 比如：把“发票报销不能超过 5000 元”变成一条 AI 能自动执行的代码。
- 把“遇到客户投诉必须升级给经理”变成一条自动路由规则。
核心任务：让成千上万个 AI 像一支训练有素的军队，而不是散兵游勇。
- 结论：谁控制了“规范”，谁就能控制 AI 的规模。

总结：AI 管理的“金字塔”

作者提出了一个四层金字塔模型，就像盖房子一样，一层比一层高，但缺一不可：

地基：提示词工程 (Prompt Engineering)
- 作用：怎么跟 AI 说话。
- 比喻：点菜。
- 地位：基础技能，但不够用。
第二层：上下文工程 (Context Engineering)
- 作用：给 AI 准备它干活时需要的“环境”和“资料”。
- 比喻：整理厨师的工作台。
- 关键：控制行为（不乱做）。
第三层：意图工程 (Intent Engineering)
- 作用：告诉 AI 公司的目标是什么，什么最重要。
- 比喻：制定餐厅的经营哲学（是走高端路线还是快餐路线）。
- 关键：控制战略（做对的事）。
塔尖：规范工程 (Specification Engineering)
- 作用：把公司规矩变成机器语言，让大规模 AI 协同工作。
- 比喻：编写全自动连锁店的“宪法”。
- 关键：控制规模（能管多少人）。

给老板和员工的启示

不要只盯着“提示词”：如果你只教员工怎么写出完美的提示词，就像只教厨师怎么切菜，却不管他有没有菜谱、不知道餐厅定位、也没有统一的管理制度。
警惕“黑暗工厂”：如果让 AI 自动运行，但没有设计好“意图”和“规范”，它可能会为了省成本而把公司搞垮（像 Klarna 那样）。
未来的核心竞争力：不在于谁会用 AI 聊天，而在于谁能设计好 AI 的工作环境、目标和规则。

一句话总结：
以前我们教 AI**“怎么说话”（提示词）；
现在我们要教 AI“在什么环境下干活”（上下文）；
接着要告诉它“为了什么而干”（意图）；
最后要给它定下“全公司的统一规矩”**（规范）。

只有把这四层都搭好，企业才能真正驾驭 AI，而不是被 AI 带着跑。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：从提示词工程到企业级多智能体架构

1. 研究背景与核心问题 (Problem)

随着人工智能系统从无状态的聊天机器人（Chatbots）演变为能够自主执行多步骤任务的智能体（Agents），传统的**提示词工程（Prompt Engineering, PE）**已显得力不从心。

局限性： PE 专注于单次“请求 - 响应”循环中的查询优化，适用于人类直接交互。但在自主智能体（Agent）架构中，系统需要规划长链条任务、调用外部工具、管理跨会话记忆并处理多智能体协作。
核心痛点：
- 语境退化（Context Degradation）： 随着任务步骤增加（如 20-50 步），上下文窗口被无关数据、过时状态和工具日志淹没，导致模型“迷失在中间”（Lost-in-the-middle），产生幻觉或逻辑错误。
- 意图缺失（Intent Deficit）： 即使智能体拥有完美的数据（语境），若缺乏明确的企业目标、价值观和权衡层级，它仍可能优化错误的指标（如 Klarna 案例中，智能体为节省成本而牺牲客户体验）。
- 治理滞后： 企业部署智能体的速度远超治理能力的建设，导致“黑箱工厂”（Dark Factory）风险，即缺乏人类监督的自主操作。

2. 方法论与理论框架 (Methodology)

本文提出了一套分层演进的方法论，将智能体工程从单一的“提示词技巧”提升为系统性的工程学科。作者基于对主流厂商架构（Google ADK, Anthropic, LangChain）、学术研究（ACE 框架、Tomašev 等人的智能委托模型）以及企业实践数据的综合分析，构建了四层累积成熟度金字塔模型（The Pyramid）。

该模型认为，每一层都以前一层为基础，而非替代关系：

提示词工程 (Prompt Engineering, PE)： 基础层，处理单次查询。
语境工程 (Context Engineering, CE)： 核心层，设计智能体决策时的完整信息环境。
意图工程 (Intent Engineering, IE)： 战略层，将企业目标编码进智能体基础设施。
规范工程 (Specification Engineering, SE)： 规模层，将企业政策转化为机器可读的“宪法”。

3. 关键贡献 (Key Contributions)

A. 定义“语境工程” (Context Engineering, CE) 为智能体的操作系统

作者提出，语境不应被视为被动的输入数据，而应被视为智能体的操作系统（Operating System）。它负责管理内存、分配资源、隔离进程并提供外部系统接口。

五大生产级语境质量准则：
1. 相关性 (Relevance)： 仅向智能体提供当前步骤所需的最小充分信息，避免干扰。
2. 充分性 (Sufficiency)： 确保决策所需的所有数据完备，防止幻觉。
3. 隔离性 (Isolation)： 在多智能体系统中，防止子智能体之间的数据泄露（通过权限衰减和加密令牌实现）。
4. 经济性 (Economy)： 通过压缩、缓存和选择性加载，优化 Token 成本和延迟。
5. 可追溯性 (Provenance)： 语境中的每个元素必须可追溯至来源，支持审计和调试。
语境腐烂 (Context Rot) 分类法： 识别了四种语境失效模式：语境中毒（错误信息传播）、语境干扰（无关信息导致性能下降）、语境混淆（信息矛盾）和语境冲突。

B. 提出“意图工程” (Intent Engineering, IE)

针对“智能体知道做什么，但不知道为何而做”的问题，IE 旨在将企业的战略目标、价值观和权衡层级（Trade-off Hierarchies）编码到智能体基础设施中。

核心作用： 解决委托 - 代理问题，防止智能体通过“奖励黑客”（Reward Hacking）优化易测量的指标（如响应速度）而牺牲核心业务价值（如客户忠诚度）。
实践： 需要跨职能团队（业务、合规、技术）共同定义优先级和反馈循环。

C. 提出“规范工程” (Specification Engineering, SE)

为了解决大规模多智能体系统（MAS）的治理问题，SE 将原本存在于 PDF、口头协议或“常识”中的企业知识，转化为机器可读的规范库。

智能体宪法： 类似于 ERP 系统对业务流程的编码，SE 为智能体提供统一的“宪法”，确保成千上万个智能体在扩展时行为一致、不冲突。
解决治理缺口： 只有将隐性知识显性化、结构化，企业才能有效治理大规模部署的智能体。

D. 构建“四层累积成熟度金字塔” (The Pyramid)

层级关系： PE $\rightarrow$ CE $\rightarrow$ IE $\rightarrow$ SE。
核心论点： 高层级吸收低层级作为基础设施。没有语境工程，意图工程无法落地；没有规范工程，意图工程无法规模化。
控制论：
- 控制语境 $\rightarrow$ 控制行为（成本、合规、声誉）。
- 控制意图 $\rightarrow$ 控制战略（目标、价值观）。
- 控制规范 $\rightarrow$ 控制规模（企业级扩展能力）。

4. 结果与案例分析 (Results & Case Studies)

Klarna 案例（双重缺陷）： Klarna 的 AI 客服虽然节省了 6000 万美元（技术成功），但因缺乏语境工程（未提供个性化客户历史）和意图工程（未编码“客户忠诚度优于成本”的权衡），导致服务质量下降和品牌受损。这证明了仅有技术能力而无战略对齐是危险的。
TELUS 案例（规范缺失的代价）： TELUS 拥有 21,000 个自定义 AI 助手，但因缺乏规范工程，面临行为不一致和治理危机。这突显了在大规模部署中，机器可读规范的必要性。
经济影响： 良好的语境工程（压缩、缓存、隔离）可将推理成本降低 5-10 倍，使智能体在经济上可行。
架构演进： 提出了混合架构（云 orchestrator + 边缘 SLM），其中语境设计决定了数据主权和延迟管理（如钢铁厂质检场景）。

5. 意义与影响 (Significance)

范式转移： 标志着 AI 开发从“提示词艺术”（Prompting as Art）向“系统工程”（Systems Engineering）的转变。提示词不再是唯一的技能，而是基础。
企业治理新视角： 填补了企业 AI 治理的空白。文章指出，84% 的企业尚未围绕 AI 重新设计角色，而规范工程是解决这一差距的关键。
控制权的重新定义： 随着 AI 自主性增强，人类角色的重心从“编写查询”转移到“设计信息环境”、“编码战略意图”和“制定机器可读规范”。
未来适应性： 即使未来 LLM 被其他架构（如世界模型）取代，语境、意图和规范工程的必要性不仅不会减弱，反而会因为物理世界数据的复杂性和噪声而更加关键。

总结： 本文不仅定义了“语境工程”这一新学科，更构建了一个完整的智能体工程成熟度模型。它警告企业：如果不从提示词层面跃升至语境、意图和规范的工程化设计，盲目部署智能体将导致战略盲区和治理失控。控制智能体的语境、意图和规范，就是控制其行为的边界、战略的方向和扩展的规模。