Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且反直觉的问题：AI 智能体（Agent）是如何“学会”使用代码解释器的？

简单来说，研究人员发现，AI 在使用代码工具时，不仅是在学习“做什么”，更是在学习“在哪里做”以及“做完后东西还在不在”。

为了让你轻松理解，我们可以用**“带记忆的笔记本”和“白板”**这两个比喻来解释。

1. 核心概念：两种“做笔记”的方式

想象一下，你让一个 AI 助手帮你解决一个复杂的数学题，它需要一边思考，一边在电脑上写代码计算。

持久模式（Persistent）： 就像你有一个带记忆的笔记本。你在第一页写下 x = 10，翻到第二页时，x 依然等于 10，你不需要重新写一遍。AI 可以一直利用之前定义好的变量。
无状态模式（Stateless）： 就像你每次写完一行字，黑板就被擦干净了。如果你想在第二行用到第一行的 x，你必须把 x = 10 重新写一遍。

2. 实验设计：一场"2x2"的错位测试

研究人员设计了一个叫“不透明背包”（Opaque Knapsack）的游戏。在这个游戏里，AI 需要像侦探一样，通过有限的工具去猜测物品的重量和价值，最后选出最值钱的一堆。

他们做了四个实验组合，就像在测试“教”和“用”是否匹配：

教持久，用持久（完美匹配）： 老师教 AI 用“带记忆的笔记本”，AI 也在“带记忆的笔记本”上做题。
教无状态，用无状态（完美匹配）： 老师教 AI 用“每次擦黑板”，AI 也在“每次擦黑板”的环境下做题。
教持久，用无状态（大错特错）： 老师教 AI 用“带记忆的笔记本”，结果考试时却给了它一块“每次擦黑板”的黑板。
教无状态，用持久（浪费资源）： 老师教 AI 用“每次擦黑板”，结果考试时给了它一个“带记忆的笔记本”。

3. 惊人的发现：AI 真的“学会”了环境

研究发现，AI 并不是通用的，它把训练时的环境规则也“背”下来了。

情况一：教持久，用无状态（“断片”的灾难）

比喻： 你教学生“不用回头，直接接着上一句写”，结果考试时告诉他“每写一句都要把上一句擦掉重写”。
结果： AI 彻底懵了。它以为变量还在，直接引用，结果报错（比如“变量未定义”）。
后果： 它陷入了死循环，不断尝试修复错误，消耗了**80%**的精力在“找茬”和“报错”上，最后甚至没钱（Token 预算）去解题了。这就像一个人拿着旧地图在一条新修的路上狂奔，结果撞得头破血流。

情况二：教无状态，用持久（“健忘”的代价）

比喻： 你教学生“每写一步都要把公式抄一遍”，结果考试时给了他一个“自动保存”的笔记本。
结果： AI 依然习惯性地把已经存在的变量重新定义一遍。
后果： 虽然它能做对题，但它浪费了 3.5 倍的篇幅（Token）。这就像你明明有一台自动保存的电脑，却非要每写一个字就手动把整篇文章打印出来再贴回去。研究人员称之为**“健忘税”（Amnesia Tax）**。

关键点：结果差不多，但过程天差地别

有趣的是，无论哪种方式，只要 AI 能解出题，最终的答案质量（解出多少分）并没有太大区别。

区别在于： 一个是高效、稳定的（匹配时）；一个是低效、混乱的（不匹配时）。
这就好比两个人都能走到终点，一个穿着跑鞋（匹配），一个穿着拖鞋还背着沙袋（不匹配）。

4. 这个发现意味着什么？

这篇论文给开发 AI 的人敲响了警钟：

运行时不是“隐形”的： 以前大家认为，AI 训练时用什么环境不重要，只要它能学会逻辑就行。但论文证明，训练时的环境规则（是持久还是无状态）是 AI 行为的一部分。
设计必须显性化： 如果你打算让 AI 在“带记忆的笔记本”上工作，你就必须用“带记忆的笔记本”生成的数据去训练它。如果你用“擦黑板”的数据去训练它，然后把它放到“带记忆”的环境里，它虽然能干活，但会极其浪费资源。
不要随意切换： 如果你训练好的模型突然换了个运行环境（比如从持久变成了无状态），它可能会因为“以为”东西还在而直接崩溃。

总结

这就好比教孩子骑自行车：

如果你教他在有辅助轮（持久环境）的自行车上骑，然后突然让他骑没辅助轮（无状态环境）的车，他会因为习惯性地依赖辅助轮而摔倒。
如果你教他在没辅助轮的车上骑，然后让他骑有辅助轮的车，他虽然能骑，但可能会因为不习惯辅助轮的存在而骑得歪歪扭扭，或者非要自己把辅助轮拆了再骑（浪费精力）。

结论： 训练 AI 时，必须把“它将在什么样的环境下工作”作为核心设计的一部分，而不是把它当作一个无关紧要的技术细节。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：
在工具增强的大语言模型（LLM）智能体中，模型通常通过交替进行自然语言推理和可执行的 Python 动作来完成任务。许多智能体框架（如 CodeAct）配备了一个持久化的解释器（Persistent Interpreter），即变量和数据结构可以在多轮对话中保留。然而，现有的训练轨迹（Training Traces）往往隐式地假设了这种运行时行为，而没有明确将其作为训练数据的一个属性。

研究疑问：
解释器的持久性（Interpreter Persistence）仅仅是一个推理时的脚手架（Runtime Scaffold），还是训练数据中一种塑造智能体如何学习使用工具的关键属性？如果训练时的运行时假设与部署时的运行时环境不匹配，会对智能体的性能产生什么影响？

实际痛点：
模型通常是在一种运行时生成的轨迹上进行微调，然后部署在另一种运行时中。这种不匹配可能导致效率低下、稳定性差甚至任务失败，但目前的文献尚未系统性地量化这种“训练 - 推理对齐”的重要性。

2. 方法论 (Methodology)

为了回答上述问题，作者设计了一个受控的 2×2 交叉实验，在单一任务家族和基础模型上，解耦了“训练时的执行语义”与“部署时的运行时语义”。

2.1 任务设计：OPAQUE KNAPSACK (不透明背包问题)

作者提出了一个新的基准任务 OPAQUE KNAPSACK，这是一个经过精心设计的、不可坍缩（Non-collapsible） 的部分可观测背包问题变体。

部分可观测性： 物品的属性（重量、价值、类别）和可行性约束（允许的类别）是隐藏的，必须通过预算有限的工具调用来获取。
不可坍缩性： 任务无法通过单次脚本解决，强制要求多轮交互、信息迭代获取和状态修正。
工具接口： 包含 list_items(), inspect(), take_item() 三个工具。
目的： 该任务强制智能体在多轮交互中维护状态，从而能够清晰地观察到解释器持久性对状态管理策略的影响。

2.2 实验设置：2×2 交叉评估

研究在两个维度上进行了交叉：

训练条件 (Training Semantics)：
- 持久化训练 (Persistent)： 在解释器状态跨轮次保留的轨迹上进行微调。
- 无状态训练 (Stateless)： 在每轮动作后重置解释器状态（变量需重新定义）的轨迹上进行微调。
运行时条件 (Runtime Semantics)：
- 持久化运行时： 部署时解释器状态保留。
- 无状态运行时： 部署时解释器状态每轮重置。

模型与数据：

基础模型： Qwen3-8B。
数据生成： 使用相同的教师模型（Teacher Model）和任务实例，生成两组成对的轨迹，唯一的区别是解释器的状态处理逻辑（持久化 vs. 重置）。
微调： 分别使用上述两种轨迹微调两个 LoRA 适配器。
评估： 在 Easy 和 Hard 两个难度的任务集上，测试所有四种组合（持久化训练/持久化运行、持久化训练/无状态运行、无状态训练/持久化运行、无状态训练/无状态运行）。

3. 关键贡献 (Key Contributions)

OPAQUE KNAPSACK 基准与配对轨迹生成管道：
- 提出了一个非坍缩的基准任务，强制智能体进行多轮控制和状态迭代。
- 构建了一个生成管道，仅改变“持久性契约”（Persistence Contract），而保持任务、工具和监督信号固定，从而隔离了执行语义的影响。
证明持久性是一种“习得的先验” (Learned Prior)：
- 通过 2×2 实验证明，解释器的持久性不是零样本能力，而是模型在微调过程中吸收的行为先验。
- 这种先验会带入部署阶段，无论提示词如何，模型都会沿用训练时的状态管理策略。
揭示了训练 - 运行时不匹配的特征性失败模式：
- 量化了当训练假设与运行时环境不一致时，智能体表现出的特定故障模式（如变量缺失错误、遗忘税等）。

4. 主要结果 (Results)

实验结果表明，训练时的执行语义与部署时的运行时语义必须对齐，否则会导致显著的效率损失或稳定性问题，尽管最终的任务解决质量（Optimality）在统计上可能没有显著差异。

4.1 两种典型的失败模式

持久化训练 $\rightarrow$ 无状态运行时 (Persistent-trained $\rightarrow$ Stateless Runtime)：
- 现象： 模型在约 80% 的回合中触发 NameError（未定义变量）错误。
- 原因： 模型假设变量在解释器中保留，试图引用上一轮定义的变量，但运行时已重置。
- 后果： 模型陷入级联恢复循环（Cascading Recovery Loops），不断尝试修复代码，消耗大量 Token 却无法取得进展，导致极高的不稳定性。
无状态训练 $\rightarrow$ 持久化运行时 (Stateless-trained $\rightarrow$ Persistent Runtime)：
- 现象： 模型表现出**“遗忘税” (Amnesia Tax)**。
- 原因： 即使解释器可以保留状态，模型仍习惯性地每轮重新推导和重新定义状态（例如重复导入库、重新赋值变量）。
- 后果： 相比对齐的持久化条件，该配置消耗了约 3.5 倍 的 Token 数量，效率极低。

4.2 效率与质量权衡

Token 效率： 在 Hard 难度任务上，完全对齐的持久化配置（Persistent-trained + Persistent runtime）比无状态配置（Stateless-trained + Stateless runtime）节省了大量 Token（约 18,612 vs 67,898 tokens）。
解决质量： 尽管效率差异巨大，但在统计上，不同配置下的归一化最优解（Normalized Optimality） 并没有显著差异。这意味着解释器持久性主要影响智能体如何到达解决方案（路径、稳定性、成本），而不是是否能到达解决方案。

4.3 行为特征分析

状态利用 (State Utilization)： 只有当“持久化训练”模型在“持久化运行时”下运行时，才观察到真正的跨轮次变量复用。
重新导入率 (Re-import Rate)： 无状态训练的模型即使在持久化运行时下，每步的重新导入率仍高达 1.0，证明这是一种习得的行为习惯，而非对运行时的响应。

5. 意义与启示 (Significance)

运行时是设计决策，而非实现细节：
生成微调轨迹所使用的运行时（解释器是否持久化）不应被视为隐藏的底层实现细节，而应作为一等公民的设计选择（First-class Design Choice）。
训练 - 推理对齐的重要性：
如果部署环境提供持久化解释器，微调数据必须反映这种持久性，否则模型会表现出脆弱性（如变量缺失错误）或低效性（如遗忘税）。
Token 数量不是学习能力的唯一代理：
研究发现，无状态训练生成的轨迹虽然 Token 更多（因为需要重复表达状态），但这并不一定意味着更好的学习效果。相反，执行语义决定了轨迹的“可学习性”和智能体的行为风格。
对智能体框架开发的指导：
开发者在构建 Agent 框架时，必须明确定义并保持一致的“执行语义契约”。如果框架在推理时重置状态，那么训练数据也必须模拟这种重置；反之亦然。

总结

这篇论文通过严谨的受控实验，揭示了 LLM 智能体在工具使用任务中，解释器的持久性是一种被模型“学会”的行为模式。训练数据中的执行语义直接塑造了智能体在部署时的状态管理策略。忽视这种对齐会导致严重的效率损失（遗忘税）或系统崩溃（级联错误），强调了在构建 Agent 系统时，必须将运行时语义纳入训练数据的显式设计考量中。