Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ARES 的新框架，它的核心目的是让 AI 智能体（AI Agents）变得更聪明、更省钱。

为了让你轻松理解，我们可以把 AI 智能体想象成一个正在执行复杂任务的“超级员工”，而 ARES 就是这位员工的**“智能精力管理教练”**。

1. 背景：为什么现在的 AI 太“烧钱”了？

现在的 AI（特别是那些会“思考”的模型）在做任务时，比如帮你订机票、查资料或浏览网页，它们每一步都会进行大量的“内心独白”（也就是推理过程）。

现状：为了不出错，人们通常让 AI 在每一步都开启“深度思考模式”（High Effort）。这就像让一个员工在“打开电脑”、“点击鼠标”这种简单动作上，也花 10 分钟去写一份详细的分析报告。
问题：
- 太慢太贵：这种“全程高配”模式消耗了大量的计算资源（Token），就像一直开着法拉利的引擎去送快递，既费油又没必要。
- 效果不佳：如果为了省钱，让 AI 在每一步都开启“快速模式”（Low Effort），就像让一个新手在“处理复杂合同”这种关键步骤上也只花 1 秒钟，结果就是错误百出，任务失败。

2. ARES 的解决方案：像“老司机”一样灵活变通

ARES 的核心思想是：不要一刀切，要“看菜吃饭”。

它引入了一个轻量级的**“路由教练”（Router）**。这个教练不直接干活，它的任务是根据当前的情况，决定 AI 员工下一步该用多少“脑力”。

生动的比喻：

想象你在玩一个大型探险游戏：

简单步骤（如：打开地图、点击“开始”按钮）：
- 传统做法：全程开启“上帝视角 + 超级分析”（高成本）。
- ARES 做法：教练喊一声：“这步很简单，快速通过！”（低脑力，省资源）。
困难步骤（如：在复杂的迷宫里找路、解开一个逻辑谜题）：
- 传统做法：如果全程快速，可能会走错路，导致游戏失败。
- ARES 做法：教练看到前方有陷阱，立刻喊：“注意！这里很危险，开启深度思考模式，仔细分析！”（高脑力，保成功）。

ARES 就是那个能实时判断“哪里该快，哪里该慢”的教练。

3. ARES 是怎么学会这个技能的？（训练过程）

这个“教练”不是天生的，它是通过三个阶段“特训”出来的：

收集“完美通关”录像（轨迹收集）：
先让 AI 用“最顶级配置”（高脑力）把任务完美做完，记录下成功的路线。这就好比先让一个特级大厨做出一道完美的菜，作为标准答案。
拆解步骤，寻找“最低配置”（标注努力程度）：
教练把这道完美的菜拆解成一个个步骤。对于每一步，它尝试问：“如果我只用‘普通厨师’（低脑力）来做这一步，能成功吗？”
- 如果“普通厨师”也能切好菜，那就标记为“低脑力”。
- 如果只有“特级厨师”才能处理好复杂的摆盘，那就标记为“高脑力”。
- 目的：找出每一步完成所需的最低脑力门槛。
让教练学会“解释原因”（生成理由）：
为了让教练更聪明，不仅让它选“高/低”，还让它先说出为什么这么选（比如：“因为这一步涉及复杂逻辑，所以必须高脑力”）。这就像让教练在发号施令前，先写个简短的“作战计划”，这样它做决定时更准确。
实战演练与奖励（强化学习）：
最后，让教练在模拟环境中不断试错。
- 如果任务成功了且省了钱，给奖励。
- 如果为了省钱导致任务失败，或者浪费钱，就惩罚。
- 经过成千上万次的练习，教练就学会了如何在保证成功的前提下，极致地节省成本。

4. 效果如何？（实验结果）

论文在三个不同的领域测试了 ARES：

工具使用（如订机票、查数据库）
深度研究（如搜索复杂信息）
网页浏览（如在网上购物、操作网站）

结果令人惊喜：

省钱：相比全程开启“高脑力”模式，ARES 减少了 35% 到 52% 的计算成本（Token 消耗）。
保质：任务的成功率几乎没有下降，甚至在某些情况下（如网页浏览），因为避免了“过度思考”导致的混乱，成功率反而更高了！
通用性：这个教练不仅能在小模型上工作，还能“迁移”到大模型上，依然有效。

5. 总结：这对我们意味着什么？

ARES 就像给 AI 装上了一个“智能节能开关”。

以前，我们要么让 AI 全程“烧脑”（太贵），要么全程“摸鱼”（太蠢）。现在，ARES 让 AI 学会了**“该省则省，该花则花”**。

对于开发者：这意味着可以用更少的钱，部署更强大的 AI 应用。
对于我们用户：未来的 AI 助手反应会更快，而且因为成本降低，使用费用可能会更便宜，同时依然能帮你解决复杂的难题。

简单来说，ARES 让 AI 从“只会死磕的学霸”变成了“懂得劳逸结合的聪明人”。

Each language version is independently generated for its own context, not a direct translation.

ARES：面向高效 LLM 代理的自适应推理努力选择技术总结

1. 研究背景与问题定义 (Problem)

随着具备“思考”能力的大型语言模型（LLM）的发展，自主代理（Agents）在复杂多步任务中的表现显著提升。然而，这种性能提升伴随着巨大的推理成本，因为代理在每一步决策中都会生成大量的思维链（Chain-of-Thought, CoT）Token。

当前存在的主要痛点包括：

静态策略的局限性：现有的 LLM 虽然支持可配置的推理模式（如高/中/低强度），但采用固定的策略（如全程使用高强度）会导致成本过高，而全程使用低强度则会导致任务成功率大幅下降（例如在 TAU-Bench 上，gpt-oss-20b 从“高”切换到“低”模式会导致近 20% 的性能下降）。
随机选择的无效性：随机选择推理模式既无法保证精度，也无法有效降低成本。
现有路由方法的不足：传统的模型路由（Model Routing）通常在不同大小的模型间切换，存在 KV Cache 无法复用、上下文重编码带来额外延迟等问题，且性能与成本的权衡关系往往不单调。

核心问题：如何在多步代理任务中，根据每一步的具体难度动态分配推理资源（即选择高、中、低哪种推理模式），从而在保持任务成功率的同时，最大限度地减少推理 Token 的消耗？

2. 方法论 (Methodology)

论文提出了 ARES (Adaptive Reasoning Effort Selection) 框架，其核心思想是引入一个轻量级的“路由模型”（Router），在代理的每一步决策前，根据交互历史动态预测所需的最低推理努力等级。

2.1 框架架构

路由模型 (Router)：一个轻量级 LLM（如 Qwen3-1.7B），输入为当前的任务上下文、交互历史和观察结果，输出为下一步所需的推理努力等级（低/中/高）以及简短的推理依据（Rationale）。
代理模型 (Agent)：使用选定的推理等级执行下一步动作。
优势：由于是在同一模型内部切换推理模式，ARES 可以复用 KV Cache，避免了跨模型路由带来的额外推理开销和延迟。

2.2 训练流程 (Training Pipeline)

为了训练路由模型，作者设计了一个三阶段的数据生成与训练流水线：

轨迹收集 (Trajectory Collection)：
- 使用最大推理努力（High）在目标任务上采样成功的轨迹。
- 筛选出步骤最精简的成功轨迹作为“参考路径”（Ground Truth），以消除错误传播的干扰。
推理努力标注 (Reasoning Effort Annotation)：
- 将参考路径分解为单步决策。
- 对于每一步，分别使用低、中、高三种推理模式进行多次采样（K=3）。
- 通过 LLM 裁判（Judge）验证生成的动作是否与真值功能等价。
- 确定能稳定复现正确动作的最低推理等级作为该步的标签（Label）。
依据生成 (Rationale Generation)：
- 利用强大的教师模型（Teacher Model）分析每一步的上下文和任务难度，生成简短的推理依据（3-5 句话），解释为何选择该推理等级。
- 这有助于路由模型显式地分析任务难度，而非直接进行黑盒映射。
监督微调 (SFT)：
- 使用上述生成的数据（上下文 + 依据 + 标签）对轻量级路由模型进行监督微调，使其学会预测最低足够的推理等级。
强化学习 (RL)：
- 为了解决 SFT 仅关注单步最优而忽略全局动态的问题，进一步采用 GRPO (Group Relative Policy Optimization) 进行强化学习。
- 奖励函数设计：
  - 结果奖励 ( $R_{out}$ )：任务成功给予高分，失败为 0。
  - 成本奖励 ( $R_{cost}$ )：根据选择的推理等级给予负奖励（高成本惩罚重），仅在成功轨迹上计算，防止代理为了省钱而故意失败。
  - 格式奖励 ( $R_{form}$ )：确保输出符合规范。
- 数据过滤：仅保留那些在不同推理策略下成功率均为 100% 但成本差异显著的样本，以强化路由模型对效率优化的学习。

3. 关键贡献 (Key Contributions)

提出了 ARES 框架：首个针对多步 LLM 代理任务的自适应推理努力选择框架，实现了在单模型内部动态调整推理深度。
创新的训练流水线：开发了一套自动化的数据生成管道，能够识别每一步完成任务所需的“最小充分推理努力”，并引入“推理依据”生成机制提升路由模型的决策可解释性和准确性。
结合 SFT 与 RL 的优化策略：通过监督微调建立基础能力，再利用强化学习优化全局成本 - 性能权衡，解决了传统贪婪策略无法处理长程依赖和错误恢复的问题。
广泛的实验验证：在工具使用（TAU-Bench）、深度研究（BrowseComp-Plus）和网页导航（WebArena）三个不同领域的基准测试中进行了验证，证明了方法的通用性。

4. 实验结果 (Results)

实验基于 gpt-oss-20b 作为代理骨干模型，Qwen3-1.7B 作为路由模型。

性能与效率的平衡：
- TAU-Bench (Retail)：在保持与“全程高推理”模式相同成功率（54.8%）的情况下，推理 Token 消耗减少了 52.7%。
- BrowseComp-Plus：成功率接近高推理基线（41.3% vs 42.7%），Token 消耗减少 41.8%。
- WebArena：甚至超越了高推理基线的成功率（46.5% vs 45.0%），同时减少了 45.3% 的 Token 消耗。这表明在某些场景下，过度推理（Overthinking）反而有害，动态调整能避免逻辑漂移。
RL 的增益：引入 RL 优化后，在 TAU-Bench Airline 任务中，准确率从 36.0% 提升至 42.0%，同时总 Token 消耗从 678k 降至 133k（减少近 80%）。
泛化能力：当骨干模型从 20B 升级到 120B 时，ARES 依然能保持 65.2% 的准确率（接近 120B 高推理模式的 67.8%），并节省约 23% 的 Token，证明了其跨规模泛化能力。
消融实验：
- 移除 SFT 会导致准确率大幅下降（从 54.8% 降至 41.7%）。
- 移除“推理依据”生成会导致准确率下降 3.5%，证明显式分析任务难度的重要性。
- 使用归一化的成本奖励比未归一化的累积奖励能更有效地压缩高推理模式的使用比例。

5. 意义与影响 (Significance)

降低部署成本：ARES 为 LLM 代理提供了一种“即插即用”的优化方案，无需更换模型架构或维护多个异构模型，即可显著降低推理成本和能源消耗。
解决“过度思考”问题：研究表明，并非所有步骤都需要高强度推理。ARES 能够识别关键步骤（如错误修正、分支决策）并分配高资源，而在简单步骤（如打开 URL）使用低资源，从而避免无效计算。
技术可扩展性：该框架独立于具体的代理架构，可应用于任何支持多模式推理的 LLM，为未来构建更经济、更高效的自主智能体系统奠定了基础。
未来方向：该方法可进一步扩展到多模态输入、更复杂的实时交互环境以及多智能体协作场景中。

综上所述，ARES 通过精细化的动态资源调度，成功打破了 LLM 代理中“高性能”与“低成本”之间的传统权衡，是实现高效智能体落地的关键技术突破。

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents