Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AceGRPO 的新方法，旨在让人工智能（AI）像真正的“机器学习工程师”一样，能够自我进化，而不仅仅是死记硬背。

为了让你轻松理解，我们可以把 AI 学习解决复杂的机器学习任务（比如参加 Kaggle 数据竞赛），想象成一个新手厨师在一家极其挑剔的餐厅里学习做一道从未做过的招牌菜。

1. 以前的困境：只会“背菜谱”的厨师

在 AceGRPO 出现之前，AI 做这类任务主要靠两种方法：

提示词工程（Prompt-based）： 就像给厨师一张写满步骤的“菜谱”。厨师每次做菜都照着菜谱念，如果第一次做失败了，它不会真正“学会”怎么改，下次还是照着同样的菜谱念，结果可能还是失败。它参数冻结了，也就是脑子没变，只是换个说法问问题。
传统的强化学习（RL）： 这就像让厨师在厨房里从头到尾试错。但是，做一道复杂的机器学习菜（比如训练一个模型），可能需要几个小时甚至几天才能知道好不好吃（反馈太慢）。如果让厨师每次都从头试到结束，时间成本太高，根本学不动。

结果就是： AI 要么在原地踏步（行为停滞），要么因为试错太慢而放弃。

2. AceGRPO 的解决方案：聪明的“试菜”与“进化”

AceGRPO 就像给这位厨师配备了一位超级教练和一本动态进化的错题本。它有两个核心绝招：

绝招一：动态错题本（Evolving Data Buffer）

比喻： 想象厨师每做一步（比如切菜、调火、加料），不管这一步是成功了还是失败了，教练都会立刻把这一步的状态记录下来，变成一个新的“小任务”。
作用： 以前，如果厨师做错了，整个任务就废了。现在，教练把“切坏了的土豆”单独拿出来，变成一个新的练习任务：“如何把这块切坏的土豆修好？”
好处： 这样，每一次昂贵的“试错”（跑代码、等结果）都变成了宝贵的练习素材。厨师不再需要每次都从头做整道菜，而是可以针对具体的“难点”进行反复练习。

绝招二：自适应选课（Adaptive Sampling）

比喻： 教练手里有一大堆练习任务（动态错题本）。如果让厨师随机挑，他可能会挑到两种没用的任务：
1. 太简单的： 比如“怎么把水烧开”，厨师早就学会了，再做也没进步。
2. 太难的： 比如“如何徒手造火箭”，厨师完全不会，怎么做都是失败，挫败感强且学不到东西。
核心机制（可学习潜力）： AceGRPO 会计算每个任务的**“可学习潜力”**。
- 它专门挑那些**“跳一跳够得着”**的任务。也就是厨师目前有点犹豫、尝试后可能成功也可能失败的任务。
- 这就像教练说：“别练切菜了，你练‘火候控制’吧，这个你最近进步空间最大，练这个效率最高！”
好处： 把有限的时间（计算资源）全部花在最能提升水平的地方，避免在简单或不可能完成的任务上浪费生命。

3. 最终效果：小模型逆袭大模型

通过这套方法，研究者训练出了一个名为 Ace-30B 的 AI 模型（参数量 300 亿，属于中等大小）。

战绩惊人： 在著名的机器学习竞赛测试（MLE-Bench-Lite）中，Ace-30B 取得了 100% 的有效提交率（意味着它每次都能跑出代码，不报错）。
以小博大： 它的表现不仅超过了那些参数量大得多的开源模型（比如 DeepSeek-V3.2，参数量是它的几十倍），甚至逼近了谷歌、OpenAI 等公司最顶级的闭源商业模型（如 GPT-5.2, Claude-4.5）。
持续进化： 最厉害的是，它不是靠一次运气好，而是随着时间推移，表现越来越稳，像真正的工程师一样，能持续优化自己的策略。

总结

简单来说，AceGRPO 就是给 AI 装上了一个**“智能错题本”和“精准提分教练”。
它不再让 AI 盲目地从头试错，而是把每一次尝试都拆解成可练习的小步骤，并只让 AI 练习那些“最有希望学会”**的难点。这让一个中等体量的 AI 模型，通过高效的自我进化，干出了顶级大模型才能干成的活。

一句话概括： 以前 AI 是“死记硬背”或“盲目试错”，现在它学会了“针对性特训”，从而在复杂的机器学习工程领域实现了自我超越。

Each language version is independently generated for its own context, not a direct translation.

AceGRPO 技术总结

1. 研究背景与问题定义 (Problem)

背景：
自主机器学习工程（Autonomous MLE）要求智能体在长时间跨度内进行持续的、迭代的优化（如 Kaggle 竞赛）。虽然基于大语言模型（LLM）的智能体展现了潜力，但现有的基于提示（Prompt-based）的方法存在**行为停滞（Behavioral Stagnation）**问题。由于模型参数冻结，智能体无法将试错经验转化为改进的决策规则，导致在数千次迭代后仍陷入次优模式。

核心挑战：
虽然强化学习（RL）是解决上述问题的自然途径，但在 MLE 领域直接应用面临两大瓶颈：

执行延迟极高（Prohibitive Latency）： MLE 任务通常需要运行完整的训练流水线，单次执行可能耗时数分钟至数小时，使得端到端的全轨迹（Full-trajectory）RL 训练在计算上不可行。
数据选择低效（Inefficient Data Selection）：
- 状态采样位置难定： 传统方法构建的状态池往往多样性不足或构建成本过高。
- 状态采样策略低效： 均匀采样容易选中两类“无效”状态：一是已被掌握的任务（奖励确定性高，梯度消失），二是超出能力范围的任务（奖励确定性低，梯度消失）。这导致组内奖励方差（Within-group Reward Dispersion）趋近于零，无法提供有效的更新信号，浪费计算资源。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 AceGRPO（Adaptive Curriculum Enhanced Group Relative Policy Optimization），这是一个基于自适应课程学习的 RL 框架。其核心思想是将长轨迹优化重构为基于动态演化任务分布的**分步（Step-wise）**优化。

AceGRPO 包含两个紧密耦合的核心组件：

2.1 演化数据缓冲区 (Evolving Data Buffer)

功能： 将昂贵的执行轨迹转化为可复用的分步训练任务。
机制：
- 将每一次中间状态（无论是调试失败的尝试还是次优解）都视为新单步 RL 任务的合法起点。
- 维护一个动态缓冲区 $B_t$ ，随着训练进行，通过转移算子 $\Phi$ 不断将执行产生的新状态（如 Debug 状态、Improve 状态）追加到缓冲区中。
- 奖励塑形（Reward Shaping）： 结合绝对性能（HumanRank 排名）和相对改进（相对于历史基线的提升），确保早期训练关注生成有效代码，后期关注性能优化。
优势： 避免了全轨迹回滚的昂贵成本，同时保证了训练分布能随着智能体能力的提升而动态演进，维持了策略的多样性。

2.2 基于“可学习潜力”的自适应采样 (Adaptive Sampling)

功能： 在有限的执行预算下，优先选择最具信息量的状态，最大化学习效率。
核心指标：可学习潜力 (Learnability Potential, $P(x)$ )
- 该指标作为梯度幅度的代理，用于量化状态的信息量。
- 计算公式包含两项：
  1. 不确定性 (Uncertainty)： 组内奖励的标准差 $\sigma$ 。高方差意味着智能体在该状态附近处于“学习区”，结果非确定性，能提供有效梯度。
  2. 提升空间 (Headroom)： $1 - \mu$ （平均奖励）。避免选择已掌握（高奖励）或完全不可解（低奖励）的任务，聚焦于仍有优化空间的任务。
采样策略：
- 基于排名的课程学习： 根据 $P(x)$ 对任务进行排序，并引入随时间变化的聚焦系数 $\rho(t)$ 。从早期的广泛探索（低 $\rho$ ）逐渐过渡到后期的集中利用（高 $\rho$ ），聚焦于前沿任务。
- 多样性保持冷却机制： 引入冷却因子 $C(x, t)$ ，抑制近期频繁访问的状态，防止过拟合局部最优，强制智能体探索新的“学习区”。

2.3 异步训练架构

采用解耦架构：Rollout Workers 负责采样和执行，Learner Actors 负责收集数据并更新策略。这种并行化设计有效掩盖了 MLE 任务的高延迟，实现了实时课程统计更新。

3. 主要贡献 (Key Contributions)

提出 AceGRPO 框架： 将长视野的 MLE 优化重构为基于演化数据缓冲区的分步学习，实现了智能体的持续自我进化。
引入自适应采样机制： 设计了“可学习潜力”函数，动态优先处理智能体学习前沿的任务，在保持探索多样性的同时最大化训练效率，解决了梯度消失问题。
性能突破： 在 MLE-Bench-Lite 基准测试中，基于 AceGRPO 训练的 Ace-30B 模型（30B 参数）实现了 100% 的有效提交率，并在多项指标上超越了参数量大得多的开源基线（如 DeepSeek-V3.2），甚至接近闭源前沿模型（如 GPT-5.2, Claude-4.5-Sonnet）的性能。

4. 实验结果 (Results)

在 MLE-Bench-Lite（包含 22 个 Kaggle 任务）上的评估结果显示：

有效提交率 (Valid Submission)： Ace-30B 达到 100%，与最强的闭源模型持平，显著优于未训练的基线模型。
获奖率 (Any Medal)： Ace-30B 的获奖率为 51.52%，相比基线模型（27.27%）提升了 24.25%，相比 DeepSeek-V3.2 (39.39%) 提升了 12.13%。
HumanRank 分数： Ace-30B 达到 0.7114，超越了 DeepSeek-V3.2 (0.6592) 和 Qwen3-235B (0.6970)，并略高于 GPT-5.2 (0.7105)。
早期效率： Ace-30B 在首次有效提交时的表现显著优于基线，平均所需步数从 18.48 步降至 3.67 步，表明其能更快生成有效且具竞争力的解决方案。
消融实验： 移除“演化数据缓冲区”导致获奖率下降 3.97%，移除“自适应采样”导致下降 7.00%，证明了两个组件的必要性。

5. 意义与影响 (Significance)

打破参数规模限制： 证明了通过高效的 RL 训练框架（AceGRPO），中小规模（30B）的开源模型可以展现出与超大参数闭源模型相当甚至更优的长视野任务优化能力。
解决 MLE 训练瓶颈： 成功克服了 MLE 任务高延迟和静态数据集探索不足的难题，为自主机器学习工程提供了一种可扩展的、持续自我进化的训练范式。
推动 Agent 自我进化： 展示了从“推理时搜索”向“策略内化”转变的可行性，使智能体能够真正从经验中学习并持续改进策略，而非仅仅依赖提示工程。

总结： AceGRPO 通过构建动态演化的任务池和智能的采样策略，高效地利用有限的计算预算，使 LLM 能够在高延迟、长视野的 MLE 任务中实现持续的自我优化，显著提升了开源模型在复杂工程任务中的表现。

AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering