AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

本文提出了 AceGRPO 框架,通过引入可复用的进化数据缓冲区和基于可学习性潜力的自适应采样机制,有效解决了自主机器学习工程智能体在长周期迭代优化中面临的参数冻结、执行延迟高及数据选择低效等挑战,使 Ace-30B 模型在 MLE-Bench-Lite 上实现了 100% 的有效提交率并展现出超越更大规模开源基线的持续优化能力。

Yuzhu Cai, Zexi Liu, Xinyu Zhu, Cheng Wang, Siheng Chen

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AceGRPO 的新方法,旨在让人工智能(AI)像真正的“机器学习工程师”一样,能够自我进化,而不仅仅是死记硬背。

为了让你轻松理解,我们可以把 AI 学习解决复杂的机器学习任务(比如参加 Kaggle 数据竞赛),想象成一个新手厨师在一家极其挑剔的餐厅里学习做一道从未做过的招牌菜

1. 以前的困境:只会“背菜谱”的厨师

在 AceGRPO 出现之前,AI 做这类任务主要靠两种方法:

  • 提示词工程(Prompt-based): 就像给厨师一张写满步骤的“菜谱”。厨师每次做菜都照着菜谱念,如果第一次做失败了,它不会真正“学会”怎么改,下次还是照着同样的菜谱念,结果可能还是失败。它参数冻结了,也就是脑子没变,只是换个说法问问题。
  • 传统的强化学习(RL): 这就像让厨师在厨房里从头到尾试错。但是,做一道复杂的机器学习菜(比如训练一个模型),可能需要几个小时甚至几天才能知道好不好吃(反馈太慢)。如果让厨师每次都从头试到结束,时间成本太高,根本学不动。

结果就是: AI 要么在原地踏步(行为停滞),要么因为试错太慢而放弃。

2. AceGRPO 的解决方案:聪明的“试菜”与“进化”

AceGRPO 就像给这位厨师配备了一位超级教练和一本动态进化的错题本。它有两个核心绝招:

绝招一:动态错题本(Evolving Data Buffer)

  • 比喻: 想象厨师每做一步(比如切菜、调火、加料),不管这一步是成功了还是失败了,教练都会立刻把这一步的状态记录下来,变成一个新的“小任务”。
  • 作用: 以前,如果厨师做错了,整个任务就废了。现在,教练把“切坏了的土豆”单独拿出来,变成一个新的练习任务:“如何把这块切坏的土豆修好?”
  • 好处: 这样,每一次昂贵的“试错”(跑代码、等结果)都变成了宝贵的练习素材。厨师不再需要每次都从头做整道菜,而是可以针对具体的“难点”进行反复练习。

绝招二:自适应选课(Adaptive Sampling)

  • 比喻: 教练手里有一大堆练习任务(动态错题本)。如果让厨师随机挑,他可能会挑到两种没用的任务:
    1. 太简单的: 比如“怎么把水烧开”,厨师早就学会了,再做也没进步。
    2. 太难的: 比如“如何徒手造火箭”,厨师完全不会,怎么做都是失败,挫败感强且学不到东西。
  • 核心机制(可学习潜力): AceGRPO 会计算每个任务的**“可学习潜力”**。
    • 它专门挑那些**“跳一跳够得着”**的任务。也就是厨师目前有点犹豫、尝试后可能成功也可能失败的任务。
    • 这就像教练说:“别练切菜了,你练‘火候控制’吧,这个你最近进步空间最大,练这个效率最高!”
  • 好处: 把有限的时间(计算资源)全部花在最能提升水平的地方,避免在简单或不可能完成的任务上浪费生命。

3. 最终效果:小模型逆袭大模型

通过这套方法,研究者训练出了一个名为 Ace-30B 的 AI 模型(参数量 300 亿,属于中等大小)。

  • 战绩惊人: 在著名的机器学习竞赛测试(MLE-Bench-Lite)中,Ace-30B 取得了 100% 的有效提交率(意味着它每次都能跑出代码,不报错)。
  • 以小博大: 它的表现不仅超过了那些参数量大得多的开源模型(比如 DeepSeek-V3.2,参数量是它的几十倍),甚至逼近了谷歌、OpenAI 等公司最顶级的闭源商业模型(如 GPT-5.2, Claude-4.5)。
  • 持续进化: 最厉害的是,它不是靠一次运气好,而是随着时间推移,表现越来越稳,像真正的工程师一样,能持续优化自己的策略。

总结

简单来说,AceGRPO 就是给 AI 装上了一个**“智能错题本”“精准提分教练”
它不再让 AI 盲目地从头试错,而是把每一次尝试都拆解成可练习的小步骤,并只让 AI 练习那些
“最有希望学会”**的难点。这让一个中等体量的 AI 模型,通过高效的自我进化,干出了顶级大模型才能干成的活。

一句话概括: 以前 AI 是“死记硬背”或“盲目试错”,现在它学会了“针对性特训”,从而在复杂的机器学习工程领域实现了自我超越。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →