Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

该论文提出了名为 Gome 的 MLE 智能体,通过将诊断推理映射为梯度计算等机制实现基于梯度的优化,实验表明在推理能力较强的模型上,该方法在 MLE-Bench 基准测试中显著超越了传统的树搜索范式。

Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Gome 的新人工智能系统,它专门用来自动完成机器学习工程(MLE)任务(比如参加 Kaggle 数据科学比赛)。

为了让你更容易理解,我们可以把传统的 AI 代理Gome比作两种不同的“解题策略”。

1. 旧方法:像“撒网捕鱼”的盲目搜索

以前的 AI 代理(比如 AIDE、ML-Master)主要靠树状搜索(Tree Search)。

  • 比喻:想象你在一个巨大的迷宫里找出口。以前的方法是:走到一个路口,先往左走一步看看,不行就退回来;再往右走一步看看,不行再退回来。它像是一个盲目撒网的渔夫,或者一个试错的小学生
  • 怎么做:它会生成很多个不同的代码方案(比如“试试这个参数”、“试试那个模型”),然后运行它们,看哪个分数高。分数高的留下,分数低的扔掉。
  • 缺点:随着任务变难,这种“试错法”效率太低了。就像在迷宫里乱撞,虽然最终可能找到出口,但太慢了,而且它不知道为什么刚才那条路走不通,只知道“此路不通”。

2. 新方法:Gome,像“有导航的登山者”

这篇论文提出的 Gome 系统,不再盲目试错,而是把推理(Reasoning)变成了梯度(Gradient)。

  • 比喻:想象你在爬一座山,目标是登顶(找到最好的模型)。
    • 旧方法是:在山顶附近随机乱跳,看哪一步跳得高就留在那。
    • Gome 方法是:它手里拿着一个指南针(梯度信号)。这个指南针不是靠运气,而是靠分析
  • 核心逻辑
    1. 看地图(结构化推理):当代码运行出错或分数不高时,Gome 不会只看“分数是多少”,而是会像医生一样诊断:“为什么分数低?是因为数据没洗干净?还是模型太复杂过拟合了?”
    2. 定方向(梯度计算):基于诊断,它直接告诉下一步具体该怎么改(比如:“把学习率降低 10%",“去掉这个特征”)。这就像指南针直接指向山顶,而不是让你乱跳。
    3. 记笔记(成功记忆/动量):如果某次修改成功了,Gome 会把这次的经验记在“共享笔记”里。其他正在爬山的人(并行线程)看到笔记,就知道“哦,这条路是对的,我也往这边走”,避免重复踩坑。

3. 为什么现在 Gome 更厉害?(关键发现)

论文做了一个非常有趣的实验,对比了弱智模型聪明模型的表现:

  • 当 AI 不够聪明时(弱模型):

    • 比喻:如果指南针是坏的(推理能力差),指的方向可能是错的。这时候,盲目撒网(旧方法)反而更安全,因为试得多了总有一个能蒙对。
    • 结果:弱模型用旧方法(树搜索)效果更好。
  • 当 AI 非常聪明时(强模型,如 GPT-5):

    • 比喻:如果指南针非常精准(推理能力强),有导航的登山(Gome)就无敌了。它能迅速找到最佳路径,而盲目撒网还在原地打转。
    • 结果:随着 AI 变聪明,Gome 的优势越来越大,最终完胜旧方法。

4. 实际战绩

在著名的 MLE-Bench(一个包含 75 个机器学习比赛的测试集)上:

  • Gome 在12 小时内,只用一张普通的显卡(V100),就拿到了 35.1% 的获奖率(任何奖牌)。
  • 这打破了之前的记录,而且是在不查阅外部资料(闭卷考试)的情况下做到的。这证明了它靠的是真正的推理能力,而不是靠“搜答案”。

总结

这篇论文的核心思想是:随着 AI 变得越来越会“思考”,我们不应该再让它像猴子一样乱试错,而应该让它像专家一样“诊断问题并精准修复”

  • 以前:AI 是试错者(试了 100 次,靠运气蒙对 1 次)。
  • 现在:AI 是工程师(分析原因,精准修改,步步为营)。

Gome 就是这种新范式的代表,它把“推理”变成了优化的“燃料”,让 AI 在解决复杂工程问题时,效率呈指数级提升。