Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

该研究通过对比发现,虽然纯 LLM 代理在超参数优化上不如经典算法,但将 CMA-ES 的内部状态与 LLM 结合的混合方法"Centaur"表现最佳,且小参数模型(0.8B)在混合架构中已足够有效,无需更大模型。

Fabio Ferreira, Lucca Wobbe, Arjun Krishnakumar, Frank Hutter, Arber Zela

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:在调整人工智能(AI)模型的“参数”时,是依靠传统的数学算法更厉害,还是让大语言模型(LLM)像人类专家一样去“思考”和“修改代码”更厉害?

为了让你轻松理解,我们可以把训练一个 AI 模型想象成驾驶一辆赛车去参加拉力赛

1. 核心任务:调校赛车(超参数优化)

在赛车比赛前,你需要调整很多设置:轮胎气压、引擎喷油量、悬挂硬度等。这些设置就是“超参数”。

  • 目标:找到一组完美的设置,让车跑得最快(损失函数最小)。
  • 挑战:设置太多,试错成本太高(每次试错都要花很多时间和金钱)。

2. 两派选手的对决

🏆 选手 A:传统算法派(CMA-ES, TPE 等)

  • 形象:这是一群拥有超级计算能力的“数学导航员”
  • 工作方式:他们不看代码,也不懂赛车原理。他们只相信数学。他们会像雷达一样,在地图上系统地扫描,计算哪条路可能最快。
  • 特点
    • 优点:非常稳定,不会迷路,也不会因为乱改东西导致车爆缸(内存溢出)。
    • 缺点:缺乏“直觉”。如果赛道有特殊的弯道(领域知识),他们可能反应不过来,只能死板地按数学规律走。

🤖 选手 B:大模型代理派(LLM Agents)

  • 形象:这是一位聪明的“赛车手/机械师”,但他只有一本说明书(训练代码)。
  • 工作方式
    • 固定模式:他只能在一个给定的范围内调整旋钮(比如只能在 1-10 之间调)。
    • 自由模式(Autoresearch):他可以直接修改赛车的引擎代码,甚至重新设计零件。
  • 特点
    • 优点:有“直觉”,懂赛车原理,能提出一些数学算法想不到的大胆方案。
    • 缺点:容易“翻车”。因为不够严谨,经常改着改着把车改坏了(导致内存溢出 OOM),或者在错误的方向上浪费太多时间。

3. 实验结果:谁赢了?

研究者让这两派选手在同样的条件下(24 小时、同样的显卡)去调校一辆小赛车。

  • 在“固定范围”内调校

    • 结果数学导航员(传统算法)完胜
    • 原因:在规则明确的范围内,数学算法跑得快、稳。大模型虽然聪明,但在这个狭小的空间里,它容易“想太多”或者“手滑”,导致很多尝试都失败了(车坏了)。
    • 比喻:就像让一个天才数学家和一个天才画家去解一道标准的数学题,数学家肯定更快更准;画家虽然聪明,但可能会试图用画画的方式解题,反而慢了。
  • 在“自由修改代码”模式下

    • 结果大模型(赛车手)表现惊人,缩小了差距
    • 原因:当允许直接修改代码时,大模型能利用它的“常识”去优化结构,这时候它的优势就发挥出来了。虽然它还是不如顶级算法稳,但已经非常有竞争力了。

4. 终极方案:半人马(Centaur)—— 1 + 1 > 2

既然数学派稳,但缺乏直觉;大模型派有直觉,但容易翻车。作者想:为什么不把它们结合起来呢?

于是他们发明了 "Centaur"(半人马)

  • 形象:一个拥有数学大脑的半人马

  • 工作方式

    • 大部分时间(70%),由数学导航员(CMA-ES) 负责开车,保证不翻车,稳步前进。
    • 小部分时间(30%),大模型(机械师) 会跳上来,看着导航员的数据,说:“嘿,我觉得这里可以大胆改一下!”然后它利用自己的直觉提出一个修改方案。
    • 关键点:大模型不是瞎改,它能看到导航员的“内部地图”(均值、步长、协方差矩阵),所以它的建议是基于数据的。
  • 惊人的发现

    • 小模型也能赢:他们发现,用0.8B(很小)的大模型配合数学导航员,效果竟然比用27B(很大)的大模型还要好!
    • 原因:在“半人马”模式下,大模型不需要从头造车,只需要在数学导航员找到的好方向上“锦上添花”。这时候,不需要一个超级天才,只需要一个聪明的助手就够了。
    • 比喻:就像给一个经验丰富的老教练(数学算法)配了一个实习生(小模型)。实习生不需要自己开车,只需要在老教练开得好时,偶尔提醒一句“前面有个坑,稍微偏一点”,效果就最好。

5. 总结与启示

  1. 不要高估小模型:如果你让一个小模型自己去瞎折腾(自由修改代码),它很容易搞砸。
  2. 不要低估传统算法:在规则明确的领域,传统的数学优化算法依然非常强大、稳定且高效。
  3. 混合模式是王道:最好的办法是**“数学算法打底 + 大模型点睛”**。让算法负责稳健的搜索,让大模型负责提供灵感和修正。
  4. 小模型也能干大事:只要给小模型一个强大的“拐杖”(传统算法),它就能发挥出巨大的价值,不需要非得用那种昂贵巨大的模型。

一句话总结
这篇论文告诉我们,大模型不是要取代传统的数学算法,而是应该成为它们的“超级副驾驶”。当两者携手合作时,哪怕是用一个小模型,也能跑出比单独使用大模型甚至单独使用传统算法更好的成绩。