Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：在调整人工智能（AI）模型的“参数”时，是依靠传统的数学算法更厉害，还是让大语言模型（LLM）像人类专家一样去“思考”和“修改代码”更厉害？

为了让你轻松理解，我们可以把训练一个 AI 模型想象成驾驶一辆赛车去参加拉力赛。

1. 核心任务：调校赛车（超参数优化）

在赛车比赛前，你需要调整很多设置：轮胎气压、引擎喷油量、悬挂硬度等。这些设置就是“超参数”。

目标：找到一组完美的设置，让车跑得最快（损失函数最小）。
挑战：设置太多，试错成本太高（每次试错都要花很多时间和金钱）。

2. 两派选手的对决

🏆 选手 A：传统算法派（CMA-ES, TPE 等）

形象：这是一群拥有超级计算能力的“数学导航员”。
工作方式：他们不看代码，也不懂赛车原理。他们只相信数学。他们会像雷达一样，在地图上系统地扫描，计算哪条路可能最快。
特点：
- 优点：非常稳定，不会迷路，也不会因为乱改东西导致车爆缸（内存溢出）。
- 缺点：缺乏“直觉”。如果赛道有特殊的弯道（领域知识），他们可能反应不过来，只能死板地按数学规律走。

🤖 选手 B：大模型代理派（LLM Agents）

形象：这是一位聪明的“赛车手/机械师”，但他只有一本说明书（训练代码）。
工作方式：
- 固定模式：他只能在一个给定的范围内调整旋钮（比如只能在 1-10 之间调）。
- 自由模式（Autoresearch）：他可以直接修改赛车的引擎代码，甚至重新设计零件。
特点：
- 优点：有“直觉”，懂赛车原理，能提出一些数学算法想不到的大胆方案。
- 缺点：容易“翻车”。因为不够严谨，经常改着改着把车改坏了（导致内存溢出 OOM），或者在错误的方向上浪费太多时间。

3. 实验结果：谁赢了？

研究者让这两派选手在同样的条件下（24 小时、同样的显卡）去调校一辆小赛车。

在“固定范围”内调校：
- 结果：数学导航员（传统算法）完胜。
- 原因：在规则明确的范围内，数学算法跑得快、稳。大模型虽然聪明，但在这个狭小的空间里，它容易“想太多”或者“手滑”，导致很多尝试都失败了（车坏了）。
- 比喻：就像让一个天才数学家和一个天才画家去解一道标准的数学题，数学家肯定更快更准；画家虽然聪明，但可能会试图用画画的方式解题，反而慢了。
在“自由修改代码”模式下：
- 结果：大模型（赛车手）表现惊人，缩小了差距。
- 原因：当允许直接修改代码时，大模型能利用它的“常识”去优化结构，这时候它的优势就发挥出来了。虽然它还是不如顶级算法稳，但已经非常有竞争力了。

4. 终极方案：半人马（Centaur）—— 1 + 1 > 2

既然数学派稳，但缺乏直觉；大模型派有直觉，但容易翻车。作者想：为什么不把它们结合起来呢？

于是他们发明了 "Centaur"（半人马）：

形象：一个拥有数学大脑的半人马。
工作方式：
- 大部分时间（70%），由数学导航员（CMA-ES） 负责开车，保证不翻车，稳步前进。
- 小部分时间（30%），大模型（机械师） 会跳上来，看着导航员的数据，说：“嘿，我觉得这里可以大胆改一下！”然后它利用自己的直觉提出一个修改方案。
- 关键点：大模型不是瞎改，它能看到导航员的“内部地图”（均值、步长、协方差矩阵），所以它的建议是基于数据的。
惊人的发现：
- 小模型也能赢：他们发现，用0.8B（很小）的大模型配合数学导航员，效果竟然比用27B（很大）的大模型还要好！
- 原因：在“半人马”模式下，大模型不需要从头造车，只需要在数学导航员找到的好方向上“锦上添花”。这时候，不需要一个超级天才，只需要一个聪明的助手就够了。
- 比喻：就像给一个经验丰富的老教练（数学算法）配了一个实习生（小模型）。实习生不需要自己开车，只需要在老教练开得好时，偶尔提醒一句“前面有个坑，稍微偏一点”，效果就最好。

5. 总结与启示

不要高估小模型：如果你让一个小模型自己去瞎折腾（自由修改代码），它很容易搞砸。
不要低估传统算法：在规则明确的领域，传统的数学优化算法依然非常强大、稳定且高效。
混合模式是王道：最好的办法是**“数学算法打底 + 大模型点睛”**。让算法负责稳健的搜索，让大模型负责提供灵感和修正。
小模型也能干大事：只要给小模型一个强大的“拐杖”（传统算法），它就能发挥出巨大的价值，不需要非得用那种昂贵巨大的模型。

一句话总结：
这篇论文告诉我们，大模型不是要取代传统的数学算法，而是应该成为它们的“超级副驾驶”。当两者携手合作时，哪怕是用一个小模型，也能跑出比单独使用大模型甚至单独使用传统算法更好的成绩。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch》（LLM 能否击败经典超参数优化算法？基于 autoresearch 的研究）的详细技术总结。

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）代理（Agent）能力的提升，研究者开始探索利用 LLM 直接编辑训练代码来优化超参数（Hyperparameter Optimization, HPO）。然而，LLM 在 HPO 任务中是否真的能超越传统的经典优化算法（如 CMA-ES、TPE 等）尚不明确。

核心问题：
1. 在固定的超参数搜索空间内，其他经典 HPO 方法的表现如何？
2. 基于 LLM 的 HPO 方法能否在性能上超越经典方法？
3. LLM 在“固定搜索空间”与“无约束代码编辑”两种模式下的表现差异是什么？
研究动机：之前的工作（如 Karpathy 的 autoresearch）展示了 LLM 编辑代码的潜力，但后续研究（Ziv, 2025）指出在相同预算下，精心设计的经典方法（TPE）可能表现更好。本研究旨在通过严格的基准测试来厘清这一关系。

2. 方法论 (Methodology)

2.1 实验设置

基准任务：使用 nanochat（一个约 5000 万参数的小型 Transformer 模型）在 FineWeb 数据集上进行训练，优化指标为验证集每字节比特数（val_bpb）。
资源约束：所有方法在相同的 24 小时 GPU 训练预算下运行，使用 3 个随机种子。
硬件：单张 NVIDIA H200 GPU。训练 VRAM 限制为 80GB，剩余内存用于运行 vLLM 服务器（LLM 推理）。
搜索空间构建：通过抽象语法树（AST）解析自动从训练脚本中提取 14 个超参数（包括学习率、批次大小、层数等），消除了人工筛选搜索空间带来的偏见。

2.2 对比方法

研究 benchmark 了 9 种 HPO 方法，分为三类：

经典 HPO (4 种)：TPE, CMA-ES, SMAC, 随机搜索 (Random)。均在固定 14 个超参数的空间内运行。
基于 LLM 的方法 (4 种)：
- 固定空间：LLAMBO (Optuna 版 & 论文版), Karpathy Agent (14 HPs)。LLM 仅根据历史尝试建议配置。
- 无约束代码编辑：Karpathy Agent (Code)。LLM 直接修改 train.py 源代码。
- 注：所有 LLM 方法均使用自托管的开源模型 Qwen3.5 (27B 和 0.8B 版本)。
混合方法 (1 种)：Centaur（本文提出）。

2.3 核心创新：Centaur 混合优化器

Centaur 旨在结合 CMA-ES 的全局优化能力和 LLM 的领域知识。

机制：
- CMA-ES 维护内部状态（均值向量 $\mu$ 、步长 $\sigma$ 、协方差矩阵 $C$ ）。
- 在 30% 的试验轮次中，CMA-ES 将其完整内部状态、前 5 个最佳配置及最近 20 次试验历史传递给 LLM。
- LLM 基于这些信息提出新的配置（实际上 LLM 几乎总是覆盖 CMA-ES 的原始建议）。
- 关键点：无论 LLM 是否覆盖，CMA-ES 都会根据所有试验结果（包括 LLM 覆盖后的结果）更新其内部状态。这使得优化器能持续从完整轨迹中学习。
设计理由：CMA-ES 的状态（ $\mu, \sigma, C$ ）比 TPE 或高斯过程的后验分布更易于用自然语言解释和传递给 LLM。

3. 主要结果 (Key Results)

3.1 固定搜索空间：经典方法优于纯 LLM

性能对比：在固定的 14 个超参数空间内，经典方法（CMA-ES, TPE, SMAC）的表现一致优于纯 LLM 代理。
- 最佳结果：CMA-ES (0.9785), TPE (0.9768)。
- 纯 LLM 方法（如 LLAMBO）表现较差，甚至不如随机搜索。
OOM（内存溢出）是关键：
- 表现最好的方法（CMA-ES, TPE, Centaur）的 OOM 率均低于 16%。
- 表现较差的 LLM 方法（如 LLAMBO）OOM 率高达 48%-61%，与随机搜索相当。
- 结论：LLM 难以跨试验跟踪优化状态，无法有效识别导致内存溢出的区域。可靠性（避免 OOM）比搜索多样性更重要。

3.2 无约束代码编辑：LLM 缩小了差距

Karpathy Agent (Code)：直接编辑源代码的 LLM 代理是唯一能与经典方法竞争的纯 LLM 方法（Best val_bpb ≈ 0.9814）。
模型规模的影响：
- 从 0.8B 扩展到 27B 对于无约束代码编辑至关重要（0.8B 无法有效编辑代码，性能大幅下降）。
- 但对于固定超参数搜索，模型规模扩大（0.8B vs 27B）并未带来显著优势。

3.3 混合方法 (Centaur)：最佳表现

性能：Centaur 在所有实验中取得了最佳结果（Best val_bpb ≈ 0.9763，但在特定种子下表现更优且方差极小）。
稳定性：Centaur 显著降低了 CMA-ES 的跨种子方差（从 0.0036 降至 0.0005），说明 LLM 注入的领域知识稳定了优化过程，防止了不良种子的发散。
模型规模悖论：
- Centaur (0.8B) 的表现甚至优于 Centaur (27B)。
- 原因：在混合模式下，CMA-ES 负责主要的搜索轨迹，LLM 仅作为“偶尔的知情扰动”来微调候选项。这种任务不需要像从头生成代码那样高的模型能力，因此便宜的 0.8B 模型已足够。

4. 关键贡献 (Key Contributions)

全面基准测试：在相同的 24 小时预算和 3 个种子下，对 9 种 HPO 方法（4 种经典、4 种 LLM、1 种混合）进行了严格对比。
揭示 LLM 的局限性：证明了在固定搜索空间内，受限于状态跟踪能力，LLM 代理在避免 OOM 和收敛速度上不如经典算法；但在无约束代码编辑场景下，LLM 具有显著潜力。
提出 Centaur 混合架构：创新性地让 LLM 访问 CMA-ES 的完整内部状态（ $\mu, \sigma, C$ ），实现了“经典优化器状态 + LLM 领域直觉”的互补。
发现“廉价 LLM + 强经典优化器”的范式：证明了在混合优化中，小参数模型（0.8B）配合强优化器（CMA-ES）即可达到最佳效果，无需昂贵的 27B 模型。

5. 意义与启示 (Significance)

对 AutoML 的启示：单纯依赖 LLM 进行超参数搜索（在固定空间内）目前并非最优解，经典算法在效率和可靠性上仍占主导。
对 LLM Agent 的启示：LLM 的优势在于无约束的代码编辑和领域知识注入，而非纯粹的数值搜索。
未来方向：
- 混合方法（Centaur）展示了结合两者优势的巨大潜力。
- 随着更强、更大的前沿模型（Frontier Models）出现，无约束代码编辑的能力可能会进一步提升，甚至可能超越混合方法。
- 未来的研究应探索让搜索空间随优化轨迹共同演化（Co-evolution），而不仅仅是固定空间。

总结：该论文通过严谨的实验表明，虽然 LLM 在直接修改代码方面表现出色，但在传统的超参数优化任务中，经典算法（如 CMA-ES）依然更高效可靠。然而，通过将 LLM 作为“智能扰动器”嵌入到经典优化器的状态中（Centaur），可以结合两者的优势，实现目前的最优性能，且这种混合方案甚至可以使用较小的 LLM 模型来降低成本。