Each language version is independently generated for its own context, not a direct translation.

🍳 物語：味付けの極意を探る

Imagine you are trying to make the world's best soup (the AI model).
You have 14 different ingredients (hyperparameters) like salt, pepper, cooking time, and heat level.
Your goal is to find the perfect combination of these ingredients.

1. 2 つの料理人の対決

この実験では、2 種類の「料理人（最適化アルゴリズム）」に、同じ予算（24 時間）で一番美味しいスープを作ってもらいました。

料理人 A（古典的なアルゴリズム）：
- 特徴： 数学の天才。経験則や統計を駆使して、効率的に「塩分濃度」と「温度」の関係を計算します。
- 例： CMA-ES, TPE（TPE は「木のような構造で探る賢い人」）
- 得意技： 狭い範囲（固定されたレシピ本）の中で、無駄なく一番美味しい味を見つけ出すこと。
料理人 B（LLM：AI 言語モデル）：
- 特徴： 天才的な「料理の知識」を持つ人。過去のレシピや料理の理論をすべて知っています。
- 得意技： 自由な発想で、レシピ本に載っていない「新しい調理法」や「ソースの書き換え」ができること。
- 弱点： 計算が得意なわけではなく、試行錯誤の「状態」を長期的に記憶するのが苦手。

2. 実験の結果：意外な展開

【シナリオ 1：レシピ本（固定された設定範囲）の中で探る場合】

結果： 料理人 A（古典的アルゴリズム）の圧勝！
理由： 料理人 B（LLM）は、知識は豊富ですが、「どの塩加減が失敗したか」を正確に記憶し、次に活かすのが苦手でした。結果、失敗（メモリ不足など）を繰り返してしまい、美味しいスープにたどり着くのが遅れました。
教訓： 狭い範囲で効率よく探すなら、数学的なアルゴリズムの方が圧倒的に速くて正確です。

【シナリオ 2：レシピ本を破って、鍋自体を改造する場合（コード編集）】

結果： 料理人 B（LLM）が健闘！
理由： 料理人 B は、単に「塩」を調整するだけでなく、「鍋の形を変える」や「火のつけ方を変える」といった根本的な改造（コードの直接編集）ができます。
条件： ただし、これには**「頭の良い AI（270 億パラメータ）」**が必要です。小さな AI（8 億パラメータ）だと、複雑な改造はできず、失敗ばかりしてしまいました。

3. 究極の解決策：「ケンタウロス（Centaur）」の登場

研究者たちは、「料理人 A（計算の天才）」と「料理人 B（知識の天才）」を合体させたハイブリッド型を開発しました。これを**「ケンタウロス」**と呼びます（ギリシャ神話の半人半馬）。

仕組み：
- 基本的には「料理人 A（CMA-ES）」が計算して候補を出します。
- しかし、30% の確率で「料理人 B（LLM）」に相談します。
- 料理人 B は、料理人 A の「現在の計算状態（平均値、広がり方など）」をすべて見せてもらい、「ここをこう直したらもっと美味しくなるよ！」とアドバイスします。
結果： ケンタウロスが優勝！
- 驚くべきことに、**「小さな AI（8 億パラメータ）」を使ったケンタウロスの方が、「大きな AI（270 億パラメータ）」**を使ったケンタウロスよりも良い結果を出しました。
- 理由： 計算の「土台」は数学アルゴリズムがしっかり支えているため、LLM には「天才的なひらめき」だけで十分だからです。大きな AI を使う必要がなかったのです。

📝 まとめ：何がわかったの？

狭い範囲なら、昔ながらの数学アルゴリズムが最強。
AI（LLM）を無理やり狭い範囲で使っても、計算アルゴリズムには勝てません。
自由な発想なら、AI が強み。
設定値を変えるだけでなく、プログラム自体を書き換えるなら、AI の方が古典的な方法に迫れます（ただし、高性能な AI が必要）。
最強の組み合わせは「ハイブリッド」。
「計算の天才（アルゴリズム）」と「知識の天才（AI）」を組み合わせ、AI に計算結果を教えた上でアドバイスさせるのが、最も効率的で良い結果を出しました。
AI は小さくても OK。
ハイブリッドなら、高価で巨大な AI ではなく、安くて小さな AI でも十分活躍できます。

一言で言うと：
「AI だけで全部やろうとするのはまだ早いけど、『数学の計算力』と『AI の知恵』をチームワークで使えば、最強の料理（AI 最適化）が作れる！」というのがこの論文の結論です。

Each language version is independently generated for its own context, not a direct translation.

論文「Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch」の技術的サマリー

この論文は、大規模言語モデル（LLM）をハイパーパラメータ最適化（HPO）に適用する手法と、従来の古典的な HPO アルゴリズムを比較検証した研究です。特に、コードを直接編集する「自律的エージェント」と、固定された探索空間内で動作する古典的アルゴリズムの性能差、および両者を融合したハイブリッド手法「Centaur」の提案に焦点を当てています。

以下に、問題設定、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題設定 (Problem)

自動機械学習（AutoML）の核心であるハイパーパラメータ最適化（HPO）において、LLM を活用したアプローチが従来の古典的アルゴリズム（CMA-ES や TPE など）に取って代わる可能性があるかどうかが問われています。

背景: 以前の研究（Karpathy, 2025a）では、LLM エージェントがトレーニングコードを直接編集することで小規模言語モデルの性能向上が示されました。しかし、Ziv (2025) は、専門家が設計したハイパーパラメータを持つ古典的 TPE が同様の予算内でエージェントを上回る可能性を示唆しました。
課題:
1. 固定されたハイパーパラメータ探索空間において、他の古典的 HPO 手法はどのように機能するか？
2. LLM ベースの HPO 手法は、古典的手法を上回ることができるか？
3. LLM の強み（ドメイン知識）と弱み（最適化状態の追跡能力の欠如）をどう克服するか？

2. 手法と実験設定 (Methodology)

研究では、Karpathy の「autoresearch」タスク（FineWeb で学習された約 50M パラメータのデコーダ専用トランスフォーマーの検証ビット/バイト数 val_bpb を最適化）をベンチマークとして使用しました。

実験環境:
- 予算: 各手法とも 24 時間の GPU 学習時間（NVIDIA H200）、3 つのシード。
- モデル: 全ての LLM ベース手法には、自己ホスト型のオープンウェイトモデル「Qwen3.5-27B」を使用（一部で 0.8B モデルも比較）。
- 探索空間の自動抽出: 人間のバイアスを減らすため、トレーニングスクリプト（train.py）から抽象構文木（AST）解析を用いて 14 個のハイパーパラメータを自動抽出しました。
比較対象（9 手法）:
- 古典的 HPO (4 手法): TPE, CMA-ES, SMAC, Random Search（すべて固定探索空間）。
- LLM ベース (4 手法):
  - 固定空間：LLAMBO（2 種類の実装）、Karpathy Agent（14 HP 版）。
  - 非拘束空間（コード編集）：Karpathy Agent（Code 版）。
- ハイブリッド (1 手法): Centaur（CMA-ES と LLM の融合）。
Centaur の仕組み:
- CMA-ES の内部状態（平均ベクトル $\mu$ 、ステップサイズ $\sigma$ 、共分散行列 $C$ ）を LLM に共有します。
- 試行の 30% のみで LLM が介入し、CMA-ES の提案を受け取り、それらを基に新しい構成案を生成します（実際には 27B モデルで 100%、0.8B モデルで 95% の確率で提案を上書き）。
- CMA-ES は LLM が提案した結果も含め、全ての試行結果から内部状態を更新し続けます。

3. 主要な貢献 (Key Contributions)

包括的なベンチマーク: 固定空間と非拘束コード編集の両方において、古典的・LLM 系・ハイブリッドの 9 手法を同一条件で比較しました。
性能比較の明確化: 固定探索空間内では古典的手法が LLM エージェントを上回る一方、コードを直接編集する LLM エージェントは古典的手法に匹敵する性能を示すことを実証しました。
Centaur の提案と検証: CMA-ES の内部状態を LLM と共有するハイブリッド手法「Centaur」を提案し、これが実験内で最高性能を達成したことを示しました。
スケーリングと信頼性の分析: 検索の多様性よりも「OOM（メモリ不足）回避」が重要であること、および小規模モデル（0.8B）でもハイブリッド最適化は機能することを明らかにしました。

4. 結果 (Results)

A. 固定探索空間における古典的手法の優位性

性能: 固定空間内では、CMA-ES や TPE などの古典的手法が、LLM ベースの手法（LLAMBO や Karpathy Agent 14 HP 版）を一貫して上回りました。
- 最高性能：Centaur (0.9763), TPE (0.9768), CMA-ES (0.9785)。
- 純粋な LLM 手法は、ランダムサーチより劣るケースもあり、固定空間への制限は LLM の強みを活かせていませんでした。
OOM 回避の重要性: 上位手法は OOM 発生率が 16% 以下でしたが、下位 LLM 手法は 36% 以上でした。LLM は履歴を完全に観察していても、メモリ不足を引き起こす領域を学習できず、ランダムサーチと同程度の失敗率を示しました。

B. 非拘束コード編集の可能性

Karpathy Agent (Code): トレーニングソースコードを直接編集する手法は、古典的手法と競争可能な性能（0.9814）を達成しました。
モデル規模の影響: 0.8B モデルはコード編集には不十分でしたが、27B モデルでは性能が向上しました。一方、固定空間での最適化では、モデル規模の拡大（0.8B → 27B）は性能向上に寄与しませんでした。

C. ハイブリッド手法「Centaur」の成功

最高性能: Centaur は CMA-ES 単体や他の全ての手法を上回る結果（0.9763）を達成しました。
安定性: CMA-ES 単体のシード間バラつき（標準偏差 0.0036）を、Centaur は大幅に低減（0.0005）しました。LLM がドメイン知識を提供することで、不利なシードからの逸脱を防いでいます。
モデル規模のパラドックス: 驚くべきことに、Centaur の 0.8B 版が 27B 版よりも良い結果（0.9766 vs 0.9763）を出しました。
- 理由: 古典的オプティマイザが探索軌道の大半を担い、LLM は有望な候補の微調整（インフォームドな摂動）のみを行うため、大規模な推論能力は不要であることが示唆されました。
介入頻度: 試行の 30% 程度で LLM を介入させるのが最適であり、頻度が高すぎると（例：80%）性能が低下しました。

5. 意義と結論 (Significance)

LLM の役割の再定義: 固定されたハイパーパラメータ空間での最適化において、LLM 単体は古典的手法に勝てません。しかし、コードを直接編集する「非拘束」なタスクでは、LLM エージェントは古典的手法に迫る性能を発揮します。
ハイブリッドアプローチの優位性: 古典的オプティマイザ（CMA-ES）の「状態追跡能力」と、LLM の「ドメイン知識」を組み合わせる Centaur が、最も効率的かつ安定した結果をもたらしました。
コスト効率: 高価な大規模モデル（27B）ではなく、安価な小規模モデル（0.8B）でも、適切なハイブリッド設計であれば高性能な最適化が可能であることが示されました。
今後の展望: 現在の実験はオープンウェイトモデル（Qwen3.5）に限定されていますが、より強力な最先端モデル（Frontier Models）が登場すれば、非拘束コード編集における LLM の優位性がさらに高まる可能性があります。また、探索空間自体をコード編集を通じて共進化させるようなアプローチも将来の課題です。

結論として: 古典的 HPO は依然として堅実ですが、LLM を「状態共有型」のハイブリッドシステムの一部として統合することで、その限界を克服し、さらなる性能向上が達成可能であることが実証されました。

Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch