An Open-Source Training Dataset for Foundation Models for Black-box… — やさしい解説

原著者： Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

公開日 2026-05-25✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

以下は、平易な言葉と日常的な比喩を用いた、この論文の説明です。

大きな問題：「ブラックボックス」の謎

完璧なケーキを焼こうとしているが、中が全く見えない魔法のオーブンを持っていると想像してください。中は見えず、レシピもわからず、温度も測れません。学べるのは、ケーキを焼いて、焼き上がりまで待ち、取り出して味見をするだけです。

ケーキ：これは「目的関数」（解決したい問題）です。
材料：これらは「ハイパーパラメータ」（学習率や層の数などの設定）です。
味：これは「スコア」（結果の良し悪し）です。

これをブラックボックス最適化と呼びます。これは、AI モデルの調整、新薬の開発、ロボットの構成設定など、至る所で起こっています。問題は、完璧な「ケーキ」を見つけるには、通常、人間の専門家が何千回も推測し、微調整し、味見をしなければならないことです。これは遅く、高価であり、専門家のコツは、ケーキを焼くことからパンを焼くことに切り替えると、しばしば機能しなくなります。

従来の方法 vs 新しいアイデア

従来の方法：科学者たちは長年にわたり、多くの異なる「味見の専門家」（アルゴリズム）を構築してきました。ある専門家はケーキのレシピを見つけるのが得意ですが、パンのレシピを見つけるのは苦手です。これらは特化された道具です。

新しいアイデア（基盤モデル）：もし、焼くことの「一般的な原理」を学ぶ単一の超スマートな AI を訓練できたらどうでしょうか。ケーキの専門家でもパンの専門家でもなく、何千もの過去の焼成試行を見るだけで、あらゆるレシピを最適化する方法を理解する「マスターシェフ」になるのです。

欠けている材料：巨大な料理本

この「マスターシェフ」を訓練するには、過去の焼成試行（データ）の膨大なライブラリが必要です。

問題：これまでにこの分野で行われた試みは、誰も見ることができない秘密のデータや、現実を反映していない人工的なデータに依存していました。誰も話さない言語で書かれた料理本を使って料理人を教えようとするような、あるいは偽の材料を使うようなものです。
解決策（BBO-Pile）：著者たちは、このタスクのための最初のオープンソースの「料理本」であるBBO-Pileを作成しました。
- 557,100 件の異なる焼成試行（軌道）が含まれています。
- これらの試行は、AI モデルの調整から化学設計まで、3,095 種類の問題を網羅しています。
- 6 種類の異なる「味見の専門家」（アルゴリズム）からのデータが含まれており、AI が異なる戦略を学べるようになっています。
- 規模は巨大で、約 25 億語（トークン）のデータ量です。

「マスターシェフ」の訓練方法

著者たちは AI に料理本を与えるだけでなく、それを読み解くための AI モデルのファミリー（さまざまなサイズのシェフのようなもの）を訓練しました。

モデル：200 万パラメータの小型モデルから、8,000 万パラメータの大型モデルまで構築しました。
訓練：モデルにデータを与え、焼成プロセスの次のステップを予測させました。
- 入力：「これまでのレシピと、最後のケーキの味はこれです」
- 出力：「次に試すべき材料の配合はこれです」
結果：AI は元の人間の専門家の振る舞いを模倣することを学びました。「専門家 A」として振る舞うよう指示すれば、A のように振る舞い、「専門家 B」として振る舞うよう指示すれば、戦略を切り替えます。

発見されたこと

大きいほど良い（ただし限界あり）：AI モデルを大きくし、より多くのデータを与えると、モデルは専門家の模倣が上手くなりました。しかし、チャットボット（LLM）で見られるような爆発的な改善ではなく、安定した予測可能な上昇でした。
汎化：AI は単に料理本の中のレシピを暗記したわけではありません。一度も見たことのない新しい種類の問題（全く新しい種類のパンなど）でテストした際にも、驚くほどよく機能しました。特定の答えだけでなく、最適化の「論理」を学んでいたのです。
速度：一度訓練すれば、AI は次のステップをほぼ瞬時に提案でき、ゼロから複雑な数学的シミュレーションを実行するよりもはるかに高速です。

結論

この論文は、「最適化の物語」の最初の公共図書館を構築するようなものです。この巨大なデータセット（BBO-Pile）を共有することで、著者たちは他の研究者が自分たちの「マスターシェフ」AI を訓練することを可能にしました。

彼らは、過去に他の手法が類似の問題をどのように解決したかを示すだけで、複雑で未知の問題を解決する方法を理解する汎用 AI を訓練できることを証明しました。これは、一つの謎を解くだけでなく、あらゆる謎の解き方を知る AI への一歩です。

重要な注記：この論文は、このデータセットの作成と、既存の最適化手法を模倣するためのモデルの訓練に完全に焦点を当てています。特定の現実世界の問題（疾患の治癒や特定のロケットの設計など）を解決したと主張するものではなく、将来の臨床応用についても議論していません。目標は、単にこの「基盤モデル」アプローチが機能することを証明し、他の人々が試せるようにデータを提供することでした。

技術的サマリー：ブラックボックス最適化のための BBO-Pile とファウンデーションモデル

問題定義
ブラックボックス最適化（BBO）は、ロボティクス、化学設計、機械学習のハイパーパラメータ調整など、科学および工学の分野における根本的な課題である。核心的な難しさは、構造情報や勾配にアクセスできない状態で目的関数 $f(x)$ を最適化し、クエリ出力のみに依存することにある。既存の BBO 手法、例えばベイズ最適化（BO）や進化アルゴリズムは、しばしば特化しており、狭い問題クラス内でのみ良好に機能する。これらは通常、広範な手動チューニングを必要とし、多様なドメイン間で汎化できない。一方、ファウンデーションモデルはビジョンや自然言語処理において成功を収めているが、大規模で公開された実世界の事前学習データの欠如により、BBO への応用は妨げられてきた。OptFormer などの先行試みは、非公開データセットや純粋に合成されたデータに依存しており、再現性と一般化可能な最適化原理の学習能力を制限していた。

手法
著者らは、ブラックボックス最適化のためのファウンデーションモデルを訓練するために設計された、初のオープンソースデータセットであるBBO-Pileを導入する。手法には、データセットの構築、トークナイズ、モデル訓練が含まれる：

データセット構築（BBO-Pile）： 本データセットは、102 の探索空間にまたがる3,095 の異なるブラックボックスタスクにおける557,100 の最適化軌道を集約する。これらのタスクは、ハイパーパラメータ最適化（HPO-B、LC-Bench、PD1、TabRepo）、ニューラルアーキテクチャ探索（FC-Net、NAS-Bench-201）、および合成グローバル最適化問題を含む 7 つのベンチマークファミリーから抽出された。データは、タスクあたり 100 回の評価を予算として、異なるシードで 30 回繰り返して実行された 6 つの異なる最適化器（BORE、CQR、HEBO、TPE、Regularized Evolution、Random Search を含む）によって生成された。
データ拡張： トークン数を拡大し、過学習を緩和するため、著者らはハイパーパラメータ順序の置換（数値をカテゴリカルより先に置くという慣習を維持）を採用し、量子化前に長さの異なる軌道（ $T \in \{5, 10, 20, 50, 100\}$ ）をサンプリングする。これにより、最終的なデータセットは約25 億トークンとなる。
エンコーディングとトークナイズ： 最適化軌道はトークンの系列としてエンコードされる。メタデータ（最適化器名、探索空間）が最初にエンコードされる。数値設定と目的関数値は、 $[0, 1]$ に min-max スケールされ、 $Q=1000$ のビンに離散化され、文字列に変換される。カテゴリカルパラメータはインデックスでエンコードされる。特殊文字は設定と観測メトリックの終わりを示す。これらの文字列に対して Byte-Pair Encoding（BPE）トークナイザが訓練される。
モデルアーキテクチャと訓練： 著者らは、Qwen3 アーキテクチャに基づいたデコーダのみのトランスフォーマーモデルを訓練する。これには、ロータリー位置エンベディング、グループ化クエリアテンション、およびルート平均二乗正規化が利用される。モデルは、標準的な因果言語モデル化目的関数（ $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ）を用いて訓練される。
推論： 推論中、モデルはエンコードされた探索空間と過去の観測に基づいて完了文字列をサンプリングする。制約付きデコーディングにより、生成されるすべての値が有効でデコード可能であることが保証される。

主な貢献

BBO-Pile データセット： 3,095 のタスクと 6 つの最適化器からなる 50 万を超える軌道、合計約 25 億トークンを含む、ブラックボックス最適化のための最大の公開データセットのリリース。
ファウンデーションモデルの訓練： 200 万から 8000 万パラメータ、および2 億から 20 億訓練トークンの範囲にわたるファウンデーションモデルファミリーの訓練。
スケーリング分析： パラメータ数とトークン予算の拡大に伴い、デコーダベースのトランスフォーマーが最先端の BBO 手法をどのように模倣するかに関する体系的な分析。
オープンソースリリース： GitHub および HuggingFace における、データセット、モデルチェックポイント、および訓練・生成・評価用コードの完全な公開。

結果

スケーリング挙動： モデルは、大規模言語モデル（LLM）と同様の予測可能なスケーリング挙動を示す。検証損失は計算量に対してべき乗則に従う（ $L \propto C^{-0.0157}$ ）が、その指数は典型的な LLM の事前学習よりも浅く、計算量の増加による改善は modest であることを示唆している。
最適化器の模倣： 訓練されたモデルは、元の最適化器（例えば CQR と Random Search）の最適化軌道を成功裏に模倣する。
- パラメータのスケーリング： 8000 万パラメータなどのより大きなモデルは、200 万パラメータなどのより小さなモデルと比較して、特に初期イテレーションにおいて、元の最適化器のパフォーマンスとサンプリング分布にさらに密接に一致する。
- トークンのスケーリング： 10 億トークンを超えるトークン予算で訓練されたモデルは元の性能に密接に一致するが、8 億トークン未満の予算では複雑なサンプリング分布を完全に捉えるには不十分である。
汎化： モデルは汎化能力を示す：
- 既知の探索空間内の未見のタスクにおいて良好に機能する。
- 未見の探索空間からのタスク（例：TabRepo CatBoost タスク）において競争力のある性能を示すが、損失ランドスケープが非常に変化するグローバル最適化問題では性能のギャップが広がる。
- モデルは異なる最適化戦略（例：CQR と Random Search）を区別し、周辺ハイパーパラメータ密度を含むそれらの特定の挙動を再現できる。

意義と主張
本論文は、BBO-Pile による大規模な事前学習が、ブラックボックス最適化手法を模倣するための実行可能かつ効果的なアプローチであると主張する。この研究は、ファウンデーションモデルがデータから最適化原理を学習し、手動設計された手法に内在する特化性と汎化不足を潜在的に克服できることを確立する。初の大規模オープンソースデータセットを提供し、スケーリング則を実証することにより、著者らはより強力で汎用性の高い最適化エージェントに関する将来の研究への道を開く。著者らは控えめに、モデルは有望な兆候を示しているが、現在既存の戦略を模倣するに留まり新しいものを発明しているわけではないと指摘し、異なる特性を持つドメイン（例：化学設計）への汎化の限界に対処し、推論ベースまたはテスト時スケーリングアプローチを探求するための今後の研究が必要であると述べている。

An Open-Source Training Dataset for Foundation Models for Black-box Optimization