Composer: A Search Framework for Hybrid Neural Architecture Design

本論文では、大規模な設計空間とトレーニングコストの課題を克服するため、小規模なモデル探索とスケーリング戦略を組み合わせたモジュール型ハイブリッドモデルアーキテクチャ検索フレームワーク「Composer」を提案し、Llama 3.2 を凌駕する高性能かつ効率的な新しいハイブリッド LLM アーキテクチャを発見したことを報告しています。

Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Composer(作曲家)」**という新しい AI 設計の仕組みについて書かれています。

簡単に言うと、**「AI の頭脳(ニューラルネットワーク)を、人間が手作業で試行錯誤して作るのではなく、AI 自身が『小さな実験』から『巨大な AI』の設計図を自動で見つけ出す方法」**を提案したものです。

以下に、難しい専門用語を使わず、身近な例え話で解説します。


🎵 1. 従来の問題:「レシピ」の固定化

これまでの AI(Transformer)は、「Attention(注目)」「MLP(計算)」という 2 つの部品を、「1 つの注目、1 つの計算、1 つの注目、1 つの計算……」という決まった順番で積み重ねる「固定レシピ」で作られていました。
これは確かにうまく機能しますが、もっと効率的で高性能な「混ぜ方」があるのではないか?と研究者たちは思っていました。しかし、組み合わせのパターンは
40 億通り以上
もあり、一つ一つ巨大な AI を作ってテストするのは、時間もお金もかかりすぎて現実的ではありませんでした。

🎼 2. Composer の登場:「小さな楽譜」から「大編成」へ

そこで登場したのが**「Composer(作曲家)」です。
これは、巨大なオーケストラ(大規模 AI)をいきなり作ろうとするのではなく、
「小さな室内楽(小さな AI)」**で実験し、その結果を元に巨大なオーケストラの楽譜を推測する仕組みです。

Composer は大きく 4 つのパート(コンポーネント)で構成されています。

① 検索エンジン(The Search Engine):「実験室」

ここでは、小さな AI(例えば 400 万パラメータ程度)の「部品の並び順」を自動で探します。

  • 工夫: 全部を最初から探さず、「1 回で全部決める」か、「下から順に足していく」か、といった賢い検索方法を使います。
  • 結果: 「Attention を 2 つ、MLP を 4 つ」のように、従来の「1:1」ではなく「1:2」の方が良いかもしれない、といった新しい発見をします。

② 評価者(The Evaluator):「味見係」

見つけた小さな AI が本当に優秀か、本物の巨大なデータでテストするのではなく、**「MAD(マッド)」**という特殊な「練習用クイズ」でテストします。

  • なぜ? 巨大なデータ(DCLM)で小さな AI をテストしても、本物の性能が反映されないからです。
  • 例え: 巨大なレストランの料理を、本物の食材で試すのではなく、「味見用の小さなスプーン」で、その料理の「基本の味」が上手かどうかを即座に判断する感じです。MAD というクイズは、小さなモデルでも本物の AI の能力を正確に予測できる「魔法の味見スプーン」でした。

③ 集約者(The Aggregator):「編集長」

検索エンジンが「これだ!」という候補を 100 個見つけたとします。全部が完璧とは限りません。

  • 工夫: 100 個の候補を比較し、**「どの層(レイヤー)にどの部品が最も多く使われているか」**を集計して、最もバランスの良い「1 つの完成形」にまとめます。
  • 例え: 100 人の料理人が出したレシピを分析し、「卵は 80% の人が使っていたから、卵をメインにしよう」と決めるような、統計的な「多数決」です。

④ 拡大器(The Extrapolator):「伸縮自在の設計図」

ここが最も面白い部分です。小さな AI(例:6 層)で見つけた「良い並び順」を、巨大な AI(例:32 層や 80 億パラメータ)にどう拡大するか?

  • スタッキング(積み重ね): 見つけた「6 層のブロック」を、そのまま何回も積み重ねる方法。
  • ストレッチ(伸縮): 見つけた「6 層の並び順」を、巨大な AI の層数に合わせて**「間延びさせずに、比率を保ったまま」**引き伸ばす方法。
    • 例: 「A-B-B」の並びが良かったら、巨大な AI でも「A-B-B-A-B-B...」と、リズムを崩さずに伸ばします。

🏆 3. 結果:Llama 3.2 よりも賢く、速く

この Composer で見つけた新しい AI(Composite アーキテクチャ)は、現在のトップクラスである**「Llama 3.2」**と比較して、以下の素晴らしい結果を出しました。

  1. より賢い: 正解率(精度)が平均で2% 以上向上しました。
  2. より速い: 学習も推論(回答生成)も1.25 倍〜1.33 倍速くなりました。
  3. より省エネ: メモリ(KV キャッシュ)の使用量が1.69 倍減りました。

なぜこれほど良くなったのか?
従来の AI は「1 つ注目、1 つ計算」の繰り返しでしたが、Composer は**「1 つ注目、2 つ計算」**という比率(1:2)が実は最適だと発見しました。また、Attention(注目)の層を減らすことで、計算量が減り、速度が向上したのです。

💡 まとめ

この論文が伝えているのは、**「AI の設計は、人間が直感で『ここをこうしよう』と決める時代は終わった」**ということです。

Composer は、**「小さな実験室で安価に試行錯誤し、その知見を巨大な世界に拡大する」**という、科学的で効率的なアプローチを確立しました。まるで、小さなスケッチから、完璧な大建築の設計図を自動で描き出すようなものです。

これにより、今後さらに高性能で、安く、速い AI が次々と生まれることが期待されます。