HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

本論文は、LLM エージェントの長期タスクにおける課題を解決するため、マクロな計画とミクロな実行を階層的に分離し、批評家不要の強化学習と共進化トレーニング戦略を導入した HiMAC を提案し、多様な環境で最先端の性能とサンプル効率を実現したことを示しています。

Hongbo Jin, Rongpeng Zhu, Jiayu Ding, Wenhao Zhang, Ge Li

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧠 問題:AI は「長い旅」が苦手な理由

最近の AI(大規模言語モデル)は、短い会話や簡単なタスクならとても上手です。でも、**「冷蔵庫の奥にある牛乳を取り出して、それをテーブルに置く」**のような、複数のステップが必要な長い作業になると、すぐに失敗してしまいます。

なぜでしょうか?
今の一般的な AI は、**「一人の天才が、頭の中で全部考えながら、同時に手を動かす」というスタイルで動いています。
これを
「一人の料理人が、レシピを考えながら、同時に包丁を振るっている」**状態だと想像してください。

  • 問題点: 最初のステップで少し包丁の持ち方が間違ったり、レシピの 1 行目を勘違いしたりすると、そのミスが雪だるま式に大きくなり、最後には料理が台無しになります。長い作業ほど、この「最初の小さなミス」が致命傷になるのです。

💡 解決策:HiMAC(ハイマック)の仕組み

HiMAC は、この「一人の天才」を**「指揮官(プランナー)」「実行部隊(エグゼキューター)」**の 2 人組に変えてしまいました。

1. 指揮官(マクロ・ポリシー):地図を作る人

  • 役割: 具体的な行動は考えません。代わりに、**「全体像の地図(青写真)」**を描きます。
  • 例え: 料理で言えば、「まず野菜を洗う、次に切る、最後に炒める」という手順書だけを作ります。「包丁をどう握るか」までは考えません。
  • メリット: 全体像を見失うことなく、大きな目標を小さなステップに分解できます。

2. 実行部隊(マイクロ・ポリシー):実際に動く人

  • 役割: 指揮官から渡された「手順書」だけを頼りに、一つずつ行動します。
  • 例え: 「野菜を洗う」という指示が出たら、その瞬間に集中して野菜を洗います。「次は炒める」なんて先回りして考えず、今の指示に全力を注ぎます。
  • メリット: 指示が明確なので、迷子になりにくく、ミスをしてもそのステップだけで止まります。

🌟 すごいところ:
この 2 人は**「同じ AI の頭(モデル)」**を使っていますが、役割を完全に分けています。これにより、長い道のりでも「今、どこにいるか」を常に意識でき、失敗が全体に広がらないようになります。


🏋️‍♂️ 訓練方法:二人が一緒に成長する「共進化」

この 2 人組を上手に育てるには、特別なトレーニング方法が必要です。HiMAC は**「交互に練習する」**という工夫をしています。

  1. 指揮官の練習タイム:
    • 実行部隊は「機械的に指示に従うだけ」の状態にします。
    • 指揮官は「どんな手順書なら、実行部隊が成功するか」をたくさん試して、良い手順書を作れるように練習します。
  2. 実行部隊の練習タイム:
    • 指揮官は「一番成功しそうな手順書」を 1 つ決めます。
    • 実行部隊は、その手順書だけを頼りに、どうすればうまく動くかを練習します。

🔄 なぜ交互なのか?
もし二人が同時に練習すると、指揮官は「実行部隊がまだ下手なうちは、簡単な手順書しか作れない」と思い、実行部隊は「指揮官が変な指示を出す」と混乱してしまいます。
HiMAC は**「片方が固定されている間に、もう片方を鍛える」ことで、お互いが安定して成長できるようにしています。まるで、「コーチが選手に完璧なフォームを教える間、選手はそれを真似して練習する」**ような関係です。


🏆 結果:どんなに難しいタスクでも勝つ!

この HiMAC を、3 つの難しいゲームで試してみました。

  1. ALFWorld(家事シミュレーション): 部屋の中で物を片付けるタスク。
  2. WebShop(ネットショッピング): 複雑な条件の製品を探すタスク。
  3. Sokoban(箱押しパズル): 視覚的に箱を動かすタスク。

結果:

  • 従来の AI(一人の天才スタイル)は、長いタスクになるとすぐに失敗しました。
  • HiMAC は、「指揮官と実行部隊」に分けるだけで、劇的に成功率が向上!
  • 特に、WebShop という難しいネットショッピングのテストでは、従来の最高記録を16% も上回る成績を収めました。

📊 驚きの事実:
HiMAC は、巨大な AI モデルを使わなくても、「仕組み(構造)」を変えるだけで、巨大なモデルに匹敵する、あるいはそれ以上の性能を出せています。「モデルを大きくする」ことよりも、「考え方の構造を変える」ことの方が重要だということが証明されました。


🎁 まとめ

HiMAC のアイデアは、とてもシンプルで人間らしいです。

「大きな目標を達成するには、一人が全部抱え込むのではなく、『計画する人』と『実行する人』を分けて、お互いが互いの成長に合わせてステップアップしていくのが一番だ!」

この「構造的な工夫」が、AI に「長い道のりを歩ける力」を与えたのです。これからの AI 開発は、単に「頭を大きくする」だけでなく、「考え方の仕組みを賢くする」時代が来たのかもしれませんね。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →