Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

この論文は、LLM のエージェント開発を統合的に支援するオープンな学習エコシステム「ALE」を提案し、その基盤上で 100 万超の軌跡で学習され、長期タスクの安定性を向上させる新しい最適化アルゴリズム「IPA」を採用したオープンソースエージェント「ROME」を開発・評価したことを述べています。

Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Xin Lin, Chonghuan Liu, ZhenDong Liu, Zhiqiang Lv, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が単に答えを出すだけでなく、実際に手を動かして複雑な仕事を完遂する『自律的なエージェント』をどうやって育てるか」**という、非常にワクワクするテーマについて書かれています。

タイトルにある「Let It Flow: Agentic Crafting on Rock and Roll」は、**「ロックンロール(ROCK & ROLL)」「流れ(Flow)」**を掛けた洒落です。

ここでは、この論文の核心を、**「天才的な職人(AI)を育てるための『完璧な工場』」**という物語として、わかりやすく解説します。


🎸 物語の舞台:「AI 職人」を育てるための「A.L.E.(アグリ・ラーニング・エコシステム)」

昔の AI は、料理のレシピを聞けば「卵を割る」という答えを返すだけでした(ワンショット)。でも、本当の「エージェント(自律型 AI)」は、**「卵を割って、フライパンを熱し、焦げないように見張り、失敗したらやり直す」**まで、実際にキッチンで動き回る必要があります。

しかし、この「実際に動き回る AI」を作るには、ただの教科書(データ)だけでは足りません。**「実際に練習できる安全なキッチン(環境)」「上手に褒めて指導するコーチ(学習システム)」**が必要です。

この論文では、その**「完璧な工場」「ALE(Agentic Learning Ecosystem)」**と呼んでいます。ALE は、3 つの重要な機械で構成されています。

1. 🪨 ROCK(ロック):安全な「練習用キッチン」

  • 役割: AI が実際にコードを書いたり、コマンドを実行したりする**「サンドボックス(安全な箱)」**を管理します。
  • アナロジー: 料理を学ぶ生徒が、本物のキッチンで火事を出したり、冷蔵庫を壊したりしないように、**「練習用のミニキッチン」**を用意する役目です。
  • すごい点: 1 万個以上のミニキッチンを同時に動かせるし、もし AI が暴れても、その箱の中だけで終わって、他の練習には影響しません。

2. 🎸 ROLL(ロール):効率的な「コーチング・システム」

  • 役割: AI が練習して得た結果(成功か失敗か)を分析し、AI の頭(モデル)をアップデートする**「学習エンジン」**です。
  • アナロジー: 生徒が練習している間、コーチが**「ここがダメだったね」「次はこうしよう」**と即座にフィードバックし、次の練習に活かすシステムです。
  • すごい点: 従来の学習システムだと「練習中」はコーチが待機していましたが、ROLL は**「練習」と「指導」を同時に並行して行う**ことで、時間を大幅に節約しています。

3. 📱 iFlow CLI(アイフロー):AI の「頭と記憶」を管理するマネージャー

  • 役割: AI が何を考えているか、どんな道具(ツール)を使っているかを整理し、人間との対話をスムーズにする**「コンテキスト管理」**の役割です。
  • アナロジー: 料理人が「卵を割る」と言っている時、それが「オムレツ用」なのか「炒め物用」なのか、文脈(コンテキスト)を正しく理解して指示を出すマネージャーです。
  • すごい点: AI が長い作業をする間、忘れ物なく、混乱せずにタスクを遂行できるようにサポートします。

🌟 完成した作品:「ROME(ローム)」

この「ALE(工場)」を使って育てられたのが、ROMEという AI モデルです。
名前の由来は「ROME is Obviously an Agentic ModEl(ROME は明らかにエージェントモデルだ)」という洒落です。

  • どんなモデル?
    • 100 万回以上の「失敗と成功の繰り返し(軌跡データ)」で鍛え上げられました。
    • 300 億パラメータというサイズですが、1000 億パラメータを超える巨大モデルと戦っても負けない性能を持っています。
    • なぜ強いのか?
      • 単に「正解」を覚えたのではなく、**「なぜ失敗したか」「どう修正すればいいか」**を、長い作業の流れの中で学んだからです。

🚀 独自の学習テクニック:「IPA(インタラクション・パーセプティブ・ポリシー・オプティマイゼーション)」

ROME が強くなった最大の秘密は、この新しい学習アルゴリズムにあります。

  • 従来の方法: 「単語」一つ一つに対して「正解・不正解」を判断していました。
    • 例: 「卵を割る」→「正解」「フライパンを置く」→「不正解」...(細かすぎて、全体の流れが見えにくい)
  • ROME の方法(IPA): **「意味のある塊(チャンク)」**ごとに評価します。
    • 例: 「卵を割って、フライパンに油を注ぐ」→**「この一連の動作は成功した!」**と評価する。
    • メリット: 長い作業でも、どこで成功し、どこで失敗したかが明確になり、AI が**「長い道のりでも諦めずにゴールを目指す力」**を身につけやすくなりました。

🏆 結果:どれくらいすごいのか?

この論文では、**「Terminal Bench Pro(ターミナル・ベンチ・プロ)」**という、より厳しく、現実的なテストを行いました。

  • 結果:
    • ROME は、**SWE-bench(ソフトウェア開発のテスト)**で 57.4% の正解率を達成。
    • 同サイズの他の AI モデルを大きく引き離し、1000 億パラメータ級の巨大モデルと互角、あるいはそれ以上の性能を示しました。
    • すでに実社会(プロダクション)でも使われており、実際にコードを書き換えたり、システムを構築したりする仕事をこなしています。

💡 まとめ:この論文が伝えたいこと

この論文は、**「AI を強くするには、ただデータを増やす(パラメータを大きくする)だけではダメだ」**と教えています。

  1. 環境が重要: AI が実際に手を動かす「安全な練習場(ROCK)」が必要です。
  2. 学習の質が重要: 単語単位ではなく、**「意味のある行動の塊」**で評価し、学習させる(IPA)ことが、長い作業を成功させる鍵です。
  3. エコシステム: 練習場、コーチ、マネージャーが一体となった**「ALE」**というシステムがあれば、比較的小さなモデルでも、驚くほど賢い「自律型エージェント」に育つことができます。

**「Rock and Roll」のように、AI も「暴れ」ながら(試行錯誤しながら)成長し、「Let It Flow」**のように、スムーズに複雑な仕事をこなせるようになる。そんな未来をこの論文は示しています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →