Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ARL-Tangram（エーアールエル・タングラム）」**という新しいシステムについて書かれています。

一言で言うと、**「AI が現実世界とやり取りするときに、必要なパソコンの計算リソース（CPU や GPU）を、無駄なく賢く配るための『超優秀な交通整理係』」**です。

難しい専門用語を使わず、日常の例え話で説明しましょう。

🎭 物語の舞台：AI の「冒険」と「道具」

まず、最新の AI（エージェント）は、ただ本を読むだけではありません。

コードを書く（パソコンの CPU を使う）
ネットを検索する（API を使う）
答えを評価する（別の AI モデルを使う）

といった「現実世界での冒険」をします。これを**「アジェンティック RL（強化学習）」**と呼びます。

しかし、ここで大きな問題が起きました。
AI が冒険をする際、必要な「道具（計算リソース）」を、**「最初から全部、使い放題で用意しっぱなし」**にしてしまうのです。

🚗 問題点：「空っぽのタクシー」の嵐

現在のやり方は、以下のような状態です。

状況: AI が「コードを書く」作業をするために、1 台のタクシー（CPU サーバー）を 1 時間貸し切ります。
現実: その AI は、1 時間のうち実際にキーボードを叩いているのは10 分だけです。残りの 50 分は、AI が「考えている間」や「次の指示を待っている間」で、タクシーは空っぽのまま止まっています。
結果: 数百台のタクシーが空回りして、燃料（コスト）を無駄にし、渋滞（待ち時間）を起こしています。

これを**「過剰供給（オーバープロビジョニング）」**と呼びます。「いつか使うかもしれない」という不安から、必要以上にリソースを確保してしまうのです。

🧩 解決策：ARL-Tangram（タングラム）

この論文の提案する**「ARL-Tangram」は、この無駄をなくすための「超・交通整理係」**です。

1. 細かく切る（アクション・レベル）

タングラム（七宝）のように、大きなリソースを細かく切り分けます。
「1 時間貸し切り」ではなく、**「今、コードを書く瞬間だけ 1 分間貸し」**という単位で管理します。

例: AI が「考える」間にはタクシーを返却し、実際に「書く」瞬間だけ呼び出します。

2. 賢く配る（弾力的なスケジューリング）

整理係は、リソースの使い方をリアルタイムで計算します。

急いでいる作業: 複数のタクシーをまとめて使い、短時間で終わらせます（並列処理）。
余裕がある作業: 1 台だけでゆっくり進めます。
これにより、「待ち時間」を劇的に短縮し、「必要なリソース」を最大 7 割も減らすことに成功しました。

3. 特殊な道具の管理

CPU（計算力）や GPU（画像処理・AI 推論）は性質が異なります。

CPU 管理: コンテナ（箱）の蓋を開け閉めするだけで、必要な分だけ中身を変えます。
GPU 管理: 重い AI モデルは「メモリ（記憶）」に常駐させるのが大変です。ARL-Tangram は、**「使わないときは倉庫（CPU メモリ）にしまい、使う瞬間だけ素早く呼び出して実行し、終わったらまたしまう」**という仕組み（Evict-on-Execution）を作りました。

🏆 成果：どれくらい速くなった？

このシステムを実際の AI 開発（MiMo シリーズなど）でテストした結果、驚異的な効果が得られました。

作業完了速度: 最大で4.3 倍速くなりました。
学習のステップ: 1 回の学習ステップが1.5 倍速くなりました。
コスト削減: 外部リソース（サーバー代など）を71.2% 節約できました。

🌟 まとめ

ARL-Tangram は、**「AI が現実世界で働くとき、必要な道具を『必要な時だけ、必要な分だけ』、無駄なく配る天才的なマネージャー」**です。

これにより、AI の学習はもっと速く、もっと安く、そしてもっと賢く行えるようになります。まるで、「空っぽのタクシーが街を走り回る無駄な時代」から、「乗客に合わせて最適な車が瞬時に現れる時代」へと進化させたようなものです。

Each language version is independently generated for its own context, not a direct translation.

ARL-Tangram: 自律型強化学習（Agentic RL）におけるリソース効率の最大化

本論文は、クラウドクラスターにおける自律型強化学習（Agentic RL）のワークロード効率を大幅に向上させるための統合リソース管理システム**「ARL-Tangram」**を提案するものです。大規模言語モデル（LLM）が外部ツールや環境と対話して複雑な問題を解決する Agentic RL は、従来の RL とは異なり、トレーニングクラスター外部の CPU（コード実行用）、GPU（報酬モデル用）、API クォータなどの多様な外部リソースを大量に必要とします。既存のフレームワークはこれらのリソースを静的に過剰供給（Over-provisioning）する傾向があり、リソース効率の悪化とコスト増大を招いていました。ARL-Tangram は、この課題を「アクションレベル」のスケジューリングと弾力的なリソース割り当てによって解決します。

以下に、論文の技術的要点を詳細にまとめます。

1. 背景と課題（Problem）

Agentic RL のトレーニングパイプライン（ロールアウト）では、LLM の生成・学習（主に GPU 消費）と、外部ツール呼び出し（コード実行、Web ブラウジング、報酬計算など）が交互に行われます。既存のアプローチには以下の重大な非効率性がありました。

軌道（Trajectory）レベルでの過剰供給:
- 既存システムは、1 つの軌道（タスクの完結までの一連の流れ）のライフサイクル全体を通じて、外部リソースを専有・予約します。
- しかし、実際には LLM 生成中に外部リソースはアイドル状態であり、ツール呼び出し時のみ使用されます（例：AI コーディングでは軌道寿命の約 47% しか使用されない）。
- これにより、残りの時間はリソースが遊休状態となり、他の軌道がキューイングされる原因となります。
タスクレベルでの過剰供給:
- 異なる RL タスクは異なる外部サービス（報酬モデルなど）を必要としますが、これらは通常、独立したリソース上にデプロイされます。
- 外部呼び出しの頻度は変動が激しく（バースト性）、固定されたリソースは利用率が極端に低くなります（例：GPU の SM アクティビティが平均 3% 未満）。
結果:
- 外部リソースの不足または不適切な割り当ては、ロールアウトの遅延や失敗を招き、RL トレーニング全体の効率を低下させます。
- 過剰なリソース確保は、クラウドコストの増大につながります。

2. 提案手法：ARL-Tangram（Methodology）

ARL-Tangram は、リソース管理の粒度を「軌道（Trajectory）」や「タスク」から、より細粒度の**「アクション（Action）」**（外部リソースの原子呼び出し）へとシフトさせるシステムです。

2.1 アクションレベルのオーケストレーション

Breakdown & Pool（分解と集約）:
- 長寿命の環境やサービスのリソース占有を「分解（Breakdown）」し、各アクションごとにリソースを解放します。
- 同じリソースタイプを持つアクションをプール（Pool）し、共有・弾力的に割り当てます。
統一されたアクション定式化（Unified Action Formulation）:
- 多様なリソース（CPU, GPU, メモリ, API クォータ等）をベクトル化されたコスト $C_i = (c_{i,0}, ..., c_{i,k-1})$ としてモデル化します。
- 弾性モデル（Elasticity Modeling）: アクションがリソース量に対してどのように実行時間が短縮されるかを記述します（例：並列度 DoP の増加による実行時間の減少）。これにより、スケジューラはリソース割り当てと実行時間のトレードオフを最適化できます。

2.2 弾的リソーススケジューリングアルゴリズム

目的関数: 待ち行列内の全アクションの完了時間（Action Completion Time: ACT）の合計を最小化します。
アルゴリズム:
- 待ち行列から先頭 $n$ 個のアクションを候補として選択（FCFS 方針）。
- 各リソースタイプごとに、候補をグループ化し、**貪欲なエビクション（Greedy Eviction）**メカニズムを用いて最適化を行います。
- 候補リストから最後のアクションを順次除外し、そのリソースを他のアクションに再割り当てすることで、全体の ACT が改善されるかを確認します。
- 近似目的関数を用いた動的計画法（DPArrange）により、異種リソースのトポロジーを考慮した最適割り当てを高速に計算します。
特徴: 非常に短い実行時間（マイクロ秒単位）を持つアクションに対しても、軽量かつ高並列なスケジューリングが可能です。

2.3 異種リソースマネージャ

多様なリソース特性に対応するため、専用マネージャを実装しています。

基本マネージャ: API クォータや QPS 制限など、スケーリングできないリソースの管理。
CPU マネージャ（AOE: Allocate-on-Execution）:
- Kubernetes/Docker の従来の Pod 単位管理ではなく、コンテナの cgroup を実行時に動的に更新（docker.exec 前）します。
- メモリは維持しつつ、CPU コアとメモリをアクション単位で細粒度に割り当て、NUMA ノード内でのコア選択により並列効率を最大化します。
GPU マネージャ（EOE: Evict-on-Execution）:
- GPU メモリが限られるため、サービス状態を CPU メモリにバックアップし、実行時に GPU に復元（Restore）する方式を採用します。
- 不要なサービスは GPU メモリからエビクトし、必要なサービスのみをロードします。
- 異なる並列度（DoP）のサービスインスタンスを別サービスとして扱い、スケジューラが最適な DoP を選択できるようにします。

3. 主要な貢献（Key Contributions）

問題の定式化: Agentic RL における外部リソースの過剰供給を「軌道内」と「タスク内」の 2 つのレベルで分析し、その非効率性を明確にしました。
アクションレベルスケジューリングの提案: 従来の粗粒度管理から、原子呼び出しレベルの細粒度共有と弾性割り当てへの転換を実現する ARL-Tangram システムを設計しました。
統合アルゴリズムとマネージャ: 異種リソース制約を考慮した統一アクション定式化と、最小 ACT を目指す弾的スケジューリングアルゴリズム、および各リソースタイプに特化したマネージャを開発しました。
実証評価: 実世界の RL タスク（AI コーディング、DeepSearch、MOPD など）での評価により、大幅な性能向上とコスト削減を実証しました。

4. 評価結果（Results）

実世界の Agentic RL ワークロード（MiMo シリーズモデルのトレーニングなど）を用いた評価結果は以下の通りです。

平均アクション完了時間（ACT）の改善: 最大 4.3 倍 の短縮。
RL トレーニングのステップ時間: 最大 1.5 倍 の高速化。
外部リソースの削減: 最大 71.2% のリソース節約（過剰供給の解消による）。
スケーラビリティ:
- CPU: バッチサイズが増大しても、Kubernetes ベースのベースラインに比べて ACT が 3.1 倍〜27.7 倍改善。ベースラインはリソース枯渇でキューイングタイムアウトが発生するのに対し、ARL-Tangram は安定して処理。
- GPU: 高並列条件下（バッチサイズ 2048）で、SGLang ベースラインに対して ACT が 18.1 倍 短縮。ServerlessLLM はこの負荷でタイムアウト失敗したが、ARL-Tangram は正常に動作。
オーバーヘッド: システムオーバーヘッドは実行時間の 3% 未満（CPU 負荷時）であり、GPU 復元オーバーヘッド（約 25%）も高並列時において急増せず、安定性を保っています。

5. 意義と結論（Significance）

ARL-Tangram は、Agentic RL が抱える「外部リソース管理のボトルネック」を根本的に解決するシステムです。

効率性の向上: 外部リソースのアイドル時間を排除し、動的なリソース割り当てにより RL トレーニングのスループットを劇的に向上させます。
コスト削減: 過剰なリソース確保を不要にし、クラウドコストを大幅に削減します。
汎用性: 特定の RL フレームワークや外部ツールに依存せず、独立したシステムとして機能するため、多様な Agentic RL ワークロードに適用可能です。

本システムはすでに Xiaomi の MiMo シリーズモデルのトレーニングに実装・展開されており、大規模な Agentic RL 開発におけるインフラ基盤としての重要性を証明しています。

ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning