CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「スマホやパソコンの画面を自分で見て、操作する AI（ロボット）」**を、もっと賢く、もっと上手に動かすための新しいトレーニング方法を紹介しています。

タイトルは**「CRAFT-GUI」。
これを一言で言うと、「AI に対して、簡単な課題から順に、段階的に難しい課題を解かせる『カリキュラム学習』と、細かく褒めたり叱ったりする『報酬設計』を組み合わせた、最強のトレーニング法」**です。

以下に、専門用語を排して、日常の例え話で解説します。

1. 従来の AI の問題点：「子供に大学レベルの授業をいきなり受けさせる」

これまでの AI は、スマホのアプリ操作などを教える際、「簡単な操作」と「超複雑な操作」を混ぜて、すべて同じように教えていました。

例え話：
想像してください。まだ足もろくに立てない赤ちゃんに、いきなり「微積分」や「高度な料理」を教える先生がいたとします。
- 赤ちゃんは「難しすぎてわからない！」と挫折します。
- 先生も「なぜできないんだ？」とイライラします。
- 結果、学習効率が非常に悪く、AI は安定して動かない（暴走したり、何もしなかったりする）状態になっていました。

また、評価方法も**「できたか・できなかったか」だけで、「どこが間違っていたのか」「なぜ失敗したのか」**という細かいフィードバックが不足していました。

例え話：
料理のテストで「焦げ焦げの料理」が出たとき、先生が「不合格（0 点）」とだけ言って、**「塩を多すぎた」「火が強すぎた」**という具体的なアドバイスを与えないようなものです。これでは、次はどう直せばいいかわかりません。

2. CRAFT-GUI の解決策：「段階的な成長と、きめ細やかなコーチング」

この論文が提案する「CRAFT-GUI」は、人間の成長プロセスに合わせた 2 つの工夫を取り入れています。

① カリキュラム学習（段階的なトレーニング）

AI に**「簡単なものから順に」**教えていきます。

ステップ 1（初心者）： 「画面のボタンを 1 つ押す」のような、たった 1 回で終わる簡単な操作。
ステップ 2（中級者）： 「アプリを開いて、メニューを選び、注文する」など、3〜8 回程度の操作。
ステップ 3（上級者）： 「画面の文字を読んで意味を理解し、複雑な手順を踏んで、さらに別のアプリを操作する」ような、高度なタスク。
例え話：
野球の選手を育てるなら、いきなり「プロの試合」に出場させるのではなく、まずは**「素振り（基本動作）」から始め、次に「キャッチボール（簡単な連携）」、そして「実戦練習（複雑な状況）」**へと段階を踏ませます。これにより、AI は自信を持ってスキルを積み上げていけます。

② 細やかな報酬設計（きめ細かなフィードバック）

AI が操作した結果に対して、「正解・不正解」だけでなく、もっと細かい評価を与えます。

ツール選択： 「クリック」すべきところを「スワイプ」で間違えたら、そこを減点。
パラメータ： 「ここを押せ」と言われた場所が、少しずれていたら、そのズレの大きさで減点。
思考プロセス： 「なぜそう思ったか」を論理的に説明できているか（HTML タグなどで構造化されているか）も評価。
長さの制限： 考えすぎて長文になりすぎたら、ペナルティ（減点）を課す。
例え話：
料理のテストで「不合格」ではなく、**「塩は少し多すぎたけど、火加減は完璧だった！次は塩を少し減らしてね」**という、コーチからの具体的なアドバイスを毎回もらえるイメージです。これにより、AI は「次はどうすればいいか」を正確に学習できます。

3. 結果：劇的な向上

この方法でトレーニングした AI（CRAFT-GUI）は、従来の最高レベルの AI と比べて、「AndroidWorld（スマホ操作のテスト）」で 7.1%、独自のテストでは 10.3% も成績が向上しました。

意味：
従来の AI が「70 点」だったところを、この方法で**「80 点以上」**に引き上げることができました。特に、複雑で長い手順のタスクや、画面の文字を理解する必要があるタスクで、その差が顕著に出ています。

まとめ

この論文が伝えているのは、**「AI を賢くするには、無理やり難しいことをさせるのではなく、段階的に成長させ、失敗したときは『なぜダメだったか』を丁寧に教えてあげることが重要だ」**ということです。

まるで、**「子供を育てる親」や「選手を指導するコーチ」**のように、AI 一人ひとりの成長段階に合わせて、最適なトレーニングメニューとフィードバックを提供することで、本当に使える「自律型 AI アシスタント」が生まれるという、非常に人間味のあるアプローチです。

今後は、スマホだけでなく、パソコンの操作や、失敗したらやり直す（ロールバック）機能なども追加し、さらに万能な AI へと進化させる予定だそうです。

Each language version is independently generated for its own context, not a direct translation.

）、ツール呼び出し（）、タスク進捗（`）を含む構造化された出力形式に従っているか。
* 過長ペナルティ ( $P_{length}$ ): 思考トークンが過度に増殖するのを防ぐための適応的な長さ制約。

視覚的理解タスクの報酬:
- 意味的報酬 ( $R_{sem}$ ): 自然言語の複雑さに対応するため、LLM を審判（LLM-as-a-Judge）として用い、回答と正解の整合性を評価します。

3. 主な貢献

カリキュラム RL 戦略: 軌道（トラジェクトリ）の特性に基づき、単純から複雑へと体系的に進行する学習戦略の確立。
微細なハイブリッド報酬メカニズム: ルールベースの検証とモデル予測評価を統合し、安定した収束を可能にする詳細なフィードバック設計。
包括的な評価: 操作タスクと理解タスクの両方において、SFT（教師あり微調整）および既存の RL ベースラインを上回る性能向上を実証。

4. 実験結果

実験は、公開ベンチマーク「AndroidWorld」と、独自に構築した 6 分野（食品配達、飲食、医療、金融、保険、ゲーム）を含む 8 万件のデータセット（Android Control）で行われました。ベースモデルには Qwen2.5-VL（7B, 32B）を使用しました。

AndroidWorld での性能: 既存の最先端手法（SOTA）と比較して、7.1% の性能向上を達成しました。
独自データセットでの性能: 同様に、SOTA 手法に対して10.3% の改善（平均成功率 75.7%）を記録しました。
アブレーション研究:
- カリキュラム学習の効果: 従来の RL（Vanilla GRPO）と比較して、カリキュラム RL を採用することでさらに3.8% の性能向上が見られました。
- データ混合の効果: 操作タスクだけでなく、視覚的理解タスクを混合して学習させることで、操作タスクの成功率が2.5% 向上しました。これは、理解能力が操作能力の向上にも寄与することを示しています。

5. 意義と結論

CRAFT-GUI は、GUI エージェントの学習において「難易度の認識」と「報酬の細分化」が不可欠であることを実証しました。従来の均一な学習アプローチでは達成できなかった、複雑な多ステップタスクや高度な視覚推論を要するタスクにおいて、顕著な性能向上を実現しています。

今後は、このフレームワークを PC 環境のタスクへ拡張し、試行錯誤とロールバック（やり直し）機能を取り入れることで、より汎用的な知能エージェントの実現を目指すと述べています。この研究は、マルチモーダル AI の実世界応用における重要な一歩であり、効率的で堅牢な GUI 自動化システムの構築に寄与するものです。

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

1. 従来の AI の問題点：「子供に大学レベルの授業をいきなり受けさせる」

2. CRAFT-GUI の解決策：「段階的な成長と、きめ細やかなコーチング」

① カリキュラム学習（段階的なトレーニング）

② 細やかな報酬設計（きめ細かなフィードバック）

3. 結果：劇的な向上

まとめ

3. 主な貢献

4. 実験結果

5. 意義と結論

関連論文

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers