✨

これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

🎨 従来の AI 絵描きは「直感屋」だった

まず、これまでの AI（画像生成モデル）がどうだったかを想像してみてください。
あなたは「左に赤いリンゴ、右に青い花瓶」と注文しました。
従来の AI は、**「直感で描く天才画家」**のようなものでした。

得意なこと: 雰囲気は素晴らしい。リンゴも花瓶も綺麗に描ける。
苦手なこと: 「左」「右」といった正確な位置関係や、「リンゴは赤くて、花瓶は青い」という属性の結びつきが混乱しやすい。
- 結果：「リンゴが花瓶の上に乗っちゃった」や「青いリンゴができてしまった」というミスが頻発していました。
- 理由: 彼らは「言葉（テキスト）」を直接「絵（画像）」に変換するだけで、「どう配置しようか？」と頭の中で考えるプロセス（思考の連鎖）をスキップしていたからです。

🧠 GoT-R1 の登場：「設計図」を描く天才画家

この論文の「GoT-R1」は、その欠点を補うために**「考える習慣」**を AI に教えました。

GoT（Generation Chain-of-Thought）の導入:
絵を描く前に、まず**「設計図（思考の連鎖）」**を書くようにしました。
- 例: 「まず、左側に赤いリンゴ（座標：ここ）を描く。次に、右側に青い花瓶（座標：ここ）を描く」
- これにより、AI は「何を描くか」だけでなく「どこに置くか」を明確に意識するようになります。
しかし、まだ完璧ではなかった:
最初は、人間が作った「決まったテンプレート（型）」に従って設計図を書くだけでした。
- 問題点: テンプレート通りに書けても、「本当に注文通りか？」という判断が甘く、設計図と実際の絵がズレてしまうことがありました。

🏆 強化学習（RL）の魔法：「褒められながら上達する」

ここが今回の最大の特徴です。GoT-R1 は、**「強化学習（Reinforcement Learning）」という技術を使って、AI に「自分でより良い設計図を見つける力」**を身につけさせました。

これを**「料理の修行」**に例えてみましょう。

従来の方法（教師あり学習）:
料理長（人間）が「このレシピ通りに作れ」と教えるだけ。生徒はレシピ通りに作るが、少しの工夫や失敗からの学習が苦手。
GoT-R1 の方法（強化学習）:
生徒が自分でレシピ（設計図）を考え、料理（絵）を作る。
その後、**「超優秀な料理評論家（MLLM：多モーダル大規模言語モデル）」**が、以下の 4 つの観点で厳しく採点します。
1. 注文との一致: 「赤いリンゴ」を注文したのに、赤いリンゴが描けてるか？
2. 設計図の質: 書いたレシピ（設計図）自体が、注文内容を正しく反映しているか？
3. 設計図と料理の一致: 書いたレシピ通りに、実際に料理（絵）ができているか？
4. 全体の美味しさ: 見た目は美しいか？
🌟 重要なポイント:
評論家は、**「設計図（思考過程）」と「完成品（絵）」**の両方をチェックします。
- 「設計図は完璧なのに、絵がズレている」→ 減点
- 「絵は綺麗なのに、設計図が注文とズレている」→ 減点
- 「両方が完璧」→ 高得点！
AI はこの**「採点（報酬）」を繰り返すことで、「ああ、こういう設計図を書けば、評論家に褒められるんだ！」と自ら学習し、より賢い思考パターンを編み出していく**のです。

🚀 具体的な成果

この「GoT-R1」を使うと、以下のような劇的な変化が起きました。

複雑な注文にも対応: 「左の椅子の上に、右の猫が乗っている」のような、位置関係が複雑な指示も、ズレずに描けるようになりました。
属性の結合: 「青い車と赤い空」のように、色と物体の結びつきが正確になりました。
自己学習: 人間が教えたテンプレートを超えて、AI 自身が「もっと効率的な描き方」を発見するようになりました。

💡 まとめ

GoT-R1とは、**「絵を描く AI に、『設計図を書く習慣』と、『評論家からのフィードバックで自ら成長する力』を与えたシステム」**です。

これまでは「直感で描く天才」だった AI が、**「論理的に考え、計画を立て、失敗から学び続けるプロの建築家」**へと進化しました。これにより、私たちがイメージする複雑で繊細な世界を、より忠実に絵として再現できるようになったのです。

一言で言うと：
「AI に『考えるプロセス』と『自己改善のループ』を持たせて、複雑な絵の注文もバッチリこなせるようにしたよ！」という画期的な技術です。

Each language version is independently generated for its own context, not a direct translation.

GoT-R1: 強化学習による自己回帰型視覚生成モデルの推論能力の解放

技術的サマリー（日本語）

本論文は、ICLR 2026 にて発表された「GoT-R1」に関する研究です。これは、テキストから画像を生成する自己回帰型モデルにおいて、複雑な構成的指示（複数の物体、正確な空間関係、属性の紐付けなど）を処理するための推論能力を、強化学習（RL）によって大幅に向上させる新しいフレームワークを提案するものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と課題 (Problem)

近年のテキストから画像への生成モデル（拡散モデルや自己回帰モデル）は、自然な言語記述からリアルな画像を生成する能力において飛躍的な進歩を遂げました。しかし、以下のような複雑な構成的プロンプト（例：「左側に赤い鳥、右側に青い車」）に対する処理には依然として課題が残っています。

空間関係と属性の紐付けの難しさ: 複数の物体間の正確な位置関係や、特定の属性を特定の物体に正しく対応させることが苦手です。
明示的な推論の欠如: 従来のモデルは、テキスト埋め込みを直接視覚特徴にマッピングする傾向があり、シーンの構成的構造を明示的に推論するプロセスが不足しています。
既存の GoT（Generation Chain-of-Thought）の限界: 中間的な推論プロセス（物体の説明と座標を生成するチェーン）を導入する「GoT」フレームワークは存在しますが、これは人間が定義した固定されたテンプレートに基づいた教師あり微細調整（SFT）に依存しています。そのため、モデルはテンプレートに適合する推論はできても、より効果的な推論戦略を自律的に発見できず、プロンプトと推論の間に乖離（不忠実な推論）が生じることがあります。

2. 提案手法 (Methodology)

著者らは、言語モデルにおける強化学習（RL）の成功（例：OpenAI o1, DeepSeek-R1）に着想を得て、自己回帰型視覚生成モデルに応用する「GoT-R1」フレームワークを提案しました。

2.1 基本アーキテクチャ

ベースモデル: 自己回帰型の統一型マルチモーダル大規模言語モデル（MLLM、例：Janus-Pro）を使用します。これはテキスト入力を受け取り、推論チェーン（テキスト）と画像トークンのシーケンスを連続的に生成します。
トレーニング戦略:
1. SFT ステージ: 既存の GoT データセットを用いて、テンプレートに沿った推論チェーン生成の基礎能力を確立します。
2. RL ステージ: 強化学習を用いて、モデルが固定テンプレートを超えて、より効果的な推論戦略を自律的に探索・学習できるようにします。

2.2 最適化アルゴリズム：GRPO

Group Relative Policy Optimization (GRPO): 個別のクリティカルモデル（Critic）を必要とせず、グループ内のサンプル間の相対的なパフォーマンスに基づいて方策を最適化するアルゴリズムを採用しています。これにより計算効率を高めつつ、推論能力の向上を促します。

2.3 革新的な報酬設計：MLLM ベースの双段階多次元報酬

視覚生成における RL の最大の課題は「適切な報酬の設計」です。GoT-R1 は、推論プロセスと最終出力の両方を評価する双段階多次元報酬フレームワークを提案しています。これには、マルチモーダル LLM（MLLM）が報酬モデルとして機能します。

総報酬 $R_{total}$ は、以下の 4 つの報酬の積として定義されます：
$R_{total} = R_{PI} \times R_{PR} \times R_{RI} \times R_{HPS}$

プロンプト - 画像整合性 ( $R_{PI}$ ): 生成された画像がプロンプトの構成（物体、属性、レイアウト）とどの程度一致しているかを評価。
プロンプト - 推論整合性 ( $R_{PR}$ ): 入力プロンプトと生成された推論チェーン（GoT）の整合性を評価。さらに 2 つのサブ報酬に分解されます：
- 意味的報酬 ( $R_{sem}$ ): プロンプトの概念が推論に網羅されているか、矛盾がないか。
- 空間的報酬 ( $R_{spa}$ ): ここが重要な革新点です。 MLLM はテキスト形式の座標よりも視覚的な情報を好むため、推論チェーン内の座標を「空白キャンバス上に描かれたバウンディングボックス画像」に変換し、MLLM に視覚的に評価させることで、空間関係の正確性を高感度で判定します。
推論 - 画像整合性 ( $R_{RI}$ ): 推論チェーンで計画された物体の位置と、実際に生成された画像内の物体位置（Grounding）との一致度（IoU: Intersection over Union）を評価。推論と生成の乖離を防ぎます。
品質評価 ( $R_{HPS}$ ): HPS v2.1 モデルを用いて、生成画像の美的品質を評価。

3. 主要な貢献 (Key Contributions)

GoT-R1 フレームワークの提案: 強化学習を導入し、自己回帰型視覚生成モデルが事前定義されたテンプレートを超えて、自律的に効果的な推論戦略を発見できるようにした。
双段階多次元報酬設計: 中間推論プロセスと最終視覚出力の両方を、意味的整合性、空間的精度、視覚品質の多角的な視点から評価する包括的な報酬システムを設計した。特に、MLLM を用いた視覚化されたバウンディングボックスによる空間評価は画期的である。
SOTA の達成: T2I-CompBench および GenEval ベンチマークにおいて、特に複雑な構成的タスク（空間関係、属性紐付け）で既存の最良手法（SOTA）を上回る性能を達成した。

4. 実験結果 (Results)

T2I-CompBench: GoT-R1-7B モデルは、6 つの評価カテゴリーのうち 5 つで最高スコアを記録し、Complex（複雑な構成）カテゴリーでは最大 15% の改善が見られました。
GenEval: 全体スコア 0.75 を達成（ベースラインの Janus-Pro-GoT-7B は 0.64）。特に「2 物体生成」は 0.69→0.94、「属性紐付け」は 0.43→0.68 と大幅に向上しました。
一般画像品質: COCO 2014 検証セットにおける CLIP スコア、美的スコア、人間評価（77% の好意）でもベースラインを凌駕しました。
推論の質: GPT-4o による評価では、GoT-R1 が自律的に生成した推論チェーンは、既存のテンプレートベースの GoT よりも、プロンプトとの関連性、物体記述の正確性、テキストの明瞭さにおいて圧倒的に好まれました。
アブレーション研究: 報酬設計の各要素（特に $R_{PR}$ と $R_{RI}$ の両方の必要性、視覚化された空間評価の有効性）が性能向上に不可欠であることを実証しました。

5. 意義と結論 (Significance)

GoT-R1 は、言語モデルで成功した強化学習による推論能力の向上を、視覚生成ドメインへ成功裏に転移させた最初の試みの一つです。

構成的生成の飛躍: 単なる画像生成の質向上だけでなく、「なぜそのように生成したか」という推論プロセス自体を最適化することで、複雑な指示への対応力を本質的に高めました。
自律的な戦略発見: 人間が定義した固定テンプレートに依存せず、モデル自身がタスクに適した推論パターンを発見できる可能性を示しました。
MLLM の報酬モデルとしての活用: 従来の数値的指標では捉えきれない「意味的・空間的整合性」を、MLLM の高度な理解力と視覚化技術を用いて評価する新しいパラダイムを提示しました。

この研究は、文脈を深く理解し、意図を正確に反映した視覚コンテンツ生成の実現に向けた重要な一歩であり、将来的な AI による創造的タスクの高度化に寄与すると期待されます。

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning