Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が難しい推理（ロジック）を学ぶための、新しい効率的な勉強法」**を紹介しています。

タイトルは**「COGS（コグス）」**です。

🎨 全体像：AI の「料理教室」

まず、今の AI（マルチモーダル大規模言語モデル）は、写真やグラフを見て「何が見えているか」を答えるのは得意ですが、「なぜそうなるのか」「計算して答えを出せ」という推理や計算が苦手なことが多いです。

特に、グラフやウェブページのデータから答えを導き出すようなタスクでは、人間が一つ一つ「正解と解説」を書いたデータを集めるのが大変で、データが不足しています。

ここで登場するのがCOGSという仕組みです。これは、**「少量の『種（シード）』から、無限に『料理（問題と答え）』を生み出す魔法のキッチン」**のようなものです。

🧩 3 つのステップで AI を育てる

COGS は、大きく分けて 3 つのステップで AI を鍛え上げます。

1. 分解（デコンポジション）：レシピの「基本動作」を抽出する

まず、人間が用意した「少し難しい問題（種）」を AI に見せます。
例えば、「2019 年のエネルギー成長率と公共サービス成長率の差は何？」という問題があるとします。

COGS はこの問題を**「レゴブロック」**のようにバラバラに分解します。

ブロック A（認識）： グラフから「エネルギー成長率」の数値を見つける。
ブロック B（認識）： グラフから「公共サービス成長率」の数値を見つける。
ブロック C（計算）： A と B の数を引いて差を出す。

このように、複雑な問題を**「見る」「比べる」「計算する」といった小さな基本動作（ファクター）**に分解して、その「部品集」を作ります。

2. 再構成（リコンポジション）：新しい料理を作る

次に、**「新しいグラフ（またはウェブページ）」**を用意します。
先ほど作った「部品集（ブロック A, B, C）」をランダムに組み合わせて、全く新しい問題を自動生成します。

「新しいグラフの『A』と『B』の差は？」
「新しいウェブページの『X』と『Y』を足して、さらに『Z』を引いたら？」

このとき、AI は「答え」だけでなく、**「その答えに至るまでの中間ステップ（サブ質問）」**も一緒に作ります。
まるで、料理教室で「卵を割る」「炒める」「塩を振る」という手順を一つ一つ教えてくれるようなものです。

3. 強化学習（フィードバック）：正解だけでなく「過程」を褒める

最後に、AI にこの大量に作られた新しい問題で学習させます。
ここで重要なのが**「報酬（ご褒美）」の与え方**です。

従来の方法： 最終的な答えが合っていれば「正解！」、違っていれば「不正解！」（結果だけを見る）。
COGS の方法： 最終的な答えだけでなく、**「中間のステップ（卵を割れたか？炒めすぎなかったか？）」**もチェックします。
- 答えが合っていても、途中の計算が間違っていたら減点。
- 答えが合ってなくても、途中の論理が正しければ加点。

このように、「過程（プロセス）」を評価して褒めることで、AI は「なぜその答えになるのか」という正しい思考の道筋を深く学ぶことができます。

📈 何がすごいのか？（実験結果）

この方法を実際に「グラフの読み取り」や「ウェブページの理解」で試したところ、素晴らしい結果が出ました。

難しい問題が得意になった：
単純な「何が見えているか」だけでなく、「A と B を比べて、さらに C を計算して…」という多段階の推理が必要な問題で、劇的に性能が上がりました。
少量のデータで済む：
最初に必要な「種（シード）」はごくわずかです。そこから AI が自分で大量の練習問題を作り、自らを鍛えることができます。
他の分野にも応用できる：
グラフだけでなく、ウェブページの操作など、他の分野でも同じように効果がありました。

💡 まとめ

この論文が伝えているのは、**「AI に大量のデータを与えて暗記させるのではなく、少量の『種』から『思考の部品』を分解し、それを組み合わせて新しい問題を解く練習をさせることで、AI は本当に賢い『推理力』を手に入れることができる」**ということです。

まるで、子供に「足し算の答え」だけを丸暗記させるのではなく、「足し算の仕組み」を教えた上で、様々な応用問題を解かせることで、数学の天才に育てるようなイメージです。

この「COGS」という方法は、AI がより複雑なタスク（ドキュメントの編集や、ウェブ上の行動など）を自律的に行うための重要な一歩となるでしょう。

Each language version is independently generated for its own context, not a direct translation.

COGS: 視覚的推論のための構成性に基づくデータ合成

ICLR 2026 発表論文の技術的サマリー

1. 概要と背景

本論文は、事前学習済みのマルチモーダル大規模言語モデル（MLLM）が、注釈付きデータが不足している領域（特にチャート、レンダリングされたドキュメント、Web ページなどの人工的な画像領域）における高度な推論能力に欠けているという課題に焦点を当てています。これらの画像は Web 上に豊富に存在しますが、複雑な推論を必要とする質問 - 回答ペアの人手による大規模データセットは存在しません。

この課題に対し、著者らはCOGS (COmposition-Grounded data Synthesis) という、少量の「シード質問（seed questions）」から MLLM に高度な推論能力を付与するためのデータ効率の高いフレームワークを提案しました。

2. 問題定義

課題: 人工的な画像（チャート、Web UI など）における視覚的推論タスクにおいて、高品質な推論データが不足している。
制約: 大規模な人手による注釈データが利用できない。
目標: 少量のシード質問セットとラベルなし画像のみを用いて、多様で複雑な合成質問 - 回答ペアを生成し、MLLM の推論能力を向上させる。

3. 手法：COGS フレームワーク

COGS は、質問の「構成性（Compositionality）」を利用し、3 つの主要な段階で構成されます。

3.1. シードデータの分解 (Decomposition)

プロセス: 対象ドメインの少量のシード質問セット（ $Q_0$ ）を、MLLM に提示して分解させます。
ファクター化: 各複雑な質問を、より小さな「知覚ファクター（Perception Factors）」と「推論ファクター（Reasoning Factors）」に分解します。
- 例: 「2019-2023 年のエネルギー成長率と公共サービス成長率の絶対差は？」という質問を、「エネルギー成長率の特定（知覚）」、「公共サービス成長率の特定（知覚）」、「両者の絶対差の計算（推論）」という 3 つのファクターに分解。
出力: 各ファクターにはカテゴリ名（例：Calculation, Counting）と、対応するサブ質問（中間回答を含む）が紐付けられます。これにより、ファクターのプール（ $F$ ）が構築されます。

3.2. 質問生成のためのファクター再構成 (Re-composition)

プロセス: 構築されたファクタープールからランダムにサブセットを抽出し、新しいラベルなし画像（例：新しいチャートや Web スクリーンショット）と組み合わせて、新規の質問を生成します。
合成: 抽出されたファクター（サブ質問）を再構成し、一貫性のある複雑な全体質問を作成します。
特徴:
- 生成されたデータは、全体質問 - 回答ペアだけでなく、各ファクターに対応するサブ質問と中間回答も併せて生成されます。
- チャートなどの構造化データでは、メタデータ（元のデータテーブルなど）を活用して回答の精度を向上させます。
- これにより、ラベルなし画像のみから、多様な推論タイプを持つ大規模な合成データセットを構築できます。

3.3. 強化学習に基づく微調整 (RL-based Fine-tuning)

アルゴリズム: 生成されたデータを用いて、事前学習済み MLLM をGroup Relative Policy Optimization (GRPO) で微調整します。
報酬設計: 従来の最終回答の正誤だけでなく、ファクターレベルの中間推論ステップの正誤を評価する**プロセス報酬（Process Rewards）**を導入します。
- StandardRM: 最終回答の正誤のみを評価。
- ProcessRM-sum: 最終回答の正誤と、サブ質問の正答率の合計を評価。
- ProcessRM-max: 最終回答の正誤を優先しつつ、中間推論が正しい場合に報酬を付与する方式。
理論的洞察: 著者らは、サブ質問の正答率がノイズを含む場合、単純な合計報酬（sum）はポリシーの順序を保存しない可能性があると指摘し、ProcessRM-max がポリシーの順序を保存し、より安定した学習をもたらすことを理論的・実験的に証明しました。

4. 実験結果

実験は、チャート推論（ChartQAPro, MMC-Bench）と Web ページ推論（VisualWebBench）の 2 つの領域で行われました。ベースモデルには Qwen2.5-VL-7B を使用しました。

4.1. チャート推論 (ChartQAPro)

性能向上: COGS を適用したモデルは、ベースモデル（47.36%）および既存のデータ合成手法、専門特化モデルを大きく上回り、52.02% の精度を達成しました。
複雑な推論への効果: 推論ステップ数が多い質問や、構成性（Compositional）の高い質問において、特に大きな性能向上が見られました（例：Count 推論で +4.25%、Extrapolation で +7.62%）。
データ混合の一般化: 異なるデータセット（ChartQAPro + MMC）を混合して学習させた場合、ファクターレベルで混合する手法（Factor-level mixture）が、単にデータを混ぜる手法（Data-level mixture）よりも優れ、ドメイン間の転移学習を促進しました。

4.2. Web ページ推論 (VisualWebBench)

汎用性: チャート領域だけでなく、Web ページの GUI 理解タスクでも同様の手法が有効であることを示しました。
結果: COGS 適用モデルは 88.04% の精度を達成し、オープンソースのベースモデルや専門特化モデル（UiX-Qwen2 など）を上回りました。

4.3. 消融実験 (Ablation Study)

報酬モデル: ProcessRM-max が最も性能を向上させ、ProcessRM-sum は逆に性能を低下させる場合があることを確認しました（理論的予測と一致）。
シードデータ量: シード質問の量が増えるにつれて性能が向上し、33% のシードデータでも大幅な改善が見られました。

5. 主要な貢献

COGS フレームワークの提案: 少量のシード質問から、ファクター分解と再構成を通じて大規模な合成推論データを生成する新しいデータ効率型フレームワーク。
プロセス報酬の導入: 中間推論ステップを評価するファクターレベルの報酬設計と、その理論的妥当性（ポリシー順序の保存）の証明。
一般化能力の証明: 単一のデータセットへの過学習ではなく、複数のドメインにわたる転移可能な推論能力を獲得できることを実証。
広範な適用性: チャートから Web UI まで、異なる人工的画像ドメインでの有効性を示した。

6. 意義と将来展望

意義: 人手による注釈が困難な領域において、MLLM の推論能力を飛躍的に向上させるためのスケーラブルな解決策を提供しました。特に、推論の「構成性」を明示的に利用し、中間ステップを学習させるアプローチは、モデルのブラックボックス化を避け、信頼性の高い推論を可能にします。
将来展望:
- 単一画像から長文脈の視覚的ドキュメント理解への拡張。
- 事前学習段階への統合や、探索アルゴリズムとの組み合わせによるさらなる推論能力の向上。
- チャートコード編集や Web エージェント応用など、ダウンストリームタスクへの転移性の調査。

本論文は、データ不足というボトルネックを打破し、MLLM の推論能力を構造的に向上させるための重要なステップを示しています。

Composition-Grounded Data Synthesis for Visual Reasoning