Composition-Grounded Data Synthesis for Visual Reasoning

この論文は、限られた種子質問を素因に分解・再構成することで合成データを生成し、強化学習を通じてチャートやウェブページなどの人工画像ドメインにおける多モーダル大規模言語モデルの推論能力を飛躍的に向上させる「COGS」というデータ効率型フレームワークを提案しています。

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が難しい推理(ロジック)を学ぶための、新しい効率的な勉強法」**を紹介しています。

タイトルは**「COGS(コグス)」**です。

🎨 全体像:AI の「料理教室」

まず、今の AI(マルチモーダル大規模言語モデル)は、写真やグラフを見て「何が見えているか」を答えるのは得意ですが、「なぜそうなるのか」「計算して答えを出せ」という推理や計算が苦手なことが多いです。

特に、グラフやウェブページのデータから答えを導き出すようなタスクでは、人間が一つ一つ「正解と解説」を書いたデータを集めるのが大変で、データが不足しています。

ここで登場するのがCOGSという仕組みです。これは、**「少量の『種(シード)』から、無限に『料理(問題と答え)』を生み出す魔法のキッチン」**のようなものです。


🧩 3 つのステップで AI を育てる

COGS は、大きく分けて 3 つのステップで AI を鍛え上げます。

1. 分解(デコンポジション):レシピの「基本動作」を抽出する

まず、人間が用意した「少し難しい問題(種)」を AI に見せます。
例えば、「2019 年のエネルギー成長率と公共サービス成長率の差は何?」という問題があるとします。

COGS はこの問題を**「レゴブロック」**のようにバラバラに分解します。

  • ブロック A(認識): グラフから「エネルギー成長率」の数値を見つける。
  • ブロック B(認識): グラフから「公共サービス成長率」の数値を見つける。
  • ブロック C(計算): A と B の数を引いて差を出す。

このように、複雑な問題を**「見る」「比べる」「計算する」といった小さな基本動作(ファクター)**に分解して、その「部品集」を作ります。

2. 再構成(リコンポジション):新しい料理を作る

次に、**「新しいグラフ(またはウェブページ)」**を用意します。
先ほど作った「部品集(ブロック A, B, C)」をランダムに組み合わせて、全く新しい問題を自動生成します。

  • 「新しいグラフの『A』と『B』の差は?」
  • 「新しいウェブページの『X』と『Y』を足して、さらに『Z』を引いたら?」

このとき、AI は「答え」だけでなく、**「その答えに至るまでの中間ステップ(サブ質問)」**も一緒に作ります。
まるで、料理教室で「卵を割る」「炒める」「塩を振る」という手順を一つ一つ教えてくれるようなものです。

3. 強化学習(フィードバック):正解だけでなく「過程」を褒める

最後に、AI にこの大量に作られた新しい問題で学習させます。
ここで重要なのが**「報酬(ご褒美)」の与え方**です。

  • 従来の方法: 最終的な答えが合っていれば「正解!」、違っていれば「不正解!」(結果だけを見る)。
  • COGS の方法: 最終的な答えだけでなく、**「中間のステップ(卵を割れたか?炒めすぎなかったか?)」**もチェックします。
    • 答えが合っていても、途中の計算が間違っていたら減点。
    • 答えが合ってなくても、途中の論理が正しければ加点。

このように、「過程(プロセス)」を評価して褒めることで、AI は「なぜその答えになるのか」という正しい思考の道筋を深く学ぶことができます。


📈 何がすごいのか?(実験結果)

この方法を実際に「グラフの読み取り」や「ウェブページの理解」で試したところ、素晴らしい結果が出ました。

  1. 難しい問題が得意になった:
    単純な「何が見えているか」だけでなく、「A と B を比べて、さらに C を計算して…」という多段階の推理が必要な問題で、劇的に性能が上がりました。
  2. 少量のデータで済む:
    最初に必要な「種(シード)」はごくわずかです。そこから AI が自分で大量の練習問題を作り、自らを鍛えることができます。
  3. 他の分野にも応用できる:
    グラフだけでなく、ウェブページの操作など、他の分野でも同じように効果がありました。

💡 まとめ

この論文が伝えているのは、**「AI に大量のデータを与えて暗記させるのではなく、少量の『種』から『思考の部品』を分解し、それを組み合わせて新しい問題を解く練習をさせることで、AI は本当に賢い『推理力』を手に入れることができる」**ということです。

まるで、子供に「足し算の答え」だけを丸暗記させるのではなく、「足し算の仕組み」を教えた上で、様々な応用問題を解かせることで、数学の天才に育てるようなイメージです。

この「COGS」という方法は、AI がより複雑なタスク(ドキュメントの編集や、ウェブ上の行動など)を自律的に行うための重要な一歩となるでしょう。