ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

本論文は、言語と視覚を補完的に活用する「思考の連鎖」を学習させることで、視覚タスクにおいて大幅な性能向上と未習の視覚操作能力などの創発的知能を実現する統合モデル「ThinkMorph」を提案しています。

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

ThinkMorph:絵と言葉で「一緒に考える」AI の新時代

この論文は、**「ThinkMorph(シンクモルプ)」**という新しい AI モデルについて紹介しています。

これまでの AI は、難しい問題を解くとき、主に「言葉(テキスト)」だけで頭を悩ませていました。でも、人間が迷路を解いたり、パズルを組んだりするときは、言葉だけでなく**「指でなぞったり、紙に落書きしたり」するものですよね。ThinkMorph は、まさにこの「言葉と絵(画像)を交互に使いながら、一緒に考える」**という人間の能力を AI に身につけさせた画期的なモデルです。

以下に、この論文の核心をわかりやすく解説します。


1. 従来の AI との違い:なぜ「絵を描く」必要があるの?

  • 従来の AI(言葉だけ):
    迷路の問題が出ると、「ここは壁だ、ここは道だ」と言葉だけで説明しようとして、方向感覚を失って迷子になります。「言葉で説明する」ことと「空間を把握する」ことは、実は別物だからです。
  • ThinkMorph(言葉+絵):
    ThinkMorph は、**「言葉で考えたら、一度絵を描いて確認する。そして、描いた絵を見て、また言葉で考える」**というサイクルを回します。
    • 例え話: 料理をするとき、レシピ(言葉)だけを見て「多分こうなるかな?」と想像するのではなく、実際に包丁で野菜を切ったり(絵)、鍋に入れて様子を見たり(絵)しながら、味見をして「もう少し塩が欲しいな」と考える(言葉)ようなものです。

2. ThinkMorph のすごいところ:3 つの「魔法」

このモデルを訓練したところ、人間が教えていないのに、AI 自身が進化して**3 つの驚くべき能力(創発的な性質)**を身につけました。

① 見たことのない「絵の操作」ができるようになる

  • 何ができる?
    訓練データにはなかったような操作を、自分で考え出して行います。
    • ズームイン: 小さな文字や色の違いがわからないとき、自分で「拡大鏡」をかけて詳しく見る。
    • インペインティング(修復): 欠けた部分を自分で補って、全体像を想像する。
    • 動きの予測: 「この人が走ったら、次にどこにいるかな?」と、未来の姿を絵に描いて考える。
  • 例え話: 子供が初めて「はさみ」を使わされたとき、紙を切るだけでなく、それを折ったり、貼り付けたりと、新しい遊び方を見つけ出すようなものです。

② 状況に合わせて「思考モード」を自動で切り替える

  • 何ができる?
    難しい問題なら「絵を描いて考える(インタリーブ型)」を使い、簡単な問題なら「言葉だけで考える(テキスト型)」に切り替えます。
    • 例え話: 重い荷物を運ぶときは「台車(絵)」を使いますが、軽い手紙を届けるなら「足(言葉)」だけで十分です。ThinkMorph は、問題の難しさを瞬時に見極め、「今は台車が必要か、それとも足だけでいいか」を自分で判断して使い分けます。これにより、無駄な計算を省き、効率よく正解にたどり着きます。

③ 試行錯誤を繰り返すことで、さらに賢くなる

  • 何ができる?
    一度の回答だけでなく、複数の「考え方のパターン(絵と言葉の組み合わせ)」を同時に試すことで、正解を見つけやすくなります。
    • 例え話: 宝探しをするとき、1 人で行くのではなく、複数のチームに分かれて「北側」「南側」「東側」など、いろんな方向から探させるようなものです。ThinkMorph は、言葉と絵を混ぜ合わせた「いろんな探しかた」を同時に試すことで、他の AI には見つけられない正解を見つけ出します。

3. 具体的な成果:どんな問題が解けるようになった?

ThinkMorph は、以下の分野で劇的な性能向上を見せました。

  • パズル(ジグソー): バラバラになった画像のピースを、言葉で「この角は曲がっている」と分析しつつ、実際に絵を並べ替えて確認することで、正解率を大幅に向上させました。
  • 迷路(ナビゲーション): 壁と穴がある迷路で、スタートからゴールまで進む道筋を、赤い矢印で絵に描きながら解くことで、ほぼ 100% の正解率を達成しました(従来の AI はほぼ 0% でした)。
  • グラフの読み取り: 複雑なグラフから必要なデータを見つけ出す際、重要な部分を赤い枠で囲んで強調し、そこから値を読み取ることで、正確に回答します。

4. なぜこれが重要なのか?

この研究は、**「AI が単に答えを出すだけでなく、人間のように『考えながら手を動かす』プロセスを身につけることができる」**ことを示しました。

  • 従来の AI: 答えを暗記しているか、言葉だけで推測しているだけ。
  • ThinkMorph: 問題に対して「描いて、考えて、描いて、考えて」という能動的な探求を行います。

これは、AI がより複雑で現実的な問題(自動運転の判断、医療画像の診断、複雑な設計など)に対処するための、新しい道筋を示しています。

まとめ

ThinkMorph は、「言葉」と「絵」を仲良くさせて、一緒に頭を働かせる AIです。
まるで、**「頭の中でシミュレーションしながら、紙に落書きして考えを深める」**という人間の最高の思考法を、AI が自然に習得してしまったようなものです。これにより、AI は単なる「検索エンジン」から、「一緒に問題を解決してくれるパートナー」へと進化しようとしています。