Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

既存の評価基準の限界を克服するため、構成と推論の両方の能力を包括的かつ複雑に評価する新しいベンチマーク「T2I-CoReBench」を提案し、その実験により現在のテキストから画像生成モデルは高密度な構成や暗黙の推論において依然として大きな課題を抱えていることを明らかにしました。

Ouxiang Li, Yuan Wang, Xinting Hu, Huijuan Huang, Rui Chen, Jiarong Ou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Fuli Feng

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「絵を描くのは簡単、でも物語を語るにはまだ遠い」

最新の AI 画像生成モデルの真の実力を測る新基準「T2I-COREBENCH」の解説

この論文は、AI が「言葉から絵を描く」技術(テキスト生成画像モデル)が、実は**「絵の具を並べるのは上手いけれど、物語の筋書きを理解するのは苦手」**という現状を、新しいテストで突き止めたという報告です。

まるで、**「絵を描くのは得意な新人画家」「脚本家としての能力が未熟な新人」**の関係を例え話で説明しましょう。


1. この研究が解決しようとしたこと:「絵の上手さ」と「頭の良さ」のテスト

これまでの AI 画像生成のテストは、主に**「絵の上手さ(構成力)」**だけを測っていました。
例えば、「赤いリンゴと青い空を描いて」と言われたら、きれいに描けるかどうかです。

しかし、現実の私たちはもっと複雑なことを頼みます。

  • 「リンゴを握りつぶしたら、ジュースが飛び散る様子を描いて」(因果関係
  • 「部屋に猫が 3 匹いて、そのうち 2 匹は寝ていて、1 匹は窓の外を見ていて、でも窓は開いていない(だから外は寒そう)」(論理的整合性

これまでのテストは、こうした**「絵の中に隠された物語や論理」を評価するものが不足していました。そこで、この研究チームは「T2I-COREBENCH」**という、非常にハードルが高い新しいテストを作成しました。

2. テストの内容:12 種類の「難問」

このテストは、AI の能力を**「絵を描く力(構成)」「考える力(推論)」**の 2 つに分け、さらにそれぞれを 6 つずつの細かなジャンル(計 12 種類)に分解して評価します。

🎨 絵を描く力(構成力)のテスト

これは**「画家としての技術」**を測る部分です。

  • 多様な登場人物(Multi-Instance): 「教室に 35 人の生徒、黒板、机、椅子、植物…」と大量の要素を一度に描けるか?
  • 細かな特徴(Multi-Attribute): 「真鍮(しんちゅう)と銅でできた、歯車が見える、蒸気を出す、錆びていないドラゴン」のように、一つの物体に多くの属性を正しく結びつけられるか?
  • 文字の描写(Text Rendering): 「パッケージの箱に、特定の位置に特定の文字を正確に書く」ことができるか?(AI は以前、文字を書くのが苦手でした)

🧠 考える力(推論力)のテスト

これは**「脚本家としての力」**を測る部分です。ここが今回の発見の核心です。

  • 論理的なパズル(Logical Reasoning): 「A は B の左、B は C より大きい…じゃあ A と C の関係は?」という条件から、正しい配置を描けるか?
  • 因果関係(Behavioral Reasoning): 「 domino(ドミノ)が倒れた瞬間」を描くとき、倒れた後の状態(倒れているドミノ、転がった玉)を正しく描けるか?
  • 仮定の話(Hypothetical Reasoning): 「もしこの世界の車のタイヤが『四角』だったら」という非現実的なルールを、すべての車に適用して描けるか?
  • 常識(Commonsense Reasoning): 「動物病院で犬の診察」と言われたとき、獣医が「聴診器」を持っているか、犬が「診察台」に乗っているかという、言葉にはない常識を補って描けるか?

3. 実験結果:「絵は描けるが、物語は描けない」

研究チームは、世界中の 38 種類の最新の AI モデル(OpenAI の GPT-4o や Google の Gemini、オープンソースの FLUX など)にこのテストを解かせました。

その結果、驚くべき事実が明らかになりました。

  • 🎨 絵を描く力(構成):着実に向上中
    最新の AI は、複雑な要素(多くの物体や文字)を一度に描く力が格段に上がっています。特に「Nano Banana Pro」や「Seedream 4.5」などの最新モデルは、絵の要素をほぼ完璧に配置できます。

    例え話: 新人画家が、注文された「赤いリンゴ 5 個、青い空、白い雲」を、完璧な配置で描けるようになりました。

  • 🧠 考える力(推論):まだ大苦戦中
    しかし、**「物語の筋書き」**になると、AI はつまずきます。

    • 「ドミノが倒れる」と言われても、倒れた後の「玉が転がっている」様子を描けない。
    • 「タイヤが四角い」と言われても、車の他の部分(ハンドルやボディ)まで四角く歪めて描けない。
    • 「嘘をつくロボット」という条件を、他のロボットと区別して描けない。

    最も優秀なモデルでも、推論能力のスコアは構成能力に比べて大幅に低く、**「絵を描くのは得意だが、その絵が意味する『物語』を理解して描くのは、まだ無理」**という結論に至りました。

4. なぜ「プロンプトを書き換える」だけではダメなのか?

研究チームは、「AI が難しい指示を理解できないなら、人間が指示を詳しく書き直してあげればいいのでは?」と考え、指示を詳しくした「書き換え版プロンプト」でテストしました。

  • 効果があった場合: 単純な論理パズル(「A は B の左」など)では、指示を詳しくすると正解率が上がりました。
  • 効果がない場合: 「タイヤが四角い」という非現実的なルールや、「因果関係(ドミノが倒れる)」のような物理的な変化では、指示を詳しくしても AI は失敗しました。

なぜか?
AI は「言葉の意味」を処理する力はありますが、「言葉と画像の結びつき」自体に根本的な壁があるからです。

例え話: 監督が俳優に「悲しそうな顔で泣いて」と言っても、俳優が「悲しみ」という感情を内面から理解できていなければ、ただの「涙を流す演技」にしかなりません。AI は「四角いタイヤ」という言葉を理解できても、それが物理的にどう変形するかという「イメージ」を頭の中でシミュレーションする力がまだ不足しているのです。

5. 結論と未来への展望

この論文は、AI 画像生成の未来について重要なメッセージを送っています。

  • 現状: AI は「絵を描く(Set the stage)」ことは上手になりました。背景や物体を配置する力は人間に迫りつつあります。
  • 課題: しかし、「物語を演出する(Direct the play)」ことはまだ遠い未来です。複雑な論理や常識、因果関係を理解して絵を描く能力が、最大のボトルネック(弱点)となっています。

今後の方向性:
これからの AI 開発は、単に「もっと大きなモデル」を作るだけでなく、**「思考(推論)のプロセスを絵を描く前に挟む」**ような仕組みが必要だと示唆しています。まるで、画家がキャンバスに筆を置く前に、まず頭の中で「物語のシナリオ」を練るようなプロセスを AI に持たせることが、次の進化の鍵となるでしょう。


一言でまとめると:
「今の AI は、**『絵の具を並べるのは天才』ですが、『その絵に込められた物語を理解するのは、まだ小学生レベル』**です。次世代の AI は、この『物語力』を身につける必要があります。」