InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

画像編集モデルが複雑な論理的推論や中間段階の経路を扱う能力の限界を明らかにするため、本論文は「InEdit-Bench」という初の評価ベンチマークを提案し、その評価結果から既存モデルに広範な課題が存在することを示しています。

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang, Zenghui Xiong, Yifan Ding, Aoxiang Ping, Xiang Li, Tong Guo, Yao Mao

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を編集する能力」**について、これまでの常識を覆す新しいテストと発見を紹介するものです。

タイトルは『InEdit-Bench(インエディット・ベンチ)』。
これを**「料理のレシピ作り」**に例えて、わかりやすく説明しましょう。

1. これまでの AI は「魔法のボタン」だった

これまでの画像生成 AI は、「最初の写真(生肉)」と「最後の写真(焼けたステーキ)」だけを見せられ、「焼いて!」と頼むと、いきなりステーキを完成させるという魔法使いのような存在でした。

  • 得意なこと: 最終的な結果が綺麗かどうか。
  • 苦手なこと: 「どうやって焼いたのか?」「まず火を入れ、次に塩を振り、最後に焦げ目をつける」という**「過程(レシピ)」**を論理的に説明したり、描いたりすること。

AI は「結果」は出せても、「途中のステップ」を論理的に繋げることが苦手で、いきなりステーキが完成していたり、肉がいきなり消えたりする「魔法」のような編集しかできませんでした。

2. 新しいテスト「InEdit-Bench」の正体

この論文では、AI に**「魔法ではなく、料理人の手順」**を問う新しいテスト「InEdit-Bench」を作りました。

  • テストの内容:
    「生肉(スタート)」と「ステーキ(ゴール)」を見せ、**「その間、どのような手順で焼いていったのか?その『中間のステップ』をすべて画像で並べて描いてください」**と頼みます。
    • 例:「肉を焼く」「塩を振る」「焦げ目をつける」など、論理的なステップが順番に描かれているか?
    • 例:「雪が溶けて水になる」過程で、氷がいきなり水になるのではなく、徐々に溶けていく様子が描かれているか?

このテストには、**「状態の変化」「動的な動き」「時間の経過」「科学の法則」**という 4 つの大きな分野があり、全部で 16 種類の難しい課題があります。

3. 評価基準:ただ「綺麗」じゃダメ!

これまでのテストは「最終画像が綺麗か」だけを見ていましたが、今回は**「過程の論理性」**を厳しくチェックします。

  • 論理的なつながり: ステップ 1 からステップ 2 へ移る時、自然な変化か?(いきなり背景が変わってないか?)
  • 科学の法則: 物理や化学の法則に従っているか?(例:水が上から下に落ちるはずなのに、逆さまになっていないか?)
  • 手順の正しさ: 指定された「手順(レシピ)」通りに進んでいるか?

これを評価するために、AI 自身(GPT-4o など)を「審査員」にして、人間が作ったチェックリストに基づいて採点しました。

4. 驚きの結果:AI は「途中」が苦手だった!

14 種類の最新の AI モデルをこのテストに挑戦させたところ、結果は悲惨でした。

  • トップクラスでも 16.75% しか正解なし:
    世界最高峰の AI(GPT-Image-1 など)でも、100 点満点中 16.75 点しか取れませんでした。つまり、「途中のプロセス」を正しく描ける AI は、まだほとんど存在しないということです。
  • よくある失敗:
    • ステップが飛躍している(いきなりゴールに到達)。
    • ステップが重複している(同じ画像を 3 回並べる)。
    • 物理法則を無視している(重力に逆らって物が浮く)。
    • 手順の指示を無視している(「上から塗って」と言われたのに、下から塗っている)。

5. この研究の意義:AI に「思考」を教える

この研究は、**「AI に『結果』だけでなく、『プロセス(思考の道筋)』を理解させる必要がある」**と警鐘を鳴らしています。

  • 今の AI: 「答え」を当てるのが得意な「天才的な暗記屋」。
  • 目指すべき AI: 「なぜそうなるのか」「どうすればいいか」を段階的に考える「論理的な思考者」。

この新しいテスト「InEdit-Bench」は、AI が単なる画像生成ツールから、**「複雑な作業を論理的に計画・実行できる知的なパートナー」**に進化するための、重要な道しるべとなります。

まとめ

一言で言えば、**「AI に『魔法』ではなく『料理のレシピ(手順)』を描かせるテストを作ったら、今の AI はまだ料理人になれなかった」**という話です。

これから AI をもっと賢くするには、「途中の過程(ロジック)」を正しく理解・生成できる能力を育てる必要があります。この論文は、そのための新しい基準と、現状の課題を明確に示した重要な一歩です。