InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像を編集する能力」**について、これまでの常識を覆す新しいテストと発見を紹介するものです。

タイトルは『InEdit-Bench（インエディット・ベンチ）』。
これを**「料理のレシピ作り」**に例えて、わかりやすく説明しましょう。

1. これまでの AI は「魔法のボタン」だった

これまでの画像生成 AI は、「最初の写真（生肉）」と「最後の写真（焼けたステーキ）」だけを見せられ、「焼いて！」と頼むと、いきなりステーキを完成させるという魔法使いのような存在でした。

得意なこと: 最終的な結果が綺麗かどうか。
苦手なこと: 「どうやって焼いたのか？」「まず火を入れ、次に塩を振り、最後に焦げ目をつける」という**「過程（レシピ）」**を論理的に説明したり、描いたりすること。

AI は「結果」は出せても、「途中のステップ」を論理的に繋げることが苦手で、いきなりステーキが完成していたり、肉がいきなり消えたりする「魔法」のような編集しかできませんでした。

2. 新しいテスト「InEdit-Bench」の正体

この論文では、AI に**「魔法ではなく、料理人の手順」**を問う新しいテスト「InEdit-Bench」を作りました。

テストの内容:
「生肉（スタート）」と「ステーキ（ゴール）」を見せ、**「その間、どのような手順で焼いていったのか？その『中間のステップ』をすべて画像で並べて描いてください」**と頼みます。
- 例：「肉を焼く」「塩を振る」「焦げ目をつける」など、論理的なステップが順番に描かれているか？
- 例：「雪が溶けて水になる」過程で、氷がいきなり水になるのではなく、徐々に溶けていく様子が描かれているか？

このテストには、**「状態の変化」「動的な動き」「時間の経過」「科学の法則」**という 4 つの大きな分野があり、全部で 16 種類の難しい課題があります。

3. 評価基準：ただ「綺麗」じゃダメ！

これまでのテストは「最終画像が綺麗か」だけを見ていましたが、今回は**「過程の論理性」**を厳しくチェックします。

論理的なつながり: ステップ 1 からステップ 2 へ移る時、自然な変化か？（いきなり背景が変わってないか？）
科学の法則: 物理や化学の法則に従っているか？（例：水が上から下に落ちるはずなのに、逆さまになっていないか？）
手順の正しさ: 指定された「手順（レシピ）」通りに進んでいるか？

これを評価するために、AI 自身（GPT-4o など）を「審査員」にして、人間が作ったチェックリストに基づいて採点しました。

4. 驚きの結果：AI は「途中」が苦手だった！

14 種類の最新の AI モデルをこのテストに挑戦させたところ、結果は悲惨でした。

トップクラスでも 16.75% しか正解なし:
世界最高峰の AI（GPT-Image-1 など）でも、100 点満点中 16.75 点しか取れませんでした。つまり、「途中のプロセス」を正しく描ける AI は、まだほとんど存在しないということです。
よくある失敗:
- ステップが飛躍している（いきなりゴールに到達）。
- ステップが重複している（同じ画像を 3 回並べる）。
- 物理法則を無視している（重力に逆らって物が浮く）。
- 手順の指示を無視している（「上から塗って」と言われたのに、下から塗っている）。

5. この研究の意義：AI に「思考」を教える

この研究は、**「AI に『結果』だけでなく、『プロセス（思考の道筋）』を理解させる必要がある」**と警鐘を鳴らしています。

今の AI: 「答え」を当てるのが得意な「天才的な暗記屋」。
目指すべき AI: 「なぜそうなるのか」「どうすればいいか」を段階的に考える「論理的な思考者」。

この新しいテスト「InEdit-Bench」は、AI が単なる画像生成ツールから、**「複雑な作業を論理的に計画・実行できる知的なパートナー」**に進化するための、重要な道しるべとなります。

まとめ

一言で言えば、**「AI に『魔法』ではなく『料理のレシピ（手順）』を描かせるテストを作ったら、今の AI はまだ料理人になれなかった」**という話です。

これから AI をもっと賢くするには、「途中の過程（ロジック）」を正しく理解・生成できる能力を育てる必要があります。この論文は、そのための新しい基準と、現状の課題を明確に示した重要な一歩です。

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

1. これまでの AI は「魔法のボタン」だった

2. 新しいテスト「InEdit-Bench」の正体

3. 評価基準：ただ「綺麗」じゃダメ！

4. 驚きの結果：AI は「途中」が苦手だった！

5. この研究の意義：AI に「思考」を教える

まとめ

InEdit-Bench: 知的画像編集モデルのための中間論理経路のベンチマーク

技術サマリー（日本語）

1. 問題定義 (Problem)

2. 手法と提案 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と将来展望 (Significance)

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

1. これまでの AI は「魔法のボタン」だった

2. 新しいテスト「InEdit-Bench」の正体

3. 評価基準：ただ「綺麗」じゃダメ！

4. 驚きの結果：AI は「途中」が苦手だった！

5. この研究の意義：AI に「思考」を教える

まとめ

InEdit-Bench: 知的画像編集モデルのための中間論理経路のベンチマーク

技術サマリー（日本語）

1. 問題定義 (Problem)

2. 手法と提案 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と将来展望 (Significance)

関連論文

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach