DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI が画像を編集する能力をテストする新しい「試験問題集（DLEBench）」と、その採点方法について紹介しています。

一言で言うと、**「AI は大きな物体なら上手に加工できるけど、小さな物体（例えば、遠くにある小さな傘や、人の首元の小さなスカーフ）をいじると、なぜか失敗してしまう」**という問題を発見し、それを厳しく評価するための新しいルールを作ったという話です。

以下に、難しい専門用語を避け、日常の例え話を使って解説します。

1. 問題：AI は「小さなもの」が見えない？

これまでの画像編集 AI は、「空を青くして」「車を消して」といった大きな指示にはよく答えてきました。しかし、**「その人の首に巻かれた『小さな赤いスカーフ』を黄色に変えて」**といった、画面の 1% 以下しかない小さな部分を指定されると、AI は大混乱します。

例え話：
Imagine 料理人（AI）に「大きな鍋の具材を炒めて」と言われたら上手にできます。でも、「鍋の隅に落ちているたった一粒の黒胡椒だけを取り除いて」と言われると、AI は「胡椒ってどこにあるの？」と探して、結局鍋全体をひっくり返したり、違うものを消したりしてしまいます。
現在の AI は、この「小さな胡椒（小さな物体）」を見つけるのが苦手なのです。

2. 解決策：新しい試験問題集「DLEBench」の登場

そこで研究者たちは、AI の「小さなものいじり」の能力を測るための新しい試験問題集**「DLEBench（ディープルック・エディット・ベンチ）」**を作りました。

どんな問題？
- 1,889 問の画像問題を用意。
- すべて「画面の 1%〜10% しか占めていない小さな対象物」を編集する問題です。
- 「スカーフの色を変える」「文字を消す」「小さな虫を足す」など、7 種類の指示があります。
- 対象が隠れていたり、複数の小さなものが混ざっていたりする「難易度の高い問題」も含まれています。
どうやって問題を作った？
手作業で作ると大変なので、AI に「視覚クイズ（例：『この女性のスカーフの色は何色？』）」を「画像編集の指示（例：『スカーフの色を赤から緑に変えて』）」に変換させる仕組みを作りました。まるで、**「クイズの答えをヒントにして、新しい料理のレシピを作る」**ようなプロセスです。

3. 採点方法：AI 裁判官だけではダメだった

これまで、画像の出来栄えを評価するのは「AI 裁判官（大規模言語モデル）」がやってきました。しかし、DLEBench のような「小さな変化」を評価するには、AI 裁判官の目が甘すぎることがわかりました。

AI 裁判官の弱点：
「スカーフの色が変わったか？」という小さな変化を、AI 裁判官は「背景のノイズ」と勘違いして見逃してしまったり、逆に「全体が変わった」と誤解したりします。
新しい採点ルール（2 つのモード）：
研究者たちは、より正確に採点するための**「2 つのモード」**を導入しました。
1. 道具を使うモード（Tool-driven Mode）：
  AI 裁判官に、**「拡大鏡（ズーム）」や「差分チェック器（どこが変わったか探す道具）」**を使わせて評価させます。
  - 例え話： 裁判官が肉眼で見るのではなく、**「顕微鏡」や「比較用ルーペ」**を使って、小さな傷や色の変化を徹底的にチェックさせるイメージです。
2. 神様（オラクル）に導かれるモード（Oracle-guided Mode）：
  人間が事前に「ここが編集すべき場所（スカーフ）」と正確に印（枠）をつけておき、AI 裁判官には**「その枠の中だけを見て、色が変わったか？」**と評価させます。
  - 例え話： 裁判官に「探す必要はないよ、ここが狙い目だよ」と教えてから、「その部分だけ上手に加工できたか？」を評価させるイメージです。

4. 結果：AI はまだ「小さなもの」に弱い

この新しい試験と採点方法で、10 種類の有名な画像編集 AI をテストしました。

結果：
- 多くの AI は、**「小さな物体を見つけること（位置特定）」**で失敗しました。スカーフではなく、隣の人の服を変えてしまったり、スカーフ自体を消してしまったりします。
- 見つけたとしても、**「やりすぎ（Over Modification）」**になることが多かったです。「色だけ変えて」と言われたのに、形まで変えてしまったり、周囲の背景まで壊してしまったりします。
- 有料の最新 AI（Gemini-3-Pro など）でも、この小さな編集には苦戦しており、「小さなものいじり」は AI にとってまだ大きな壁であることがわかりました。

まとめ

この論文は、**「AI 画像編集は、大きな変化なら得意だけど、小さな細かい作業は苦手だ」という事実を白日の下に晒し、それを正しく評価するための「新しい試験問題集」と「顕微鏡のような採点ルール」**を提案したものです。

これにより、今後の AI は「小さなスカーフの色も正確に変えられる」ように、より精密に改良されていくでしょう。まるで、**「大まかな料理は得意な料理人が、今後は『一粒の胡椒』まで丁寧に扱えるようになる」**ことを目指すための第一歩と言えます。

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

1. 問題：AI は「小さなもの」が見えない？

2. 解決策：新しい試験問題集「DLEBench」の登場

3. 採点方法：AI 裁判官だけではダメだった

4. 結果：AI はまだ「小さなもの」に弱い

まとめ

DLEBench: 指示ベース画像編集モデルにおける小規模物体編集能力の評価

1. 問題定義 (Problem)

2. 提案手法とベンチマーク構築 (Methodology)

2.1 DLEBench の構築

2.2 評価プロトコル

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

1. 問題：AI は「小さなもの」が見えない？

2. 解決策：新しい試験問題集「DLEBench」の登場

3. 採点方法：AI 裁判官だけではダメだった

4. 結果：AI はまだ「小さなもの」に弱い

まとめ

DLEBench: 指示ベース画像編集モデルにおける小規模物体編集能力の評価

1. 問題定義 (Problem)

2. 提案手法とベンチマーク構築 (Methodology)

2.1 DLEBench の構築

2.2 評価プロトコル

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems