DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DLEBench 的新工具，它的核心任务是给“图片编辑 AI"进行一场“显微镜下的视力测试”。

为了让你更容易理解，我们可以把现在的 AI 图片编辑模型想象成一位**“全能画家”**。

1. 现状：画家擅长画大场面，却看不清小细节

过去，我们测试这位“全能画家”时，通常是让他做这种任务：

“把天空从蓝色变成橙色。”（大动作）
“把桌子上的苹果换成梨。”（目标很大）

这些任务，画家们做得都不错。但是，论文的作者发现，当任务变得非常精细时，画家们就“翻车”了。比如：

“把那个只有指甲盖大小的红色围巾改成黄色。”
“把远处那个小得像个像素点的蜘蛛换成狗。”

问题出在哪？
现在的 AI 就像是一个近视眼画家。让他改大房子，他没问题；但让他改一个小纽扣，他要么根本找不到纽扣在哪（定位失败），要么把整件衣服都改错了（改过头了）。

2. 新工具：DLEBench（深度观察编辑基准）

为了解决这个问题，作者们造了一个专门的“考场”，叫 DLEBench。

考什么？ 专门考那些**“小目标”**。在这个考场的 1889 道题里，所有需要修改的目标（比如围巾、文字、小虫子）都只占图片面积的 1% 到 10%。这就像是在一张大海报里，让你只修改其中一颗米粒。
怎么出题？ 他们从现有的“看图说话”题库里，把那些问“这个小红点是什么颜色”的问题，巧妙地转化成了“把这个小红点变成蓝色”的编辑指令。
怎么批改？ 这是最精彩的部分。

3. 批改规则：拒绝“大概”，只要“精准”

以前给 AI 打分，就像老师看作文，可能会说：“嗯，改得差不多，给个 80 分吧。”这种模糊的打分对“小目标”编辑很不公平。

DLEBench 引入了两套**“双模式阅卷系统”，就像给阅卷老师配了“放大镜”和“标准答案”**：

模式一：工具驱动模式（Tool-driven）—— 给 AI 配个“放大镜”

普通的 AI 阅卷老师（大语言模型）视力不好，看不清细节。

做法： 让阅卷老师调用外部工具。比如，先让工具把图片里那个“小纽扣”的位置框出来，然后放大，再让阅卷老师看放大后的细节。
比喻： 就像医生看 X 光片，不直接看，而是先调高对比度、放大病灶区域，再下诊断。

模式二：神谕引导模式（Oracle-guided）—— 直接给“标准答案”

为了彻底排除干扰，人类先手动把那个“小纽扣”的准确位置标好（画个框）。

做法： 阅卷时，直接把图片里除了“小纽扣”以外的地方涂白，只让 AI 盯着那个被框出来的小区域看。
比喻： 就像考试时，直接把题目中不相关的干扰项全部划掉，只让你做核心那道题，防止你被周围的噪音带偏。

4. 评分标准：像侦探一样找茬

他们制定了非常严格的“扣分表”，不再说“改得不好”，而是具体指出是哪种错：

定位失败 (Localization Failure)： 你改的地方根本不是我要改的那个东西。（比如：我要改围巾，你改了帽子）。
动作错误 (Wrong Action)： 你找对地方了，但做错了事。（比如：我要把红色变黄色，你把它变绿了）。
过度修改 (Over Modification)： 你改对了颜色，但把原本不该动的纹理、形状也改坏了。（比如：把围巾变黄了，但把围巾的流苏也变没了）。
完美执行 (Flawless Execution)： 只有这一项是满分。

5. 测试结果：现状很严峻

作者用这个新考场测试了 10 个目前最火的 AI 模型（包括 Google 的 Gemini 和 OpenAI 的 GPT 系列）。

结果： 即使是目前最强的“全能画家”，在面对“小目标”时，表现也惨不忍睹。很多模型甚至完全找不到目标，或者把整张图都改乱了。
发现： 有些开源模型（免费公开的）在特定任务上甚至超过了昂贵的闭源模型，说明在这个细分领域，大家其实都还在“摸黑走路”。

总结

这篇论文就像是在说：

“现在的 AI 图片编辑工具，就像是一个只会画大泼墨山水，却不会画工笔花鸟的画家。我们造了这个DLEBench，就是逼着它们戴上显微镜，去练习那些精细入微的修改。如果不解决这个‘看不清小东西’的问题，AI 就无法真正帮人类完成高质量的图片精修工作。”

一句话概括： 这是一个专门用来测试 AI 能不能在图片里“精准地修改小东西”的新标准，并且发现现在的 AI 在这方面还非常笨拙，需要专门训练。

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

1. 现状：画家擅长画大场面，却看不清小细节

2. 新工具：DLEBench（深度观察编辑基准）

3. 批改规则：拒绝“大概”，只要“精准”

模式一：工具驱动模式（Tool-driven）—— 给 AI 配个“放大镜”

模式二：神谕引导模式（Oracle-guided）—— 直接给“标准答案”

4. 评分标准：像侦探一样找茬

5. 测试结果：现状很严峻

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Benchmark Construction)

2.2 评估协议 (Evaluation Protocol)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

1. 现状：画家擅长画大场面，却看不清小细节

2. 新工具：DLEBench（深度观察编辑基准）

3. 批改规则：拒绝“大概”，只要“精准”

模式一：工具驱动模式（Tool-driven）—— 给 AI 配个“放大镜”

模式二：神谕引导模式（Oracle-guided）—— 直接给“标准答案”

4. 评分标准：像侦探一样找茬

5. 测试结果：现状很严峻

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建 (Benchmark Construction)

2.2 评估协议 (Evaluation Protocol)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems