DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

本文提出了首个专注于评估指令驱动图像编辑模型小目标编辑能力的基准 DLEBench,通过构建包含 1889 个样本的测试集及双模式评估协议,揭示了现有模型在处理小尺度物体编辑时的显著性能差距。

Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DLEBench 的新工具,它的核心任务是给“图片编辑 AI"进行一场“显微镜下的视力测试”

为了让你更容易理解,我们可以把现在的 AI 图片编辑模型想象成一位**“全能画家”**。

1. 现状:画家擅长画大场面,却看不清小细节

过去,我们测试这位“全能画家”时,通常是让他做这种任务:

  • “把天空从蓝色变成橙色。”(大动作)
  • “把桌子上的苹果换成梨。”(目标很大)

这些任务,画家们做得都不错。但是,论文的作者发现,当任务变得非常精细时,画家们就“翻车”了。比如:

  • “把那个只有指甲盖大小的红色围巾改成黄色。”
  • “把远处那个小得像个像素点的蜘蛛换成狗。”

问题出在哪?
现在的 AI 就像是一个近视眼画家。让他改大房子,他没问题;但让他改一个小纽扣,他要么根本找不到纽扣在哪(定位失败),要么把整件衣服都改错了(改过头了)。

2. 新工具:DLEBench(深度观察编辑基准)

为了解决这个问题,作者们造了一个专门的“考场”,叫 DLEBench

  • 考什么? 专门考那些**“小目标”**。在这个考场的 1889 道题里,所有需要修改的目标(比如围巾、文字、小虫子)都只占图片面积的 1% 到 10%。这就像是在一张大海报里,让你只修改其中一颗米粒。
  • 怎么出题? 他们从现有的“看图说话”题库里,把那些问“这个小红点是什么颜色”的问题,巧妙地转化成了“把这个小红点变成蓝色”的编辑指令。
  • 怎么批改? 这是最精彩的部分。

3. 批改规则:拒绝“大概”,只要“精准”

以前给 AI 打分,就像老师看作文,可能会说:“嗯,改得差不多,给个 80 分吧。”这种模糊的打分对“小目标”编辑很不公平。

DLEBench 引入了两套**“双模式阅卷系统”,就像给阅卷老师配了“放大镜”“标准答案”**:

模式一:工具驱动模式(Tool-driven)—— 给 AI 配个“放大镜”

普通的 AI 阅卷老师(大语言模型)视力不好,看不清细节。

  • 做法: 让阅卷老师调用外部工具。比如,先让工具把图片里那个“小纽扣”的位置框出来,然后放大,再让阅卷老师看放大后的细节。
  • 比喻: 就像医生看 X 光片,不直接看,而是先调高对比度、放大病灶区域,再下诊断。

模式二:神谕引导模式(Oracle-guided)—— 直接给“标准答案”

为了彻底排除干扰,人类先手动把那个“小纽扣”的准确位置标好(画个框)。

  • 做法: 阅卷时,直接把图片里除了“小纽扣”以外的地方涂白,只让 AI 盯着那个被框出来的小区域看。
  • 比喻: 就像考试时,直接把题目中不相关的干扰项全部划掉,只让你做核心那道题,防止你被周围的噪音带偏。

4. 评分标准:像侦探一样找茬

他们制定了非常严格的“扣分表”,不再说“改得不好”,而是具体指出是哪种错:

  1. 定位失败 (Localization Failure): 你改的地方根本不是我要改的那个东西。(比如:我要改围巾,你改了帽子)。
  2. 动作错误 (Wrong Action): 你找对地方了,但做错了事。(比如:我要把红色变黄色,你把它变绿了)。
  3. 过度修改 (Over Modification): 你改对了颜色,但把原本不该动的纹理、形状也改坏了。(比如:把围巾变黄了,但把围巾的流苏也变没了)。
  4. 完美执行 (Flawless Execution): 只有这一项是满分。

5. 测试结果:现状很严峻

作者用这个新考场测试了 10 个目前最火的 AI 模型(包括 Google 的 Gemini 和 OpenAI 的 GPT 系列)。

  • 结果: 即使是目前最强的“全能画家”,在面对“小目标”时,表现也惨不忍睹。很多模型甚至完全找不到目标,或者把整张图都改乱了。
  • 发现: 有些开源模型(免费公开的)在特定任务上甚至超过了昂贵的闭源模型,说明在这个细分领域,大家其实都还在“摸黑走路”。

总结

这篇论文就像是在说:

“现在的 AI 图片编辑工具,就像是一个只会画大泼墨山水,却不会画工笔花鸟的画家。我们造了这个DLEBench,就是逼着它们戴上显微镜,去练习那些精细入微的修改。如果不解决这个‘看不清小东西’的问题,AI 就无法真正帮人类完成高质量的图片精修工作。”

一句话概括: 这是一个专门用来测试 AI 能不能在图片里“精准地修改小东西”的新标准,并且发现现在的 AI 在这方面还非常笨拙,需要专门训练。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →