CompBench: Benchmarking Complex Instruction-guided Image Editing

Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Yao Hu, Zihan Wang, Yuan

发布于 2026-03-24

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CompBench 的新项目，你可以把它想象成给“智能修图 AI"出的一道**“地狱级”期末考试**。

为了让你更容易理解，我们把整个故事拆解成几个生动的场景：

1. 现状：以前的考试太“简单”了

想象一下，现在的 AI 修图工具（比如 InstructPix2Pix 等）就像是在幼儿园里长大的孩子。

以前的考题（旧基准）： 老师只给简单的指令，比如“把这只狗变成猫”或者“把红色的苹果换成绿色的”。这些图片里通常只有寥寥几个物体，背景也很干净。
问题所在： 在幼儿园里考满分，不代表能去复杂的现实世界工作。现实生活中，我们要修图时，场景往往很乱：一张照片里有几十个人、很多遮挡物、复杂的透视关系，指令也是千奇百怪的，比如“把左边那只被狮子追得最远的斑马，和中间那只正在吃草的斑马交换位置，还要让它们的表情看起来更害怕”。
后果： 以前的 AI 在这些简单考题上得分很高，但一遇到这种复杂的“现实场景”，它们就晕头转向，要么修错了地方，要么把背景弄得一团糟。

2. 新方案：CompBench —— 真正的“实战演练场”

作者们觉得：“不行，得给 AI 换个环境，让它们真正学会在复杂的世界里干活。”于是，他们创建了 CompBench。

什么是 CompBench？
它不是一个简单的题库，而是一个精心设计的“高难度修图训练营”。
- 场景复杂： 这里的图片里塞满了各种物体，互相遮挡，就像早高峰的地铁站一样拥挤，而不是空旷的操场。
- 指令刁钻： 指令不再是“换颜色”，而是需要逻辑推理。比如：“把那个穿着蓝衣服、正看着左边斑马的男人，换成一个戴眼镜、看着右边男孩的蓝衣男人。”这需要 AI 理解空间关系、人物动作和隐含的逻辑。
- 任务多样： 它包含了 9 种高难度任务，比如“多轮对话修图”（你改一步，我再改一步）、“隐式推理”（你没明说，但 AI 得懂你的潜台词）、“视角变换”等。

3. 怎么造出来的？—— "AI 助手 + 人类专家”的联合创作

为了造出这么高质量的考题，作者没有偷懒，而是用了一套**“人机协作”**的流水线：

AI 先起草： 让强大的多模态大模型（MLLM）去分析图片，生成初步的修图指令。
人类来把关： 人类专家像严厉的编辑一样，检查这些指令和修图结果是否完美匹配。如果 AI 把背景弄花了，或者指令没听懂，就直接扔掉，重新来过。
拆解指令： 他们发明了一种“指令拆解法”，把复杂的指令像剥洋葱一样，拆成位置、外观、动作、物体四个维度，确保指令清晰无歧义。

4. 考试结果：AI 们“现原形”了

作者用 CompBench 测试了市面上最火的 15 种修图 AI 模型，结果非常有趣：

没有“全能冠军”： 没有哪个模型在所有题目上都拿第一。就像没有哪个学生能门门功课都考满分一样。
优等生浮出水面： Bagel、Qwen-Image-Edit 和 FLUX.1 Kontext 表现最好，它们更像是有经验的“老手”，能处理复杂的逻辑和空间关系。
短板暴露： 很多模型在多轮修图（改完一步再改一步）时，背景就开始崩坏；在需要物理常识（比如物体移动后的透视变化）时，它们经常产生“幻觉”，把物体画得扭曲变形。
核心发现： 那些表现好的模型，都有一个共同点——它们都内置了强大的“大脑”（多模态大语言模型 MLLM）。这说明，光会“画画”（生成图像）不够，还得会“思考”（理解复杂指令和逻辑）。

5. 总结与启示

这篇论文就像给 AI 修图领域敲了一记警钟：

以前的标准太低了： 我们不能再满足于 AI 能简单换换颜色，现实世界比那复杂得多。
未来的方向： 要让 AI 真正好用，必须让它们具备更强的推理能力（像人一样思考空间关系）和物理一致性（修图后物体不能违反物理规律）。

一句话总结：
CompBench 就是给 AI 修图工具发了一张**“高难度实景驾照”**，告诉它们：“别只在空地上练车了，真正的马路（复杂现实场景）在这里，考不过的，以后别想上路！”

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. 现状：以前的考试太“简单”了

2. 新方案：CompBench —— 真正的“实战演练场”

3. 怎么造出来的？—— "AI 助手 + 人类专家”的联合创作

4. 考试结果：AI 们“现原形”了

5. 总结与启示

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 数据构建框架：MLLM-人类协作 (MLLM-Human Collaborative Framework)

B. 指令解耦策略 (Instruction Decoupling Strategy)

C. 任务分类

D. 评估指标

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来方向 (Significance & Insights)

CompBench: Benchmarking Complex Instruction-guided Image Editing

1. 现状：以前的考试太“简单”了

2. 新方案：CompBench —— 真正的“实战演练场”

3. 怎么造出来的？—— "AI 助手 + 人类专家”的联合创作

4. 考试结果：AI 们“现原形”了

5. 总结与启示

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 数据构建框架：MLLM-人类协作 (MLLM-Human Collaborative Framework)

B. 指令解耦策略 (Instruction Decoupling Strategy)

C. 任务分类

D. 评估指标

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来方向 (Significance & Insights)

类似论文