InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

本文提出了 InterCoG 框架,通过引入包含空间关系推理的文本与视觉定位交替的链式推理机制,并辅以专用训练模块及 GroundEdit-45K 数据集,显著提升了复杂多实体场景下图像编辑的空间精确度。

Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 InterCoG 的新方法,它的核心目标是让 AI 在修改图片时,能像人类一样“想清楚再动手”,特别是在处理那些人物众多、场景复杂的图片时,不再“指鹿为马”或“误伤无辜”。

为了让你更容易理解,我们可以把图片编辑想象成给一位忙碌的画家下达修改指令

1. 以前的痛点:画家总是“听错”或“看错”

想象一下,你给画家一张有很多人的照片,然后说:“把最左边那个穿红衣服、手里拿着气球、正在笑的人的帽子换成蓝色的。”

  • 以前的 AI(传统模型):就像是一个没耐心、只懂字面意思的学徒
    • 它可能只听到了“红衣服”,结果把旁边另一个穿红衣服但没拿气球的人的帽子改了。
    • 或者它根本分不清谁在笑,把那个正在哭的人的帽子也改了。
    • 在复杂场景下(比如一群人挤在一起),它经常找不到“最左边”是谁,导致改错了对象,或者把整张图都改乱了。

2. InterCoG 的解决方案:让画家先“思考”再“动笔”

InterCoG 的核心创新在于引入了**“交错式定位推理链”(Interleaved Chain-of-Grounding)。这就像给画家配备了一位超级助理**,让画家在动笔前,必须经历三个步骤的“思考 - 确认”循环:

第一步:文字推理(“我想找谁?”)

  • 比喻:助理先不看图,而是先在脑海里描述场景
  • 做法:AI 会先读你的指令,然后在文字里推理:“哦,用户要找的是‘最左边’的人,而且他手里有气球,还在笑。我要在脑海里把这几个特征拼起来,确定目标是谁。”
  • 作用:这解决了“指代不明”的问题。AI 不再瞎猜,而是先通过逻辑分析锁定目标身份。

第二步:视觉定位(“他在哪?”)

  • 比喻:助理拿着红框和半透明遮罩,直接在图片上圈出目标。
  • 做法:基于刚才的文字推理,AI 会在图片上画出一个红色的框(Bounding Box)和一个半透明的遮罩(Mask),精准地圈出那个“拿气球的红衣服人”。
  • 作用:这就像给画家画了一个精准的“施工区域”。它把抽象的文字描述变成了具体的像素位置,确保 AI 知道“动刀”的具体范围,不会改到旁边的人。

第三步:重写指令并执行(“怎么改?”)

  • 比喻:助理拿着圈好的图,把指令翻译成画家能听懂的“施工图纸”。
  • 做法:AI 会根据刚才圈定的位置,重新生成一个更精确的指令(例如:“把这个特定框里的人的帽子变蓝”),然后才开始生成最终的修改图片。
  • 作用:确保最终的效果既符合你的意图,又不会破坏图片的其他部分。

3. 为什么这很重要?(核心优势)

  • 像侦探一样思考:以前的 AI 是“看到什么改什么”,InterCoG 是“先推理出是谁,再圈出在哪,最后再改”。这种**“想 - 看 - 改”的循环,让它能处理非常复杂的指令,比如“把站在树后面、只露出半张脸**的那个小孩的衣服变绿”。
  • 精准度极高:论文中展示,在有很多人的场景下,InterCoG 能精准地只修改目标,而不会误伤旁边的路人。
  • 可解释性:因为它中间有“圈出目标”这一步,我们能看到 AI 到底是怎么理解你的指令的。如果改错了,我们也能知道是它“想错了”还是“圈错了”。

4. 他们做了什么额外的工作?

为了让这个“超级助理”更聪明,作者还做了两件事:

  1. 造了一个新题库(GroundEdit-45K):他们收集了 4.5 万张复杂的图片,并且人工标注了详细的“思考过程”和“圈选位置”。这就像给画家找了一堆高难度的练习题,让他学会如何精准定位。
  2. 加了两个“特训模块”
    • 重建监督:强迫 AI 在思考时,必须能准确画出目标的轮廓(就像考它“你能画出刚才圈的是谁吗?”)。
    • 推理对齐:确保 AI 脑子里想的(文字推理)和它实际圈出来的(视觉定位)是一致的,防止它“嘴上说找 A,手里却圈了 B"。

总结

InterCoG 就像是给 AI 装上了**“逻辑大脑”“精准眼睛”**。

以前 AI 改图像是**“蒙眼猜谜”,经常改错地方;现在它变成了“先思考、再定位、后动手”专业工匠**。无论图片里有多少人、多少物体,只要你能用语言描述清楚逻辑关系,它就能精准地找到那个特定的目标,并只修改它,而不会打扰到其他人。

这对于未来我们想要用 AI 进行精细化的图片编辑(比如修图、做广告、甚至电影后期)来说,是一个巨大的进步。