CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ 是一种无需训练的认知结构化框架,通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制,在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能,同时显著提升了视觉一致性和任务可解释性。

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CoEditor++ 的新工具,它能让电脑像“有智慧的画家”一样,听懂人类的自然语言指令来修改图片。

为了让你更容易理解,我们可以把现在的图片编辑技术比作**“只会听命令的机器人”,而 CoEditor++ 则像是一位“经验丰富的老练编辑”**。

1. 现在的痛点:机器人太“死板”

以前的图片编辑模型(比如让 AI 把图里的猫换成狗),往往像是一个只会机械执行指令的初级学徒

  • 场景:你告诉它:“把人行道上的黑色物体移走。”
  • 学徒的反应:它可能真的把那个物体移走了,但顺手把旁边的路牌、甚至路面的纹理都涂改了,或者它根本不知道哪个是“黑色物体”,把路人的衣服也涂黑了。
  • 原因:它缺乏**“思考”**的过程。它直接跳到“怎么画”这一步,忽略了“到底要改哪里”和“为什么要这么改”的逻辑推理。

2. CoEditor++ 的秘诀:像人一样“分步思考”

CoEditor++ 的核心创新在于,它不再试图用一个巨大的模型“一口吞”下所有任务,而是模仿人类大脑的**“双系统思维”(System 1 直觉 + System 2 逻辑),把修图过程拆解成了两个“认知阶段”**:

第一阶段:定位认知(LCP)—— “先搞清楚改哪里”

这就好比一位**“侦探”**。

  • 任务:在动手之前,先仔细看图和指令,找出**“到底要动哪一块”**。
  • 比喻:如果你说“把那个红色的苹果换成梨”,侦探不会直接去切水果,而是先拿着放大镜确认:“哦,是左边那个红苹果,不是右边那个,也不是背景里的红气球。”
  • 作用:它生成一个精准的“蒙版”(Mask),就像给要修改的地方贴上一张精准的便利贴,告诉后面的工具:“只动这里,其他地方千万别碰!”

第二阶段:修改认知(MCP)—— “再想好怎么改”

这就好比一位**“创意总监”**。

  • 任务:在确定了要改哪里之后,思考**“具体怎么改才好看、才合理”**。
  • 比喻:如果指令是“让这只猫看起来更优雅”,创意总监不会随便画一只猫,而是会思考:“优雅通常意味着线条流畅、眼神柔和,也许要把它的姿势调整一下,背景色调也要配合。”
  • 作用:它把模糊的指令(如“更优雅”)翻译成具体的绘画指令,指导绘图工具进行创作。

关键大招:反思与自我选择(Reflective Self-selection)

这是 CoEditor++ 最聪明的地方。它不像普通人那样“想一次就动手”,而是像**“反复推敲的作家”**。

  • 过程:它会先快速生成5 个不同的修改方案(比如 5 种不同姿势的猫)。
  • 反思:然后,它会自己扮演“评委”,把这 5 个方案拿出来对比:“方案 A 太假了,方案 B 背景乱了,方案 C 最符合‘优雅’的要求。”
  • 结果:最后只把方案 C 呈现给你。这大大减少了“翻车”的概率。

3. 为什么它这么厉害?

  • 不需要重新训练:它就像是用现有的乐高积木(开源的模型组件)搭出了一个聪明的新结构,不需要像以前那样收集海量数据去“死记硬背”怎么修图。
  • 像人一样思考:实验证明,它的成功不是因为用了更强大的“大脑”(模型),而是因为它**“思考的方式”**更科学。哪怕用普通的模型,只要加上这种“先定位、再规划、后反思”的流程,效果就能吊打那些虽然模型很大但只会“无脑生成”的闭源模型(如 GPT-4o 等在某些视觉一致性上)。
  • 不乱改:在连续修改多张图片时,它不会像其他模型那样,改着改着就把原图变得面目全非(比如把桌子改没了,或者颜色越来越黑)。它能保持原图的“灵魂”不变,只动该动的地方。

4. 总结

CoEditor++ 就像给 AI 装上了一套“思维脚手架”

以前的 AI 修图是:“听到指令 -> 直接乱画”(容易画错)。
现在的 CoEditor++ 是:“听到指令 -> 思考改哪(侦探) -> 思考怎么改(总监) -> 自我检查(评委) -> 最终输出”

这种方法让 AI 修图变得更精准、更听话、更像一个有逻辑的人类编辑,而且因为它完全由开源组件搭建,谁都可以拿去用,不用担心被“黑盒”技术卡脖子。