Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

本文提出了 Draw-In-Mind (DIM) 框架,通过构建包含长图文对和思维链设计蓝图的大规模数据集,将图像编辑中的“设计”职责明确转移至理解模块,从而在仅 4.6B 参数量的统一多模态模型中实现了超越更大规模模型的 SOTA 图像编辑性能。

Ziyun Zeng, David Junhao Zhang, Wei Li, Mike Zheng Shou

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 "Draw-In-Mind" (DIM) 的新方法,旨在解决当前 AI 图像编辑模型的一个核心痛点:为什么现在的 AI 很难听懂复杂的修图指令?

为了让你轻松理解,我们可以把 AI 修图的过程想象成**“一位画家在画室里工作”**。

1. 以前的模式:让画家“边想边画”,累坏了

在传统的 AI 修图模型中,只有一个“全能型”的大模型。当你给它一张照片并说:“把背景里的树换成森林,再把左边的人换成猫”时,这个模型必须同时做三件极其困难的事:

  1. 理解指令:听懂你要改什么。
  2. 设计蓝图:在脑子里构思树怎么变森林、人怎么变猫,还要考虑光影、位置是否合理。
  3. 动手绘画:真正把这些变化画出来。

比喻:这就像让一位画家同时兼任设计师施工队。他不仅要构思怎么改,还要立刻动手画。结果往往是:他要么想得太简单,改得乱七八糟;要么因为脑子要同时处理太多事,导致画出来的东西很生硬,甚至把原本不该改的地方也改坏了。

2. 论文的核心发现:分工不均

作者发现,这种“全能模式”效率很低。因为目前的 AI 架构中:

  • 理解模块(负责看和听):通常训练得非常聪明,读过很多书,擅长逻辑推理。
  • 生成模块(负责画):虽然画得好,但被强行塞进了“设计师”的活,导致它不堪重负。

这就好比让一个精通理论的教授(理解模块)只负责翻译你的话,而让一个刚毕业的实习生(生成模块)去负责整个建筑的设计和施工。这显然是不合理的。

3. 新的解决方案:Draw-In-Mind (DIM)

作者提出了一个聪明的新策略:“先想后画,分工明确”

他们把过程拆分成两步,就像**“建筑师”和“泥瓦匠”**的完美配合:

  • 第一步:建筑师(理解模块)画图纸
    在真正动手修改图片之前,先让一个强大的 AI(比如 GPT-4o 或 Qwen)充当“外部设计师”。它不直接画图,而是先写一份详细的“施工蓝图”(Chain-of-Thought,思维链)。

    • 蓝图里写什么? “首先,我看到背景有一排木栅栏和后面的人群。我要把栅栏和人群移除。移除后,背景应该只剩下草地和远处的树,光线要自然过渡……"
    • 这份蓝图把复杂的逻辑推理、空间规划都提前想清楚了。
  • 第二步:泥瓦匠(生成模块)按图施工
    生成图片的 AI 拿到这份详细的“蓝图”后,就不需要再动脑筋去“想”怎么改了,它只需要专注于“画”

    • 比喻:就像泥瓦匠拿着详细的施工图纸,只需要精准地把砖砌好,不需要担心“这面墙该不该砌”这种设计问题。

4. 他们做了什么?(数据集 DIM)

为了让 AI 学会这种“先想后画”的模式,作者造了两个巨大的“训练教材”(数据集):

  1. DIM-T2I:1400 万张“长指令”图片。就像给“建筑师”读了一堆复杂的说明书,让它学会如何理解长句子和复杂逻辑。
  2. DIM-Edit:23 万张“带思维链”的修图案例。每一张图都配上了详细的“施工蓝图”,告诉 AI 在修图前应该思考什么、规划什么。

5. 结果如何?

  • 小模型,大能量:作者训练出的模型(DIM-4.6B-Edit)总参数量只有 46 亿(在 AI 界算很小的),但它的修图效果却打败了很多参数量是它 5 倍甚至 10 倍的大模型(如 Step1X-Edit, UniWorld-V1)。
  • 更聪明:它能听懂“把第二颗樱桃去掉”(需要数数)或者“把马换成猫,但猫要按比例变小”(需要常识推理)这种复杂指令,而以前的模型往往会忽略这些细节。
  • 更快速:因为分工明确,推理速度也更快。

总结

这篇论文的核心思想就是:不要让负责“画画”的 AI 去操心“设计”的事。

通过引入一个“外部设计师”先画好思维蓝图,再让“画家”去执行,我们成功地把理解生成这两个任务重新平衡了。这不仅让 AI 修图更精准、更智能,还证明了:有时候,把任务拆解清楚,比单纯堆砌算力(让模型变得更大)更有效。

这就好比,与其雇一个累得半死的全能天才,不如雇一个聪明的设计师和一个熟练的工匠,配合起来干得更好、更快。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →