DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

本文提出了 DragFlow 框架,通过引入基于区域的仿射变换监督、集成个性化适配器并利用多模态大语言模型消除歧义,首次成功将 FLUX 等 DiT 模型的强大生成先验应用于拖拽编辑任务,显著提升了编辑效果并确立了新的最先进水平。

Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DragFlow 的新工具,它能让人们像“拖拽”物体一样轻松、自然地编辑图片。

为了让你更容易理解,我们可以把图片编辑想象成在一张画着复杂风景的油画上移动物体

1. 以前的痛点:为什么以前的“拖拽”总是把画弄坏?

以前的拖拽工具(基于旧模型 Stable Diffusion)就像是一个不太熟练的学徒画家

  • 问题:当你让他把画里的“猫”从左边拖到右边时,他虽然能把猫移过去,但往往会把猫的脸拉扁、把背景的天空扯破,或者让猫看起来像融化的蜡像。
  • 原因:旧模型对世界的理解不够深(就像学徒只背了死板的公式,不懂光影和结构)。当他试图把猫“挪”到新位置时,他不知道如何保持猫原本的立体感和背景的完整性,导致画面出现奇怪的扭曲。

2. 新工具的核心:换了一个“大师级”的画家

这篇论文发现,现在有一种更强大的新模型(叫 FLUX,基于 DiT 架构),它就像一位拥有上帝视角的大师画家

  • 优势:这位大师对光影、结构和物体形态的理解非常深刻,只要给他正确的指令,他就能画出极其逼真的效果。
  • 挑战:但是,以前的“拖拽”指令(只告诉大师“把猫耳朵尖尖移到那个点”)太简单、太模糊了。大师虽然能力强,但如果你只给他一个模糊的点,他也会因为信息不足而画错,或者因为指令太细碎而不知所措。

3. DragFlow 的三大绝招:如何指挥大师?

为了解决这个问题,作者设计了 DragFlow,它相当于给这位大师画家配备了一套全新的指挥系统,包含三个关键创新:

绝招一:从“指指点点”变成“区域搬运” (Region-Based Supervision)

  • 旧方法:就像你只告诉大师“把猫耳朵尖尖移到那个点”。因为猫耳朵尖尖只是一个点,大师很难判断整个耳朵甚至猫头该怎么动,容易把猫头扭歪。
  • DragFlow:它不再盯着一个点,而是圈出一整块区域(比如整个猫头)。它告诉大师:“把这块区域整体平移/旋转/变形到新位置。”
  • 比喻:这就像你不再指挥大师去“移动一颗沙粒”,而是让他“移动整个沙堡”。因为大师对“沙堡”这个整体结构的理解更深刻,所以他移动时能完美保持沙堡的形状,不会散架。

绝招二:给背景穿上“防弹衣” (Hard Constraints)

  • 问题:在移动物体时,大师可能会不小心把背景(比如远处的树或墙)也一起“拖”变形了。
  • DragFlow:它给背景区域穿上了一层坚硬的“防弹衣”。在优化过程中,无论怎么移动猫,这层“防弹衣”都死死锁住背景,确保背景纹丝不动,只有被圈选的区域在动。
  • 比喻:就像你在移动桌子时,用胶带把地板上的地毯死死粘住,这样桌子挪走了,地毯也不会被带跑。

绝招三:给大师配个“记忆助手” (Adapter-Enhanced Inversion)

  • 问题:有时候大师虽然画得好,但容易“失忆”。比如把猫移到右边后,猫的脸可能变得不像原来的猫了(变成了另一只猫)。这是因为新模型在“回忆”原图时容易跑偏。
  • DragFlow:它给大师配了一个专业的“记忆助手”(预训练的适配器,如 IP-Adapter)。这个助手手里拿着原图的特征,时刻提醒大师:“嘿,别忘了这只猫原本长什么样!”
  • 比喻:就像在搬家时,有个专门的管家拿着原主人的照片,时刻监督搬运工:“这个花瓶必须保持原样,不能换错!”

4. 额外的小帮手:AI 翻译官 (MLLM)

有时候用户指令很模糊,比如只说“把那个东西移一下”。

  • DragFlow 还接入了一个多模态大语言模型(MLLM),它就像一个聪明的翻译官
  • 当你画个圈说“移一下”时,翻译官会帮你分析:“哦,用户是想把这只手旋转一下,还是拉长一下?”它会生成更精确的指令给大师画家,避免画错。

总结

DragFlow 的核心思想就是:

  1. 换脑子:利用更强大的新模型(FLUX)作为基础。
  2. 换指令:不再用模糊的“点”去指挥,而是用清晰的“区域”去引导。
  3. 加保护:用硬性约束保护背景,用记忆助手保护物体特征。

结果:现在的拖拽编辑,就像是用魔法一样,你可以把照片里的物体随意移动、旋转、变形,而画面依然清晰、自然,没有任何奇怪的扭曲或变形。这就像是从“笨拙的学徒”升级到了“拥有完美辅助的顶级大师”。