CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

本文提出了 CoLoGen 框架,通过渐进式学习课程和核心模块“渐进式表征编织(PRW)”,有效解决了统一图像生成中概念理解与空间定位表征冲突的问题,实现了在编辑、可控生成及定制化生成等任务上的卓越性能。

YuXin Song, Yu Lu, Haoyuan Sun, Huanjin Yao, Fanglong Liu, Yifan Sun, Haocheng Feng, Hang Zhou, Jingdong Wang

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CoLoGen 的新 AI 模型,它的目标是解决一个让很多图像生成 AI 头疼的难题:如何既懂“画什么”(概念),又懂“画在哪”(位置)?

为了让你轻松理解,我们可以把 AI 画图画想象成一位正在学习全能绘画的艺术家

1. 核心难题:左脑和右脑的打架

以前的 AI 模型在尝试“一专多能”时,往往会遇到一个尴尬的局面:

  • 画概念(Concept):比如让它画“一只可爱的猫”,它需要理解“猫”是什么样子,毛茸茸的、有胡须(这是语义理解,像艺术家的右脑)。
  • 画位置(Localization):比如让它“把猫画在桌子左上角”或者“把猫画在红色的盒子里”,它需要精确知道空间坐标和边界(这是空间定位,像艺术家的左脑)。

问题出在哪?
以前的方法就像强迫这位艺术家同时用左脑和右脑去处理所有任务。结果就是:

  • 想画得精准时,猫的样子就变模糊了(为了位置牺牲了概念)。
  • 想画得生动时,猫就跑到桌子外面去了(为了概念牺牲了位置)。
    这就叫**“概念 - 定位冲突”**。

2. CoLoGen 的解决方案:分阶段特训 + 智能调度员

CoLoGen 没有试图一步登天,而是设计了一套**“循序渐进的魔鬼训练营”(Progressive Staged Training),并配备了一位“智能调度员”**(PRW 模块)。

第一阶段:先练基本功(内源预训练)

  • 练“概念”:先给艺术家看几百万张图,让它专门练习“把缺失的部分补全”(比如把猫身上的毛补全)。这时候,它只关心“猫长什么样”,不关心位置。
  • 练“定位”:接着,让它专门练习“指哪打哪”(比如根据文字“指一下那只猫”,它就在图上框出猫的位置)。这时候,它只关心“猫在哪里”,不关心猫长得多可爱。
  • 比喻:这就像先让艺术家单独练素描(练形状),再单独练透视(练空间),把两样基本功都练扎实,互不干扰。

第二阶段:学习控制(条件注入)

  • 现在艺术家基本功好了,开始学习各种“外部指令”。比如给它一张线稿,让它照着画;或者给它一张深度图,让它画出立体感。
  • 比喻:这就像艺术家开始学习如何根据客户的草图或建筑图纸来作画,把之前的基本功应用到具体的控制条件下。

第三阶段:终极融合(指令对齐)

  • 最后,让它处理最复杂的任务:比如“把背景里的树换成花,但要把猫留在原地”。这需要它同时理解“换花”的概念和“留猫”的位置。
  • 比喻:这时候,艺术家终于可以把“画什么”和“画在哪”完美结合起来,听懂复杂的指令并精准执行。

3. 核心技术:智能调度员(PRW 模块)

在这个训练过程中,最巧妙的部分是 PRW(渐进式表示编织) 模块。你可以把它想象成一位经验丰富的“老练调度员”(Veteran Gate)

  • 专家库:模型里有很多“小专家”(Experts)。有的专门负责“画概念”,有的专门负责“定位置”。
  • 动态路由:当用户发出指令时,这位调度员会立刻判断:“这个任务需要谁?”
    • 如果是“画一只猫”,调度员就激活“概念专家”。
    • 如果是“把猫放在角落”,调度员就激活“定位专家”。
    • 如果是“把猫画在角落且要可爱”,调度员就同时激活两者,并完美地编织(Weaving)在一起。
  • 好处:它不会让两个专家互相打架,而是根据任务需求,动态地分配精力,确保既画得准,又画得像。

4. 成果如何?

经过这种“分阶段特训 + 智能调度”,CoLoGen 表现得非常出色:

  • 指令编辑:你说“把太阳换成月亮”,它能精准地把太阳抹掉,换上月亮,而且不破坏周围的云彩。
  • 可控生成:给你一张线稿,它能画出符合线条结构的精美图片。
  • 定制生成:给它一张你宠物的照片,它能画出你宠物在火星上、在海底等各种场景,而且宠物长得一模一样。

总结

CoLoGen 就像是一位懂得“因材施教”和“灵活调度”的超级画家
它不再试图用一种死板的方法解决所有问题,而是先分门别类地练好“画意”和“画位”两种基本功,最后再用一位聪明的调度员把它们灵活组合

这种方法不仅让 AI 画得更准、更听话,也为未来开发更强大、更通用的图像生成模型提供了一条清晰的新路径。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →