DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

本文提出了一种名为 DivCon 的“分而治之”方法,通过将布局预测分解为推理与规划、将图像生成按难易程度分步合成,有效解决了现有文生图模型在复杂数值与空间关系下的可扩展性难题,并在 HRS 和 NSR-1K 基准测试中显著提升了多物体生成的质量与准确性。

Yuhao Jia, Wenhan Tan

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DivCon(Divide and Conquer,即“分而治之”)的新方法,旨在解决当前 AI 画图(文生图)技术中一个最大的痛点:AI 很难听懂复杂的指令,比如“画 5 个苹果和 3 个香蕉,苹果在左边,香蕉在右边”

以前的 AI 要么画错数量,要么把位置搞混。DivCon 就像给 AI 请了一位**“超级项目经理”**,把复杂的画画任务拆解成几个简单的步骤,让 AI 一步步搞定。

下面我用几个生活中的比喻来为你通俗地解释这项技术:

1. 核心问题:AI 是个“急性子”的画家

以前的 AI 画图(比如 Stable Diffusion),就像是一个很有才华但有点急躁的画家

  • 如果你让他画“一只猫”,他画得很棒。
  • 但如果你让他画“左边一只猫,右边一只狗,中间还有 5 个苹果”,他往往会顾此失彼。他可能只画了一只猫,或者把苹果画成了梨,甚至把猫和狗画在了一起。
  • 这是因为 AI 试图一口气把整幅画“喷”出来,脑子一下子转不过那么多复杂的逻辑(数量、位置)。

2. 解决方案:DivCon 的“两步走”策略

DivCon 把这个“一口吃成胖子”的过程,拆成了两个聪明的阶段:

第一阶段:先画“草图”(布局预测)

比喻:从“乱写乱画”变成“填字游戏”

以前,让 AI 直接根据文字画草图(布局),就像让一个小学生直接写出一篇完美的作文,他可能会写错字数或逻辑。
DivCon 把任务拆成了两步:

  1. 先做“阅读理解”和“数数”:让 AI 先别急着画,而是像做数学题一样,先把文字里的数量(几个?)和位置(在哪?)提取出来。
    • 比如: 看到“两个遥控器”,AI 先确认“数量=2";看到“在植物旁边”,AI 确认“位置=旁边”。
  2. 再做“填格子”:有了确定的数字和位置后,AI 再像玩填字游戏一样,把这些物体填进画布里。
    • 效果: 即使是用比较“轻量级”(便宜、小)的 AI 模型,只要按这个步骤走,也能画出和那些“超级大模型”(如 GPT-4)一样精准的草图。这就像让一个普通学生,只要按步骤解题,也能考出满分。

第二阶段:分批次“精修”(图像生成)

比喻:先画“容易的”,再补“难的”

有了草图后,AI 开始正式上色画画。以前的方法是一次性把所有东西都画完,结果往往是:简单的东西画好了,复杂的东西(比如细节多的物体或位置奇怪的物体)就糊了。

DivCon 采用了**“先易后难”**的策略:

  1. 第一轮:先画“简单户”。AI 先快速把整幅图画一遍。
  2. 检查员上岗:系统会自动检查,看看哪些物体画得像(比如“苹果”画得很像),哪些画得不像(比如“香蕉”画歪了,或者“狗”画丢了)。
  3. 第二轮:只修补“困难户”。系统把那些画得好的部分锁住(保护起来),只让 AI 集中精力去重新画那些画得不好、很难画的部分。
    • 效果: 这就像装修房子,先刷好容易刷的墙面,最后专门拿小刷子去修补那些难搞的角落,保证每个细节都完美。

3. 这项技术带来了什么好处?

  • 省钱又高效:以前为了画好复杂的图,必须用那种超级昂贵、巨大的 AI 模型(像 GPT-4)。现在,DivCon 让小模型也能干大模型的活,大大降低了计算成本。
  • 指哪打哪:无论是让你画"5 个杯子”还是“猫在狗和椅子中间”,AI 都能精准地数对数量、摆对位置,不再乱画。
  • 质量更高:因为分步处理,画出来的图不仅数量对、位置对,而且细节更清晰,看起来更真实。

总结

DivCon 的核心思想就是:别试图一口吃成个胖子。

它把“让 AI 画复杂的图”这个难题,拆解成了**“先数数定位”“先易后难修补”**两个小任务。就像盖房子,先打好地基(布局),再一层层盖,遇到难盖的楼层就专门加固。结果就是:用更少的资源,造出了更结实、更漂亮的房子(图像)。