Order Is Not Layout: Order-to-Space Bias in Image Generation

该论文揭示了现代图像生成模型中存在的“顺序到空间偏差”(OTS)现象,即实体提及顺序会错误地决定空间布局,并通过提出 OTS-Bench 基准测试证实了该偏差的普遍性及其数据驱动本质,同时展示了通过针对性微调或早期干预策略可有效缓解该问题。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang, Fei Ding, Pei Li, Wenxuan Wang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个现代 AI 绘画模型中非常有趣但有点“狡猾”的毛病。我们可以把它想象成 AI 在画画时有一个**“先入为主”的坏习惯**。

1. 核心问题:AI 把“说话的顺序”当成了“画的位置”

想象一下,你让一个画家(AI)画一幅画,你口头描述说:"一只猫一只狗在草地上。”

  • 正常的人类画家会想:“哦,猫和狗都在草地上,至于谁在左边、谁在右边?你可以随便放,或者看构图怎么好看怎么放。”
  • 这篇论文发现的 AI 画家却会想:“既然你先说了‘猫’,那猫肯定在左边;后说了‘狗’,那狗肯定在右边。”

即使你并没有说“猫在左边”,AI 也会固执地把第一个提到的东西画在左边,第二个画在右边。论文把这个现象称为**“顺序即空间偏见”(Order-to-Space Bias, OTS)**。

2. 这个毛病有多严重?(两个生动的例子)

例子一:时钟上的数字(逻辑错误)

想象你让 AI 画一个时钟,提示词是:"数字 3数字 9在钟面上。”

  • 现实世界:3 应该在右边(下午 3 点),9 应该在左边(晚上 9 点),这是固定的。
  • AI 的画:因为提示词里"3"先出现,"9"后出现,AI 就自作聪明地把3 画在左边,9 画在右边
  • 结果:画出了一个完全错误的、倒过来的时钟。AI 为了遵守“说话顺序”,牺牲了“常识逻辑”。

例子二:老师指学生(角色错位)

你给 AI 一张图,上面有一个老师和一个学生,然后指令说:"老师正在指着学生。”

  • 如果图里老师本来在右边:AI 可能会因为提示词里“老师”排在前面,就强行把“指”这个动作安在左边那个学生身上,或者把老师画到左边去。
  • 结果:原本应该是“老师指学生”,AI 画成了“学生指老师”,或者动作完全搞反了。

3. 为什么 AI 会犯这种错?(罪魁祸首是“大数据”)

论文作者像侦探一样去调查了 AI 的“教材”(也就是它训练用的海量网络图片)。他们发现,在人类写的图片描述(标题)中,有一个巨大的统计规律

当人们描述一张图时,如果图里有两个东西,人们习惯先说左边的,再说右边的

比如,一张图里左边是猫,右边是狗,人类写的标题通常是“一只猫和一只狗”。
AI 学得太好了!它发现:“哦!原来先提到的东西 = 左边后提到的东西 = 右边"。于是,它把这个“人类写标题的习惯”误以为是“画画的铁律”,不管实际情况如何,它都照搬这个规则。

比喻:这就好比 AI 学了一个蹩脚的翻译官,它以为“先说出口的词”必须对应“左手边的东西”,完全忽略了真正的语境。

4. 怎么测试和解决?

测试工具:OTS-BENCH

作者造了一个专门的“考试卷”(OTS-BENCH)。

  • 考题设计:故意把提示词里的顺序颠倒。比如,现实是“左灯右灯”,但提示词故意写成“右灯和左灯”。
  • 看 AI 反应:如果 AI 还是把“右灯”画在左边,说明它中了“顺序偏见”的毒;如果它能纠正过来,画对位置,说明它很聪明。
  • 结果:测试发现,几乎所有主流的 AI 绘画模型(如 DALL-E 3, Midjourney, Stable Diffusion 等)都有这个毛病,而且非常普遍。

解决方法:给 AI“洗洗脑”

作者发现,这个偏见主要是在 AI刚开始构思画面布局(也就是“打草稿”)的时候形成的。一旦布局定好了,后面再改提示词顺序也没用了。

于是他们想出了两个招:

  1. 数据增强(左右对调):在训练时,把同一张图水平翻转一下,但标题不变。
    • 比喻:就像教学生认字,你给他看一张“猫在左,狗在右”的图,告诉他这是“猫和狗”;然后马上给他看一张“狗在左,猫在右”的图,还告诉他这也是“猫和狗”。这样 AI 就明白了:顺序不代表位置,打破它的死脑筋。
  2. 延迟提示(先画轮廓,再填细节):让 AI 先用一个模糊的提示词(比如“两个人在公园”)把大概的左右位置定下来,等布局定好了,再告诉它具体谁是谁。
    • 比喻:就像盖房子,先打好地基和框架(不管谁住哪间),最后再贴门牌号。这样 AI 就不会因为门牌号(提示词顺序)而把房子盖歪了。

总结

这篇论文告诉我们:
现在的 AI 画画虽然很厉害,但它有个**“死脑筋”,太依赖你说话的顺序**,而忽略了真实的逻辑和常识

  • 以前:我们以为 AI 不懂画,是因为它技术不行。
  • 现在:我们发现 AI 懂画,但它太听话了,听话到把“说话顺序”当成了“空间规则”。

作者通过简单的“左右翻转训练”和“分步提示”,成功治好了 AI 的这个毛病,让它在保持画得好看的同时,能更聪明地理解谁该在左边,谁该在右边。这对于未来让 AI 更准确地理解复杂指令非常重要。