Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment

本文提出了对比对象扩散对齐(CODA)方法,通过引入寄存器槽位吸收残差注意力并应用对比对齐损失,有效解决了现有基于扩散模型的物体中心学习中的槽位纠缠与对齐弱问题,显著提升了在复杂场景下的物体发现、属性预测及组合图像生成能力。

Bac Nguyen, Yuhta Takida, Naoki Murata, Chieh-Hsin Lai, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CODA 的新方法,旨在让计算机更聪明地“看”世界。为了让你轻松理解,我们可以把计算机处理图像的过程想象成在一个拥挤的派对上识别不同的人

🎭 核心问题:派对上的混乱

想象一下,你走进一个非常拥挤的派对(这就好比一张复杂的照片,里面有车、人、树、交通灯等)。

  • 旧方法(Slot Attention) 就像派对了几个“观察员”,他们的任务是给每个人贴标签。
    • 问题 1(纠缠不清): 有时候,一个观察员太忙了,他不仅记住了“穿红衣服的女士”,还顺便记住了她旁边的“狗”和“路灯”。结果,当你想单独把“女士”画出来时,画里却混进了狗和路灯。这就是论文里说的**“槽位纠缠” (Slot Entanglement)**。
    • 问题 2(指鹿为马): 有时候,观察员们会搞混。比如,把“女士”分成了三个观察员(过度分割),或者把“女士”和“狗”当成一个人(分割不足)。他们无法准确地把“标签”和“人”对应起来。

💡 解决方案:CODA 的两大绝招

为了解决这些混乱,作者给观察员团队加了两个新工具:“注册槽位” (Registers)“对比对齐” (Contrastive Alignment)

1. 注册槽位:派对的“垃圾桶”或“备用座位”

  • 比喻: 想象观察员们手里拿着一个“注意力篮子”。当他们在看派对时,有些东西(比如背景里的模糊墙壁、杂乱的噪音)既不属于“女士”,也不属于“狗”,但观察员们又不得不把注意力分给它们。
  • 旧方法: 观察员们被迫把这些杂乱的背景强行塞进“女士”或“狗”的篮子里,导致篮子内容混杂。
  • CODA 的做法: 我们给观察员团队增加了一些特殊的“空篮子”(注册槽位)。这些篮子不装任何具体的人或物,它们专门用来吸收那些没处放的、杂乱的背景注意力
  • 效果: 现在,“女士”的篮子里只装女士,“狗”的篮子里只装狗。那些杂乱的背景噪音都被“空篮子”吸走了。这样,每个观察员都能更专注、更清晰地描述一个独立的物体。

2. 对比对齐:严格的“找茬”游戏

  • 比喻: 以前,观察员只要能把所有人拼凑成一张完整的派对照片就算及格了。但这导致他们可能偷懒,只要整体像就行,不管局部对不对。
  • CODA 的做法: 我们引入了一个**“找茬”机制(对比损失)**。
    • 我们会故意把“女士”的标签贴到“狗”身上,或者把“女士”的标签和隔壁派对的人混在一起。
    • 然后问观察员:“嘿,这个标签和这张图匹配吗?”
    • 如果观察员说“匹配”,我们就惩罚他;如果他说“不匹配”,我们就奖励他。
  • 效果: 这迫使观察员必须极其精准地知道:这个标签到底对应图里的哪一部分。这就像给观察员上了一堂严格的“指认课”,确保他们不再指鹿为马。

🎨 最终成果:完美的“乐高”积木

有了这两个改进,CODA 带来的最大好处是**“可组合性” (Compositional Generation)**。

  • 以前的模型: 就像一盒拼好的乐高,虽然整体是个城堡,但你很难把“塔楼”单独拆下来,因为塔楼和城墙粘在一起了。
  • CODA 模型: 就像一盒分装完美的乐高积木
    • 你可以只拿出“女士”这块积木,让 AI 只画女士(即使背景是空的)。
    • 你可以把“女士”和“狗”的积木拼在一起,生成一张新的图。
    • 你可以把“女士”拿走,换成“猫”,AI 能生成一张“猫和狗”的新图,而且画面非常自然。

🚀 总结

简单来说,CODA 就像给计算机视觉系统装上了**“收纳盒”(注册槽位)和“纠错器”**(对比对齐)。

  • 收纳盒把没用的背景噪音吸走,让每个物体都干干净净。
  • 纠错器强迫系统把物体和标签一一对应,不再搞混。

这使得 AI 不仅能看清复杂的场景,还能像人类一样,灵活地拆解、重组和编辑场景中的物体,为未来的图像编辑、机器人控制和创意生成打下了坚实的基础。

一句话总结: CODA 让 AI 学会了在混乱的派对上,不仅能分清每个人,还能把每个人单独拎出来,随意组合成新的画面。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →