Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment

本論文は、レジスタースロットによる干渉低減と対照的アライメント損失によるスロットと画像の対応付け強化を通じて、スロットアテンションと事前学習済み拡散モデルを組み合わせたオブジェクト中心学習の性能を大幅に向上させる「CODA」を提案しています。

Bac Nguyen, Yuhta Takida, Naoki Murata, Chieh-Hsin Lai, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji

公開日 2026-02-20
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

画像の「部品」を上手に組み立てる新しい AI:CODA の解説

この論文は、AI が複雑な画像を見て、そこにある「個々の物体(車、人、木など)」を正しく理解し、それらをバラバラにしたり、新しい組み合わせで作ったりする技術について書かれています。

これを「CODA(コダ)」という新しい方法が提案されました。

🎨 従来の問題:「混ぜこぜ」になったパズル

まず、これまでの AI(特に「Slot Attention」という技術)には、2 つ大きな悩みがありました。

  1. パズルのピースが混ざり合っている(スロットの絡み合い)

    • 例:「赤い車」と「青い空」を別々のブロック(スロット)で理解しようとしていたのに、AI は「赤い車+青い空」がごちゃ混ぜになった 1 つのブロックとして覚えてしまっていました。
    • 結果:「車だけ」を画像から取り出そうとしても、空の青さまでついてきてしまったり、逆に「空だけ」を出そうとしても車の一部が混ざったりして、きれいに分離できませんでした。
  2. 画像とブロックの対応がズレている(弱いアライメント)

    • AI が「これは車だ」と思っているブロックと、実際の画像上の車の位置がズレていたり、1 つの車を 2 つのブロックに分けすぎてしまったりしていました。

💡 CODA の解決策:2 つの魔法の道具

CODA は、この問題を解決するために、2 つのシンプルな工夫を加えました。

1. 「ゴミ箱」のような役職:レジスター・スロット

画像を分析する AI の頭の中には、物体を認識する「賢いスロット」がいくつかあります。しかし、AI は「これは車だ」「これは人だ」と判断する際、余計な情報(背景のノイズや、どの物体にも属さない曖昧な部分)も一緒に引きずり込んでしまいがちです。

CODA は、**「レジスター・スロット」**という新しい役職を追加しました。

  • 役割:これは「賢い物体認識」はしません。どちらかというと**「余計な情報を吸い取るゴミ箱」**のようなものです。
  • 効果:AI が「これは車だ!」と判断する際、余計な背景ノイズはすべてこの「レジスター・スロット」に捨ててくれます。そのおかげで、「車」を担当するスロットは、車のことだけに集中できるようになり、他の物体との混ざり合い(絡み合い)が防げるのです。

アナロジー
会議室で「プロジェクト A」の担当者(スロット)が、プロジェクト B の話や雑談(ノイズ)まで聞いて混乱している状態を想像してください。CODA は、その雑談をすべて引き受けてくれる「雑談係(レジスター)」を配置し、担当者が本当にやるべき仕事だけに集中できるようにしました。

2. 「正解と不正解」を教える対照学習

AI が「このブロックは車だ」と思っている時、それが本当に車と合っているかを確認する仕組みです。

  • 通常の学習:「この画像とこのブロックは合っていますね」と教えるだけ。
  • CODA の学習:「この画像と別のブロック(例えば、猫の画像から取ったブロック)を組み合わせたら、バカバカしい(合わない)よね?」と教えます。
  • 効果:AI は「合わない組み合わせ」を避けるように学習することで、「このブロックは、この画像のこの部分にしか存在しない」という強い結びつきを身につけます。

アナロジー
料理の味見をするとき、「このスープは美味しい(正解)」と教えるだけでなく、「このスープにチョコレートを混ぜたらまずい(不正解)」と教えることで、AI は「スープにはチョコレートを混ぜてはいけない(=このブロックにはこの画像の要素しか入ってはいけない)」というルールをより強く理解するようになります。

🚀 何が良くなったの?

この 2 つの工夫を組み合わせることで、CODA は以下のような素晴らしい能力を手に入れました。

  • きれいな分離:複雑な街の風景写真から、「車だけ」「人だけ」をきれいに切り取れるようになりました。
  • 自由な組み合わせ:「車」のブロックと「ビーチ」のブロックを組み合わせれば、**「ビーチに停まっている車」**という、元々写真になかった新しい画像を、AI が自分で作れるようになりました。
  • 実世界でも活躍:合成された簡単な図形だけでなく、実際の街の風景(COCO データセットなど)でも、他の AI よりもはるかに高い精度で物体を見つけ出しました。

🎓 まとめ

CODA は、AI が画像を見る際、**「余計なノイズを捨てるゴミ箱(レジスター)」「正解と不正解を厳しく区別するテスト(対照学習)」**を導入しました。

その結果、AI は画像の中の物体を「ごちゃ混ぜ」ではなく、「きれいに分かれた部品」として理解できるようになり、それらを自由に組み合わせて新しい世界を創造できるようになったのです。これは、画像編集やロボット制御、未来の AI 開発にとって大きな一歩と言えます。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →