Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment

Each language version is independently generated for its own context, not a direct translation.

Imagina que tu cerebro es un artista increíble capaz de ver una calle llena de gente, coches y semáforos y, en un instante, separar mentalmente cada objeto para entender qué hace cada uno. Eso es lo que intenta hacer la Inteligencia Artificial con una técnica llamada Aprendizaje Centrado en Objetos.

Sin embargo, hasta ahora, las IAs tenían un gran problema: cuando intentaban "desglosar" una imagen, se les mezclaban las cosas. Imagina que intentas separar una ensalada de frutas, pero en lugar de tener un plato con manzanas, otro con plátanos y otro con uvas, terminas con un solo tazón donde todo está mezclado y pegajoso. Si intentas sacar solo la manzana, sale un poco de plátano y un poco de uva. En el mundo de la IA, esto se llama "entrelazamiento de ranuras" (slot entanglement).

Los autores de este paper (publicado en ICLR 2026) han creado una solución brillante llamada CODA. Vamos a explicarlo con una analogía sencilla:

1. El Problema: La Fiesta Caótica

Imagina que la IA es un organizador de fiestas. Tiene una lista de invitados (los objetos de la imagen: un perro, un coche, un árbol). Su trabajo es asignar a cada invitado su propia silla (una "ranura" o slot) para que puedan hablar entre ellos sin molestarse.

El problema con los métodos anteriores era que, si había mucha gente o la fiesta era muy ruidosa (imágenes complejas del mundo real), los invitados se sentaban en las sillas equivocadas o compartían la misma silla. El "perro" y el "coche" terminaban hablando al mismo tiempo, y cuando la IA intentaba dibujar solo al perro, salía un perro con ruedas de coche. ¡Un desastre!

2. La Solución: Los "Guardianes de la Silla" (Register Slots)

CODA introduce una idea genial: los "asientos de reserva" o "registros".

Imagina que en la fiesta, además de las sillas para los invitados importantes, hay unas sillas vacías especiales llamadas "registros". Estas sillas no tienen nombre, no son ningún invitado específico. Su único trabajo es absorber el ruido.

Si un invitado (un objeto) no tiene una silla perfecta o si hay mucha confusión, en lugar de sentarse encima de otro invitado, se sienta en una de estas sillas de reserva.
Esto evita que los objetos importantes se mezclen. El perro se queda tranquilo en su silla, el coche en la suya, y el "ruido" de fondo (como la textura de la calle) se va a las sillas de reserva.
Resultado: Ahora, si le pides a la IA que dibuje solo al perro, lo hace perfecto, porque el perro no está "pegado" al coche.

3. El Entrenamiento: El Juego de "Encontrar al Intruso" (Alineación Contrastiva)

Pero, ¿cómo sabe la IA que el perro debe ir a la silla del perro y no a la del coche?

Aquí entra la segunda parte de CODA: un entrenamiento tipo juego de "encuentra al intruso".

Le muestran a la IA una foto de un perro y le dicen: "Esta es la silla correcta para el perro".
Luego, le muestran la misma foto pero con la silla del perro mezclada con la de un gato (un "negativo").
La IA debe aprender a decir: "¡Eso no es correcto! El perro no va con el gato".

Este juego (llamado pérdida contrastiva) obliga a la IA a ser muy estricta: cada objeto debe tener su propia identidad clara y no confundirse con otros. Es como enseñar a un niño a clasificar juguetes: "Los coches van aquí, las muñecas allá, ¡no mezcles!".

4. El Truco Extra: Olvidar las Etiquetas de Texto

Las IAs modernas (como las que generan imágenes a partir de texto) están muy acostumbradas a leer descripciones. A veces, si les pides que piensen en un objeto, empiezan a "leer" en lugar de "ver".
CODA tiene un pequeño ajuste: le dice a la IA: "Olvídate de las palabras, solo mira los objetos". Ajusta ligeramente la forma en que la IA conecta los objetos con la imagen, para que sea un experto visual y no un lector distraído.

¿Por qué es esto importante?

Gracias a CODA, la IA puede hacer cosas mágicas que antes eran imposibles:

Edición precisa: Puedes pedirle a la IA: "Quita el coche de esta foto" y lo hace sin borrar al peatón que está detrás.
Combinación creativa: Puedes tomar el perro de una foto y el coche de otra, y la IA puede crear una nueva imagen donde el perro está conduciendo ese coche específico, manteniendo la coherencia.
Mejor comprensión: La IA entiende mejor el mundo real, no solo dibujos simples.

En resumen

CODA es como darle a la IA unas gafas especiales y un sistema de asientos ordenado.

Las gafas (el entrenamiento contrastivo) le ayudan a ver claramente qué objeto es qué.
Los asientos de reserva (los registros) aseguran que, si hay mucho desorden, el ruido no se mezcle con los objetos importantes.

El resultado es una IA que no solo "ve" imágenes, sino que realmente entiende de qué están hechas, permitiéndole manipularlas y crear nuevas escenas con una precisión que antes era solo un sueño. ¡Y todo esto sin necesidad de que humanos le etiqueten cada objeto a mano!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment" (CODA), publicado en ICLR 2026.

1. El Problema: Entrelazamiento de Slots y Alineación Débil

El aprendizaje centrado en objetos (OCL, por sus siglas en inglés) busca descomponer escenas complejas en representaciones estructuradas e interpretables de objetos individuales. Aunque la Atención de Slots (Slot Attention - SA) combinada con modelos de difusión preentrenados ha mostrado avances, existen dos limitaciones críticas:

Entrelazamiento de Slots (Slot Entanglement): Los slots (representaciones vectoriales de objetos) a menudo codifican características de múltiples objetos o fragmentos de ellos. Esto impide la generación fiel de imágenes basadas en un solo slot, ya que la información de un objeto no está aislada limpiamente.
Alineación Débil: Existe una falta de correspondencia consistente entre los slots y las regiones específicas de la imagen. Esto provoca sobre-segmentación (un objeto dividido en varios slots) o sub-segmentación (múltiples objetos fusionados en uno), especialmente en imágenes del mundo real.
Sesgo de Condicionamiento de Texto: Los modelos de difusión preentrenados (como Stable Diffusion) están optimizados para condicionarse con texto, lo que introduce un sesgo que dificulta que los slots visuales puramente aprendidos actúen como condicionadores efectivos.

2. Metodología: CODA (Contrastive Object-centric Diffusion Alignment)

Los autores proponen CODA, una extensión simple pero efectiva de los modelos de difusión basados en slots. La arquitectura utiliza características de DINOv2 como entrada para la Atención de Slots, y un decodificador de difusión preentrenado (Stable Diffusion v1.5) para reconstruir la imagen.

CODA introduce tres componentes clave para resolver los problemas mencionados:

A. Slots de Registro (Register Slots)

Concepto: Se añaden "slots de registro" que son independientes de la imagen de entrada. Se generan codificando tokens de relleno (padding) a través del codificador de texto de CLIP (frozen).
Función: Actúan como "sumideros de atención" (attention sinks). En la atención cruzada, la suma de los pesos de atención debe ser 1. Cuando una consulta de la red U-Net no coincide fuertemente con ningún objeto semántico, la masa de atención se dispersa arbitrariamente, debilitando las asociaciones. Los slots de registro absorben esta atención residual, evitando que los slots semánticos se mezclen con información de fondo o de otros objetos.
Ventaja: Mantienen los slots semánticos enfocados en conceptos significativos sin añadir sobrecarga computacional significativa.

B. Ajuste Fino de la Atención Cruzada (Finetuning Cross-Attention)

Problema: Los modelos de difusión preentrenados esperan embeddings de texto.
Solución: En lugar de entrenar un modelo desde cero o añadir capas complejas (adapters), CODA realiza un ajuste fino ligero (finetuning) únicamente de las proyecciones de clave (key), valor (value) y salida (output) en las capas de atención cruzada.
Objetivo: Esto mitiga el sesgo del condicionamiento de texto, permitiendo que el modelo alinee mejor los slots visuales con el contenido visual, preservando al mismo tiempo la capacidad generativa del modelo base.

C. Objetivo de Alineación Contrastiva

Mecanismo: Además de la pérdida de denoising estándar, se introduce una pérdida contrastiva.
Estrategia: Se construyen "slots negativos" ( $\tilde{s}$ ) mezclando aleatoriamente slots de diferentes imágenes dentro de un batch (reemplazando el 50% de los slots originales con slots de otra imagen).
Función: La pérdida penaliza la reconstrucción de la imagen cuando se utilizan slots negativos (desalineados) y maximiza la probabilidad cuando se usan los slots correctos.
Fundamento Teórico: Los autores demuestran teóricamente que esta combinación de pérdidas actúa como un sustituto tratable para maximizar la Información Mutua (MI) entre los slots y la imagen de entrada, mejorando la calidad de la representación.

3. Contribuciones Clave

Diseño de Slots de Registro: Demostración de que slots semánticamente vacíos pero estructuralmente válidos pueden reducir drásticamente el entrelazamiento al actuar como sumideros de atención.
Estrategia de Ajuste Eficiente: Un enfoque minimalista para eliminar el sesgo de texto en modelos de difusión preentrenados mediante el ajuste fino de proyecciones específicas, sin añadir capas extra.
Objetivo Contrastivo para OCL: La introducción de una pérdida contrastiva que fuerza la alineación slot-imagen, mejorando la descomposición y la capacidad de generalización composicional.
Evaluación Exhaustiva: Validación en datasets sintéticos (MOVi-C/E) y del mundo real (VOC, COCO), superando a los métodos más avanzados (SOTA) en descubrimiento de objetos y generación.

4. Resultados Experimentales

CODA superó consistentemente a los baselines (como Stable-LSD, SlotAdapt, SlotDiffusion) en todas las métricas:

Descubrimiento de Objetos:
- En COCO, mejoró el Índice de Rand Ajustado de Fondo (FG-ARI) en +6.14% respecto al mejor baseline.
- En VOC, mejoró el descubrimiento a nivel de instancia en +3.88% (mBOi) y +3.97% (mIoUi), y a nivel semántico en +5.72% (mBOc) y +7.00% (mIoUc).
Predicción de Propiedades: En MOVi, CODA logró una precisión de clasificación de categorías significativamente superior (74.12% en MOVi-C vs ~46% en baselines), indicando que los slots aprenden atributos de objetos más informativos y desentrelazados.
Generación Composicional:
- CODA es capaz de generar imágenes fieles a partir de slots individuales (algo que fallan los baselines, que producen ruido o patrones de textura).
- Logró los mejores resultados en FID y KID tanto para reconstrucción como para generación composicional (mezcla de slots de diferentes imágenes).
Eficiencia: Los slots de registro añaden una sobrecarga computacional casi nula y el método no requiere supervisión externa ni anotaciones manuales.

5. Significado e Impacto

El trabajo de CODA es significativo porque:

Resuelve la Composicionalidad: Permite la edición y generación de escenas complejas manipulando objetos individuales de manera fiable, un paso crucial hacia el razonamiento visual y el control generativo.
Simplicidad y Escalabilidad: Muestra que mejoras arquitectónicas simples (slots de registro) y objetivos de entrenamiento bien diseñados (contrastivo) pueden superar a métodos más complejos, manteniendo la compatibilidad con modelos de difusión de uso general.
Marco para OCL Robusto: Establece un nuevo estándar para el aprendizaje no supervisado de objetos en escenas del mundo real, facilitando aplicaciones en robótica, edición de video y modelado del mundo.

En resumen, CODA demuestra que al gestionar adecuadamente la atención residual y forzar una alineación explícita entre representaciones latentes e imágenes, es posible lograr una descomposición de escenas robusta y composicional utilizando la potencia de los modelos de difusión preentrenados.