Learning Robust Intervention Representations with Delta Embeddings

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un niño aprendiendo a jugar con bloques de construcción. Si le pides a un niño que "abra una caja", y luego le pides que "abra una puerta", es probable que entienda que la acción de "abrir" es la misma, aunque los objetos sean diferentes. El niño ha separado la acción (abrir) del objeto (caja o puerta).

Los ordenadores, sin embargo, suelen ser como niños que no han aprendido esta lección. Para una inteligencia artificial (IA) tradicional, "abrir una caja" y "abrir una puerta" son dos cosas totalmente diferentes porque las imágenes son distintas. Si la IA ve una caja nueva que nunca ha visto antes, se confunde y falla.

Este paper, titulado "Aprendiendo Representaciones Robustas de Intervención con Incrustaciones Delta", propone una solución genial para que las IAs aprendan a separar la acción del objeto, tal como lo hace un humano.

Aquí tienes la explicación sencilla:

1. El Problema: La IA se confunde con el "ruido"

Imagina que estás viendo un video de alguien abriendo un cajón.

La IA normal mira todo: el color de la pared, la luz del sol, la textura de la madera, el ruido de fondo. Cuando intenta aprender qué significa "abrir", mezcla la acción con todo ese ruido.
El resultado: Si luego ves a alguien abrir una nevera (un objeto nuevo) en una cocina diferente, la IA falla porque nunca ha visto esa combinación específica. No ha aprendido la esencia de "abrir".

2. La Solución: El "Delta" (La Diferencia)

Los autores proponen una idea muy simple pero poderosa: en lugar de enseñarle a la IA a mirar la foto completa, enséñale a mirar solo lo que cambió.

Imagina que tienes dos fotos:

Antes: Un cajón cerrado.
Después: El mismo cajón abierto.

Si restas la primera foto de la segunda (como en matemáticas: Foto 2 - Foto 1), lo que queda es solo el movimiento del cajón. Todo lo demás (la pared, la luz, el suelo) se cancela porque es igual en ambas fotos.

A este "residuo" o "diferencia" lo llaman Delta.

La metáfora: Imagina que la acción es una "pegatina" que pegas sobre el mundo. La IA normal intenta aprender la pegatina mirando todo el papel de fondo. La nueva IA (CDE) solo mira la pegatina, ignorando el papel.

3. Las Tres Reglas de Oro (Las "Incrustaciones Delta Causales")

Para que esta "pegatina" de la acción funcione siempre, el modelo debe cumplir tres reglas, que los autores llaman Independencia, Dispersión e Invarianza:

Independencia (No te distraigas): La representación de "abrir" no debe cambiar si la pared es azul o roja. Solo debe preocuparse por el objeto que se mueve.
Dispersión (Sé breve): La acción de "abrir" solo afecta a una pequeña parte del mundo (el cajón), no a todo el universo. La IA debe aprender a ser "ahorradora" y solo activar los bits necesarios para describir ese cambio.
Invarianza (Sé consistente): Esta es la clave. La representación de "abrir" debe ser exactamente la misma (o muy similar) si abres una caja, una puerta o una nevera. ¡La acción es universal!

4. ¿Cómo lo logran? (El Entrenamiento)

En lugar de darle miles de ejemplos de "cajas abiertas", les dan a la IA pares de fotos (antes y después) y les dicen: "Encuentra la diferencia y usa esa diferencia para adivinar qué acción se hizo".

Además, usan un truco matemático (una función de pérdida) que castiga a la IA si:

Intenta usar información de la pared o el suelo para adivinar la acción.
Usa demasiada información (no es "dispersa").
Representa "abrir una caja" de forma muy diferente a "abrir una puerta".

5. El Resultado: ¡Magia!

Cuando probaron su modelo en un reto llamado "Causal Triplet" (donde la IA tiene que adivinar acciones en situaciones nuevas):

Antes: Las IAs fallaban mucho cuando veían objetos nuevos o combinaciones nuevas.
Ahora: Su modelo (CDE) aprendió que "abrir" y "cerrar" son opuestos perfectos (como el norte y el sur). Incluso sin que nadie se lo dijera, descubrió que si "abrir" es un vector hacia arriba, "cerrar" es un vector hacia abajo.

En resumen

Este paper enseña a las máquinas a dejar de mirar el "escenario" y empezar a mirar el cambio. Al aprender a aislar la acción (el "delta") del objeto y del entorno, las IAs se vuelven mucho más inteligentes, capaces de generalizar y funcionar en el mundo real, donde las cosas siempre cambian y nunca son exactamente iguales a las fotos de entrenamiento.

Es como enseñar a un robot a entender que "empujar" es lo mismo, ya sea empujando un coche, una silla o una puerta, sin importar de qué color sean o dónde estén.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Learning Robust Intervention Representations with Delta Embeddings", publicado como ponencia en ICLR 2026.

1. El Problema

El aprendizaje de representaciones causales (CRL) busca que los agentes de IA comprendan los mecanismos subyacentes que generan los datos, mejorando así la generalización y la robustez frente a cambios en la distribución (OOD - Out of Distribution).

El desafío central abordado en este trabajo es la generalización de las representaciones de intervenciones (acciones). Aunque gran parte de la investigación se ha centrado en identificar las variables latentes del escenario (objetos, estados), hay menos esfuerzos en aprender representaciones de las acciones mismas que sean:

Invariantes al contexto: Que la representación de "abrir" sea la misma independientemente de si se abre una puerta, un cajón o una caja.
Robustas a cambios de distribución: Que funcionen en combinaciones de objetos y acciones no vistas durante el entrenamiento (desplazamientos composicionales y sistemáticos).
Desacopladas: Que la representación de la acción no dependa de elementos irrelevantes de la escena (iluminación, fondo, objetos no afectados).

Los modelos actuales suelen aprender representaciones entrelazadas donde la acción se confunde con las características del objeto o la escena, lo que lleva a un fallo en la generalización cuando se enfrentan a nuevos escenarios.

2. Metodología: Causal Delta Embeddings (CDE)

Los autores proponen un marco novedoso llamado Causal Delta Embedding (CDE). La idea central es representar una intervención no como una imagen o un estado, sino como el vector de diferencia en el espacio latente entre el estado antes ( $x$ ) y después ( $\tilde{x}$ ) de la acción.

Definición y Propiedades

Un Causal Delta Embedding ( $\delta_a$ ) se define como:
$\delta_a = \phi(\tilde{x}) - \phi(x)$
Donde $\phi$ es un codificador que mapea la imagen a un espacio latente. Para que esta representación sea causalmente robusta, debe satisfacer tres propiedades fundamentales basadas en supuestos teóricos (ICM y SMS):

Independencia: La representación de la acción debe ser independiente de los elementos de la escena no afectados por la intervención.
Dispersión (Sparsity): Basado en la hipótesis de Sparse Mechanism Shift, la acción solo afecta a un subconjunto pequeño de variables causales. Por tanto, el vector $\delta_a$ debe ser disperso (la mayoría de sus dimensiones deben ser cero).
Invarianza: La representación de una acción específica (ej. "abrir") debe ser consistente e idéntica, independientemente del objeto sobre el que se ejecute.

Arquitectura del Modelo

El sistema se basa en dos variantes principales (ver Figura 3 del artículo):

Modelo Global: Utiliza un backbone pre-entrenado (Vision Transformer - ViT) para extraer un token global ('[CLS]'). Se calcula la diferencia entre los tokens de las imágenes "antes" y "después".
Modelo Patch-Wise (Extensión Espacial): Diseñado para escenas complejas con múltiples objetos. Calcula diferencias a nivel de parches (patches) individuales. Luego, selecciona los Top-K parches con la mayor magnitud de cambio (norma L2) para agregar la información, evitando promediar cambios locales importantes con ruido de fondo.

Función de Pérdida (Loss Function)

El modelo se entrena con una función de pérdida multi-objetivo que combina tres componentes:

Pérdida de Entropía Cruzada (Cross-Entropy): Para asegurar que el vector delta prediga correctamente la etiqueta de la acción.
Pérdida de Contraste Supervisada (Supervised Contrastive Loss): Agrupa las representaciones de la misma acción en el espacio latente, fomentando la invarianza.
Regularizador de Dispersión ( $L_1$ ): Penaliza la suma de los valores absolutos del vector delta, forzando la dispersión (sparsity) y asegurando que solo las dimensiones relevantes cambien.

3. Contribuciones Clave

Introducción de Causal Delta Embeddings (CDE): Un enfoque nuevo para aprender representaciones de intervenciones desacopladas en un espacio latente estructurado.
Estrategia de Aprendizaje Multi-objetivo: Propuesta de una función de pérdida que integra clasificación, contraste y regularización de dispersión para aprender representaciones causales directamente desde datos visuales sin supervisión adicional.
Descubrimiento de Estructura Semántica: Demostración de que el modelo descubre autónomamente relaciones semánticas, específicamente relaciones anti-paralelas entre acciones opuestas (ej. "abrir" vs. "cerrar" tienen una similitud coseno de -1.0), sin ninguna supervisión explícita de estas relaciones.
Rendimiento SOTA: Logro de nuevos estados del arte en el desafío Causal Triplet.

4. Resultados Experimentales

El modelo fue evaluado en el desafío Causal Triplet, que incluye tres configuraciones de complejidad creciente:

Escenas sintéticas de un solo objeto (ProcTHOR): El modelo global redujo la brecha de generalización (gap) de 0.56 (baselines anteriores) a 0.21, alcanzando una precisión OOD del 75% en desplazamientos sistemáticos.
Escenas sintéticas de múltiples objetos: El modelo Patch-Wise superó a todos los baselines, incluyendo métodos "oracle" que utilizan máscaras de segmentación de ground truth.
Escenas del mundo real (Epic-Kitchens): En datos reales con ruido, movimiento de cámara y oclusiones, el modelo CDE superó a enfoques basados en ResNet, CLIP y GroupViT, logrando la mejor precisión OOD (34% con ViT-CLIP).

Análisis de Ablación:

La eliminación de la pérdida de contraste redujo la precisión OOD en 7 puntos.
La eliminación de la regularización de dispersión redujo la precisión en 2 puntos.
Esto confirma que la estructura causal explícita (invarianza y dispersión) es crucial para la generalización.

5. Significado e Impacto

Este trabajo es significativo porque cambia el paradigma de "identificar variables" a "representar mecanismos de cambio".

Robustez Real: Al aprender representaciones de acciones invariantes al objeto, los agentes de IA pueden transferir conocimientos a nuevos objetos y entornos sin necesidad de reentrenamiento (fine-tuning).
Interpretabilidad: La capacidad del modelo para organizar las acciones en un espacio geométrico donde las acciones opuestas son vectores opuestos sugiere que la IA ha aprendido la lógica causal subyacente de la interacción, no solo correlaciones estadísticas.
Aplicabilidad: Ofrece una vía prometedora para la robótica y la toma de decisiones en entornos dinámicos, donde la capacidad de predecir el resultado de una acción en un objeto nunca antes visto es crítica.

En resumen, los autores demuestran que modelar explícitamente las intervenciones como vectores de diferencia esparsos e invariantes en el espacio latente es una estrategia superior para lograr generalización fuera de distribución en tareas de visión por computadora.