Unsupervised Representation Learning - an Invariant Risk Minimization Perspective

Each language version is independently generated for its own context, not a direct translation.

🍎 El Problema: Las Manzanas que Cambian de Color

Imagina que tienes una máquina que aprende a identificar manzanas.

En tu entorno de entrenamiento (la cocina), las manzanas siempre están sobre una mesa de madera y tienen un brillo especial por la luz de la lámpara.
Pero cuando llevas tu máquina a la tienda (el entorno de prueba), las manzanas están sobre un mostrador de vidrio y la luz es diferente.

Los métodos tradicionales de Inteligencia Artificial (IA) suelen "hacer trampa": aprenden a reconocer la mesa de madera y el brillo de la lámpara en lugar de la manzana en sí. Si ves una manzana en la tienda, la máquina se confunde porque la mesa es de vidrio.

En el mundo de la IA, esto se llama Minimización de Riesgo Invariante (IRM). La idea es enseñar a la máquina a ignorar los "trucos" del entorno (la mesa, la luz) y enfocarse solo en lo que es la manzana real (la fruta), sin importar dónde esté.

El gran problema: Hasta ahora, para enseñar esto, necesitábamos etiquetas (decirle a la máquina: "esto es una manzana, eso no lo es"). Pero, ¿qué pasa si no tenemos etiquetas? ¿Qué pasa si tenemos millones de fotos de manzanas pero nadie nos dice cuál es cuál?

🚀 La Solución: Aprender sin Etiquetas

Este paper propone una forma nueva y genial de hacer esto sin etiquetas. Los autores (Yotam Norman y Ron Meir) dicen: "No necesitamos decirte qué es una manzana; solo necesitamos enseñarte a separar lo que es la manzana de lo que es el fondo".

Para lograrlo, presentan dos herramientas principales:

1. PICA: El Filtro de "Lo que no cambia"

Imagina que tienes dos cubos de hielo: uno con agua pura y otro con agua con mucho colorante.

PICA es como un filtro mágico que busca la parte del cubo que es idéntica en ambos casos.
Si el agua pura es la "manzana" y el colorante es el "entorno", PICA descarta el colorante y te deja solo con el agua pura.
En lenguaje técnico: Es un método matemático (lineal) que busca direcciones en los datos que tienen la misma "forma" o distribución en todos los entornos, ignorando las que cambian.

2. VIAE: El Chef con Dos Botes de Ingredientes

Esta es la herramienta más potente. Imagina que tienes un Chef Robot (VIAE) que puede cocinar cualquier plato.

El Chef tiene dos botes de ingredientes:
1. Bote Invariante (Z_inv): Contiene la "receta base" (la manzana, el número escrito, el rostro). Esto es lo que nunca cambia.
2. Bote Ambiental (Z_env): Contiene los "condimentos del día" (la luz, el color de fondo, el estilo). Esto es lo que sí cambia según el entorno.

El truco del Chef es que aprende a separar los ingredientes.

Si le das una foto de un número "5" en rojo (entorno 1), el Chef lo descompone en: "Es un 5" (Bote Invariante) + "Es rojo" (Bote Ambiental).
Luego, puede reconstruir la imagen. Pero lo mejor es que puede mezclar:
- Toma el "5" del Bote Invariante.
- Le añade el "condimento azul" del Bote Ambiental.
- ¡Boom! Ahora tiene un número "5" azul, aunque nunca vio un 5 azul antes.

🎨 ¿Para qué sirve todo esto? (Los Experimentos)

Los autores probaron su idea con tres ejemplos divertidos:

MNIST con Cuadrados (SMNIST):
- Imagina dígitos escritos a mano. En un entorno, tienen un cuadrado blanco arriba a la izquierda. En otro, abajo a la derecha.
- La IA normal se confunde con el cuadrado. VIAE ignora el cuadrado, aprende el dígito y puede mover el cuadrado a cualquier esquina que tú quieras.
MNIST de Colores (SCMNIST):
- Los números están en rojo en un entorno y en verde en otro.
- VIAE aprende que el "número" es lo importante y el "color" es solo el entorno. Puede tomar un número rojo y convertirlo en verde, o viceversa, manteniendo la forma del número intacta.
Rostros CelebA (Justicia y Género):
- Aquí es donde se pone interesante. Usaron fotos de celebridades.
- Entorno 1: Hombres. Entorno 2: Mujeres.
- La IA aprende a separar "quién es la persona" (su nariz, ojos, sonrisa) de "su género" (cabello largo/corto, maquillaje).
- El resultado: Pueden tomar una foto de un hombre, quitarle los rasgos de "hombre" y ponerle los de "mujer", pero manteniendo su identidad. Es como un filtro de Instagram que cambia el género sin borrar la cara de la persona.

🌟 La Magia: "Transferencia de Entorno"

La parte más impresionante es que, una vez que la IA aprendió a separar los ingredientes, puede viajar a mundos que nunca vio.

Si entrenaste a la IA con fotos de manzanas en "mesa de madera" y "mesa de vidrio", pero luego le muestras una foto en "mesa de mármol" (un entorno nuevo), la IA puede usar lo que aprendió para reconstruir la manzana en ese nuevo mármol.
Es como si aprendieras a conducir en la lluvia y en el sol, y luego pudieras conducir perfectamente en la nieve, porque entendiste las reglas fundamentales de la conducción, no solo el asfalto.

🏁 Conclusión Simple

Este paper nos dice: "No necesitas etiquetas para enseñar a una IA a ser justa y robusta".

En lugar de decirle "esto es una manzana", le enseñamos a separar la fruta del fondo.

PICA es el filtro matemático simple para datos lineales.
VIAE es el chef creativo que separa la esencia de las cosas de los detalles del entorno, permitiéndonos generar nuevas imágenes, corregir sesgos (como el género en las fotos) y hacer que la IA funcione bien en situaciones nuevas sin haberlas visto antes.

Es un paso gigante hacia una Inteligencia Artificial que entiende el mundo real, no solo los datos que le damos.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: Aprendizaje de Representaciones No Supervisadas: Una Perspectiva de Minimización de Riesgo Invariante (IRM)

Autores: Yotam Norman y Ron Meir (Technion - Instituto Tecnológico de Israel).
Publicación: ICLR 2026.

1. El Problema

La Minimización de Riesgo Invariante (IRM) es un marco fundamental para el aprendizaje robusto frente a cambios en la distribución de datos (desplazamientos de dominio). Tradicionalmente, los métodos de IRM requieren datos etiquetados para aprender representaciones que capturen características invariantes (causales) y filtren las características espurias (dependientes del entorno).

El problema central abordado en este trabajo es la ausencia de etiquetas en escenarios de aprendizaje. En muchas aplicaciones reales, obtener etiquetas es costoso o imposible, pero los datos provienen de múltiples entornos con distribuciones distintas. La pregunta clave es: ¿Es posible aprender representaciones invariantes robustas utilizando únicamente datos no etiquetados de múltiples entornos?

2. Metodología

Los autores proponen un nuevo marco teórico y dos algoritmos específicos para abordar el IRM en un contexto no supervisado.

A. Marco Teórico: SCM No Supervisado

Se introduce un Modelo Causal Estructural (SCM) adaptado para el caso no supervisado.

Definición de Invarianza: En lugar de invarianza respecto a una variable objetivo $Y$ , la invarianza se redefine como la igualdad de las distribuciones de las características latentes a través de todos los entornos. Es decir, se busca un mapa de características $\phi(X)$ tal que $P^{e_1}(\phi(X)) = P^{e_2}(\phi(X))$ para todo par de entornos.
Objetivo de Optimización: Maximizar la verosimilitud de los datos (reconstrucción) sujeta a la restricción de que la distribución de las características latentes invariantes sea idéntica en todos los entornos de entrenamiento.

B. Algoritmos Propuestos

Se presentan dos métodos para implementar este marco:

PICA (Análisis de Componentes Invariantes Principales):
- Suposiciones: Linealidad y distribuciones Gaussianas.
- Funcionamiento: Extiende el Análisis de Componentes Principales (PCA). Busca una proyección lineal que maximice la varianza total (información) pero que sea nula en la dirección de la diferencia entre las matrices de covarianza de los entornos.
- Mecanismo: Encuentra el espacio nulo de la diferencia de covarianzas ( $\Sigma_1 - \Sigma_2$ ) y selecciona dentro de ese espacio la dirección que maximiza la suma de las covarianzas. Esto elimina las dimensiones dependientes del entorno y retiene las invariantes.
VIAE (Autoencoder Variacional Invariante):
- Arquitectura: Un modelo generativo profundo basado en VAEs que factoriza el espacio latente en dos componentes:
  - $Z_{inv}$ : Componente invariante (compartida entre entornos).
  - $Z_e$ : Componente dependiente del entorno (específica para cada entorno).
- Estructura Causal: Utiliza un codificador invariante compartido y codificadores ambientales específicos para cada entorno. El decodificador reconstruye la entrada $X$ usando ambos componentes, pero la mecánica causal asegura que el decodificador no dependa explícitamente del índice del entorno, solo de las características latentes.
- Intervenciones: Permite realizar intervenciones causales en el espacio latente, generando muestras con características invariantes fijas pero cambiando el entorno.

3. Contribuciones Clave

Extensión del IRM a lo No Supervisado: Es la primera propuesta formal que redefine la invarianza en IRM sin depender de etiquetas, basándose en la alineación de distribuciones de características.
Nuevos Algoritmos: Introducción de PICA (para casos lineales/gaussianos) y VIAE (para casos no lineales/compuestos).
Transferencia de Entorno (Environment Transfer): Demuestran la capacidad de transformar datos de un entorno de origen (visto o no visto) a un entorno objetivo, preservando el contenido invariante (ej. el dígito en MNIST) y cambiando solo el estilo ambiental (ej. la posición del cuadrado o el color).
Aplicación a Equidad (Fairness): Proponen interpretar las características sensibles (como el género) como "características ambientales" que deben ser separadas de las características invariantes (identidad), permitiendo la generación de datos equitativos o la eliminación de sesgos.

4. Resultados Experimentales

Los métodos se evaluaron en conjuntos de datos sintéticos y modificados:

Datos Sintéticos: PICA demostró capacidad para extraer direcciones invariantes en datos gaussianos con desplazamientos de covarianza.
SMNIST y SCMNIST:
- SMNIST: Dígitos MNIST con cuadrados blancos en esquinas diferentes según el entorno.
- SCMNIST: Dígitos MNIST coloreados en canales RGB específicos según el entorno.
- Resultados: VIAE logró separar exitosamente la identidad del dígito (invariante) del color/posición (ambiental).
- Evaluación de Clasificadores: Un clasificador lineal entrenado sobre $Z_{inv}$ logró alta precisión (~~84%) en la predicción de etiquetas, mientras que un clasificador sobre $Z_e$ tuvo un rendimiento bajo (~~35%), confirmando que la información de la etiqueta reside en la parte invariante.
CelebA (Equidad):
- Se utilizó para separar el género (variable ambiental) de la identidad facial (invariante).
- Generación: El modelo pudo generar rostros de "hombres" y "mujeres" manteniendo la misma identidad subyacente.
- Transferencia: Se logró transformar imágenes de hombres a mujeres (y viceversa) preservando la estructura facial, la expresión y la pose, demostrando la capacidad de manipular atributos sensibles sin alterar la identidad.

5. Significado e Impacto

Este trabajo es significativo por varias razones:

Democratización del IRM: Elimina la barrera de la necesidad de etiquetas para aplicar técnicas de robustez ante desplazamientos de dominio, lo cual es crucial para dominios donde las etiquetas son escasas (medicina, ciencias ambientales).
Interpretabilidad Causal: Ofrece un marco para desentrelazar (disentangle) factores causales de factores espurios en datos no etiquetados, facilitando la generación de datos controlada.
Potencial para la Equidad: Proporciona una herramienta técnica para abordar sesgos algorítmicos al permitir la separación explícita de atributos sensibles (como raza o género) de las características relevantes para la toma de decisiones.
Fundamento para Futuras Investigaciones: Abre nuevas vías para el aprendizaje no supervisado robusto, sugiriendo que la invarianza puede aprenderse puramente a través de la estructura de los datos y sus variaciones entre entornos, sin supervisión externa.

En resumen, Norman y Meir demuestran que la invarianza, un concepto central en la generalización fuera de distribución, puede aprenderse de manera efectiva sin etiquetas, utilizando la variabilidad entre entornos como señal para separar lo esencial de lo espurio.