Unified Latents (UL): How to train your latents

El artículo presenta Unified Latents (UL), un marco de entrenamiento que combina un prior de difusión y un modelo de difusión para generar representaciones latentes eficientes, logrando resultados de vanguardia en calidad de imagen y video con menor costo computacional.

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans

Publicado 2026-02-20
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enviar una foto de alta calidad a un amigo que vive muy lejos, pero el correo postal (nuestra red de internet o la memoria de la computadora) es muy lento y caro.

El problema es: ¿Cómo comprimes la foto lo suficiente para que sea barata de enviar, pero sin que tu amigo reciba una imagen borrosa y sin sentido?

Los científicos de Google DeepMind en este paper presentan una solución llamada "Latentes Unificados" (Unified Latents). Aquí te explico cómo funciona usando una analogía sencilla:

1. El Problema: El "Sándwich" Roto

Antes de este método, existían dos formas de hacer esto, y ambas tenían defectos:

  • Opción A (El compresor estricto): Usabas un compresor muy fuerte. La foto llegaba pequeña, pero tu amigo tenía que "adivinar" muchos detalles. El resultado era una imagen borrosa o con artefactos extraños (como si la foto se hubiera descompuesto).
  • Opción B (El compresor suave): Usabas un compresor que dejaba pasar casi toda la información. La foto llegaba perfecta, pero el archivo era tan gigante que tardaba días en enviarse y costaba una fortuna.

Además, en el mundo de la Inteligencia Artificial, a veces el "compresor" (el codificador) y el "descompresor" (el decodificador) no se entendían bien entre ellos, y el sistema aprendía a hacer trucos para engañar al sistema, en lugar de aprender a comprimir de verdad.

2. La Solución: El Equipo de Tres (UL)

Los autores proponen un equipo de tres personas que trabajan juntas en una cadena de montaje:

  1. El Codificador (El Empaquetador): Toma la foto original y la convierte en una "caja" pequeña (el latente).
  2. El Prior (El Supervisor de Calidad): Es un experto que revisa qué tan pequeña es la caja. Su trabajo es decir: "Oye, esa caja es demasiado pequeña, no cabrá nada. Oye, esa es demasiado grande, estás desperdiciando espacio".
  3. El Decodificador (El Desempaquetador): Toma esa caja pequeña y trata de reconstruir la foto original lo más fielmente posible.

La magia de "Latentes Unificados" es que el Codificador y el Prior (el Supervisor) entrenan juntos desde el principio.

3. La Analogía del "Ruido Controlado"

Imagina que el Codificador quiere meter una foto en una caja.

  • En el pasado, el Codificador intentaba meter la foto perfectamente limpia. Pero el Prior no sabía cómo medir si la foto era "demasiado compleja" para la caja.
  • En este nuevo método, el Codificador intencionalmente añade un poco de "ruido" o estática a la foto antes de meterla en la caja.
  • El Prior (el Supervisor) es un experto en "limpiar ruido". Como sabe exactamente cuánto ruido se añadió, puede medir con precisión cuánta información real hay dentro de la caja.

¿Por qué es genial esto?
Es como si le dijeras al Codificador: "No intentes guardar la foto perfecta. Guarda la foto con un poco de estática, y yo (el Prior) te diré exactamente cuánta información real cabe en tu caja antes de que te pases".

Esto crea un equilibrio perfecto:

  • Si la caja es muy pequeña, el Prior le dice al Codificador: "¡Eh, estás perdiendo demasiada información!".
  • Si la caja es muy grande, el Prior dice: "¡Podrías haber usado menos espacio!".

4. El Resultado: La Foto Perfecta y Barata

Gracias a este entrenamiento conjunto:

  • Eficiencia: Logran comprimir la imagen mucho mejor que los métodos anteriores. En pruebas con imágenes (como las de ImageNet), lograron una calidad visual increíble (casi perfecta) usando menos energía de computadora.
  • Control: Tienen un "botón de volumen" (llamado loss factor) que les permite decidir: "¿Quiero una caja más pequeña y rápida, o una caja más grande y con más detalles?". Pueden ajustar esto fácilmente sin tener que reinventar todo el sistema.
  • Video: También funcionó muy bien con videos (Kinetics-600), logrando el mejor resultado hasta la fecha en la relación entre calidad y costo de entrenamiento.

En Resumen

Antes, comprimir imágenes para la IA era como intentar adivinar el peso de una caja sin una báscula. A veces metías demasiada ropa y la caja se rompía, o muy poca y quedaba vacía.

Unified Latents es como poner una báscula inteligente (el Prior) que trabaja en equipo con el empaquetador (el Codificador). Juntos aprenden a llenar la caja justo hasta el límite perfecto: ni un gramo más, ni un gramo menos, para que el desempaquetador pueda sacar una foto o video espectacular.

Es una forma más inteligente, estable y eficiente de enseñar a las máquinas a "pensar" en imágenes comprimidas.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →