Inference-time Physics Alignment of Video Generative Models with Latent World Models

Este trabajo presenta WMReward, un enfoque de alineación en tiempo de inferencia que utiliza un modelo de mundo latente como recompensa para guiar la generación de video y mejorar significativamente su plausibilidad física, logrando el primer lugar en el desafío PhysicsIQ de ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

Publicado 2026-03-02
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los modelos de inteligencia artificial que crean videos son como niños artistas muy talentosos pero un poco despistados. Pueden pintar cuadros hermosos y crear escenas que se ven increíbles, pero a veces olvidan las reglas básicas del mundo real: los objetos no flotan sin razón, el agua no sube hacia arriba y las cosas no atraviesan paredes como fantasmas.

Este paper, titulado "Alineación de Física en Tiempo de Inferencia...", presenta una solución brillante para arreglar este "olvido" sin tener que volver a enseñarles todo desde cero.

Aquí te lo explico con una analogía sencilla:

🎨 El Problema: El Artista y el Director

Imagina que tienes un artista genio (el modelo generador de video) que puede crear películas increíbles. Pero, a veces, en sus películas, un coche atraviesa un muro o una pelota rebota hacia arriba. El artista es bueno, pero no "siente" la física.

Antes, la gente pensaba que el problema era que el artista no había estudiado suficiente física en la escuela (durante su entrenamiento). Pero los autores de este paper descubrieron algo interesante: el artista sí sabe física, pero a veces elige el camino incorrecto al pintar.

💡 La Solución: El "Director de Física" (WMReward)

En lugar de obligar al artista a estudiar de nuevo, decidieron ponerle un director de cine experto en física al lado mientras trabaja. A este director le llamaron WMReward.

¿Cómo funciona este director?

  1. El Observador Sabio: El director es un "Modelo del Mundo Latente" (llamado VJEPA-2). Piensa en él como un físico que ha visto millones de videos y sabe exactamente cómo se mueven las cosas en la realidad. No le importa si el color del coche es bonito o feo; le importa si el coche se mueve como un coche real.
  2. La Prueba de Sorpresa: Cuando el artista dibuja un frame (una imagen), el director lo mira y dice: "¡Espera! Si yo predigo lo que pasará en el siguiente segundo, esto no tiene sentido. ¡Me sorprende!".
    • Si el video es físicamente correcto, el director dice: "Ah, sí, eso es lógico". (Poca sorpresa = buena puntuación).
    • Si el video es absurdo (ej. una taza que atraviesa la mesa), el director se sorprende mucho. (Mucha sorpresa = mala puntuación).

🚀 El Truco: Buscar y Elegir (Inferencia)

Aquí viene la parte mágica. En lugar de pedirle al artista que pinte solo una vez y esperar a ver qué sale, les dicen:

"¡Pinta 16 versiones diferentes de esta escena!"

Luego, el Director de Física (WMReward) revisa las 16 versiones y elige la que tenga la menor sorpresa (la que más se parezca a la realidad).

  • Búsqueda (BoN): Es como pedirle a un chef que cocine 16 platos diferentes y tú te quedas solo con el que sabe mejor.
  • Guía (∇): Es como si el director le susurrara al artista mientras pinta: "¡Oye, mueve esa pelota un poco más a la izquierda, así rebotará mejor!".

Al combinar estas dos cosas (pedir muchas opciones y guiar al artista), logran que el video final sea físicamente perfecto, incluso si el artista original tenía tendencia a cometer errores.

🏆 ¿Qué lograron?

Pusieron a prueba este método en un examen muy difícil llamado PhysicsIQ (como un examen de física para IA).

  • Antes: Los mejores modelos de video sacaban alrededor del 55% de nota.
  • Con WMReward: ¡Sacaron un 62.64% y ganaron el primer lugar!

Además, cuando le mostraron los videos a personas reales, estas dijeron: "¡Wow! Este video se siente mucho más real y natural que el anterior".

🌟 En Resumen

Este trabajo nos dice que no siempre necesitamos entrenar a las IAs desde cero para que sean mejores. A veces, solo necesitamos un buen supervisor (el modelo del mundo) que las guíe en el momento de crear, diciéndoles: "Eso no es real, intenta otra cosa".

Es como tener un tutor de física que vigila al artista en tiempo real, asegurándose de que, aunque la película sea mágica, las leyes de la física no se rompan. ¡Y eso hace que los videos generados por IA sean mucho más útiles y creíbles!