Vid2World: Crafting Video Diffusion Models to Interactive World Models
El artículo presenta Vid2World, un enfoque general que transforma modelos de difusión de video preentrenados en modelos de mundo interactivos mediante la causalización de su arquitectura y un mecanismo de guía de acciones, permitiendo así la generación autoregresiva de alta fidelidad para la toma de decisiones en entornos complejos.