World2Act: Latent Action Post-Training via Skill-Compositional World Models
El artículo presenta World2Act, un marco de entrenamiento posterior que alinea las acciones de los modelos de visión-lenguaje-acción directamente con los latentes de dinámica de video de modelos del mundo mediante un objetivo de contraste, superando las limitaciones de los métodos basados en píxeles y mejorando la generalización mediante la descomposición automática de habilidades para modelos de mundo composicionales.