World2Act: Latent Action Post-Training via Skill-Compositional World Models
Le papier présente World2Act, un cadre d'entraînement postérieur qui améliore la généralisation des agents incarnés en alignant directement les actions des politiques VLA sur des latents de dynamique vidéo via un objectif contrastif, tout en surmontant les limites de durée des modèles du monde grâce à une pipeline de décomposition automatique des compétences par LLM.