World2Act: Latent Action Post-Training via Skill-Compositional World Models
Il paper presenta World2Act, un framework di post-addestramento che allinea le azioni dei modelli Vision-Language-Action direttamente con i latenti dinamici dei World Models tramite un obiettivo contrastivo e una decomposizione automatica delle abilità, superando i limiti legati alla supervisione pixel e alla durata variabile delle esecuzioni per migliorare la generalizzazione degli agenti embodied.