SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
Le papier présente SaiVLA-0, une architecture de vision-langage-action inspirée du cerveau, du pont et du cervelet, qui intègre des priors multimodaux stables, une adaptation proprioceptive et un décodage catégoriel rapide pour améliorer l'efficacité computationnelle et les performances de contrôle robotique.