SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
Il paper presenta SaiVLA-0, un'architettura Vision-Language-Action ispirata al cervello umano che separa le funzioni in tre moduli (Cerebro, Ponte e Cervelletto) per ottimizzare l'efficienza computazionale, la modularità e le prestazioni nel controllo robotico, dimostrando miglioramenti significativi nei tempi di addestramento e nei tassi di successo.