SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
El artículo presenta SaiVLA-0, una arquitectura de visión-lenguaje-acción inspirada en la neurociencia que utiliza un diseño tripartito (Cerebro, Puente y Cerebelo) para lograr un control adaptable, eficiente en cómputo y modular, demostrando mejoras significativas en tiempo de entrenamiento y tasas de éxito en tareas robóticas.