SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
Der Artikel stellt SaiVLA-0 vor, ein rechnerbewusstes Vision-Language-Action-Modell, das durch eine neurowissenschaftlich inspirierte Dreiteilung aus Cerebrum, Pons und Cerebellum sowie eine foveierte Blicksteuerung effizientere und stabilere Robotersteuerung ermöglicht.