Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
Die Arbeit stellt Green-VLA vor, ein fünfstufiges Vision-Language-Action-Framework, das durch eine skalierbare Datenpipeline, ein einheitliches Aktionsinterface für verschiedene Roboterembodiments und Reinforcement-Learning-Alignment eine robuste Generalisierung und hohe Leistungsfähigkeit für den realen Einsatz von humanoiden Robotern und anderen Manipulatoren ermöglicht.
I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs