Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
本論文は、3,000 時間のデモンストレーションデータと 5 段階のカリキュラム学習、および RL による政策整合を採用し、ヒューマノイドや可動マニピュレータなど多様なロボット形態に汎用的に適用可能で、安全性と長期的なタスク遂行能力を向上させた Vision-Language-Action モデル「Green-VLA」を提案するものである。
I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs