Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
O artigo apresenta o Green-VLA, um modelo de Visão-Linguagem-Ação em cinco estágios que combina pré-treinamento multimodal, adaptação específica para diferentes robôs e alinhamento por aprendizado por reforço para permitir que um único agente generalize com segurança e eficiência em tarefas de longo prazo em diversos corpos robóticos, incluindo o humanoide Green.
I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs