Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer de tudo: desde pegar uma caneca de café até organizar uma mesa bagunçada ou ajudar a fazer compras em uma loja. O desafio é que robôs são diferentes (alguns têm braços, outros têm duas mãos, outros têm pernas) e os dados que temos sobre como eles se movem são um caos: alguns vídeos são tremidos, outros são lentos, e as instruções variam.

O Green-VLA é a solução criada pela equipe do Sber Robotics para transformar esse caos em um "robô generalista" inteligente. Pense nele como um estudante prodígio que passa por um currículo escolar muito bem planejado, em vez de apenas ler milhões de livros de uma vez só sem entender nada.

Aqui está a explicação passo a passo, usando analogias simples:

1. O Problema: A "Salada de Dados"

Antes do Green-VLA, tentar treinar robôs era como tentar ensinar alguém a dirigir apenas jogando milhares de vídeos de carros diferentes (Fórmula 1, caminhões, bicicletas) na tela ao mesmo tempo, sem explicar as regras. O robô ficava confuso, aprendia coisas erradas e quebrava as coisas. Além disso, a maioria dos robôs aprendia apenas copiando o que via (como um macaco), mas não entendia por que estava fazendo aquilo, o que falhava em tarefas longas e complexas.

2. A Solução: O Currículo de 5 Estágios (A "Escola" do Robô)

O Green-VLA não joga tudo de uma vez. Ele segue um plano de estudos de 5 níveis, como subir degraus:

Nível 0 (A Base): O robô começa com um cérebro já inteligente, treinado na internet inteira (vídeos, fotos, textos). Ele já sabe o que é uma "mesa", um "copo" ou "pegar algo", mas não sabe como usar um braço robótico. É como ter um humano que sabe a teoria, mas nunca dirigiu.
Nível 1 (Entendendo o Mundo Físico): O robô agora estuda vídeos de pessoas fazendo coisas no mundo real. Ele aprende que se você empurrar um copo, ele cai. Ele ganha "senso comum" físico.
Nível 2 (A Escola de Robôs): Aqui, ele vê dados de muitos robôs diferentes (braços simples, robôs com duas mãos, robôs com rodas). Em vez de tentar memorizar cada um, ele aprende os princípios universais de movimento. É como aprender a "dança" da manipulação, que serve para qualquer corpo.
Nível 3 (Especialização): Agora, o robô foca no seu corpo específico (neste caso, o robô humanoide "Green"). Ele ajusta seus movimentos para suas próprias mãos e pernas, como um ator que estuda seu papel específico.
Nível 4 (A Lição de Reforço - RL): Este é o segredo. O robô pratica, erra, recebe um "puxão de orelha" (recompensa ou punição) e tenta de novo. Ele aprende a se recuperar de erros e a planejar tarefas longas, não apenas copiar movimentos. É a diferença entre um aluno que apenas copia o caderno e um que faz exercícios e aprende a resolver problemas novos.

3. As Ferramentas Mágicas

Para funcionar tão bem, o Green-VLA usa três "superpoderes":

A Língua Universal (Espaço de Ação Unificado): Imagine que cada robô fala um idioma diferente de movimento (um fala em "ângulos de joelho", outro em "metros de distância"). O Green-VLA criou um dicionário universal. Ele traduz todos os movimentos para uma "língua neutra" antes de ensinar o robô. Assim, o que um robô de braço único aprende, o robô humanoide também pode aprender, sem confusão.
O Filtro de Qualidade (DataQA): Nem todo vídeo de treinamento é bom. Alguns são tremidos ou mostram o robô batendo na parede. O sistema tem um "inspetor de qualidade" que joga fora os vídeos ruins e só deixa os vídeos cristalinos e bem feitos. É como filtrar apenas os melhores tutoriais do YouTube para estudar.
O GPS de Objetos (Módulo de Guia): Às vezes, o robô vê um objeto novo que nunca viu antes (ex: uma garrafa de suco com um rótulo estranho). O sistema usa um "GPS" que lê a instrução ("pegue a garrafa azul") e aponta exatamente onde está o objeto na tela, guiando a mão do robô para lá, mesmo que ele não conheça a garrafa.

4. O Resultado: O Robô "Green"

O robô humanoide "Green" (o alvo principal) usa esse cérebro para fazer coisas incríveis:

Ele pode pegar objetos delicados e colocá-los em caixas.
Ele consegue limpar uma mesa inteira, pegando vários itens um por um, sem se perder.
Ele entende comandos como "organize as frutas" e sabe separar maçãs de laranjas.
O mais impressionante: Ele funciona bem mesmo em situações novas (cenários que ele nunca viu antes) e consegue se adaptar para controlar robôs diferentes sem precisar ser reprogramado do zero.

Resumo Final

O Green-VLA é como transformar um robô que só sabia imitar movimentos em um engenheiro de soluções. Em vez de apenas copiar, ele entende o mundo, traduz movimentos entre diferentes tipos de robôs, filtra o que é bom para aprender e pratica até ficar mestre em tarefas complexas.

É um passo gigante para que, no futuro, tenhamos robôs em nossas casas e lojas que realmente entendam o que queremos e saibam como fazer, sem precisar de um técnico para consertá-los a cada erro.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os modelos Visão-Linguagem-Ação (VLA) emergiram como uma base promissora para a IA corporificada, visando unificar percepção, raciocínio e ação em um único framework. No entanto, o artigo identifica três desafios críticos que impedem a implantação em escala no mundo real, mesmo com o aumento do tamanho dos dados e parâmetros:

Heterogeneidade de Dados: Conjuntos de dados robóticos variam drasticamente em observações, espaços de ação e taxas de amostragem, dificultando o treinamento de um único modelo.
Qualidade de Dados Variável: Trajetórias frequentemente sofrem de jitter, quadros desfocados, execução inconsistente e baixa diversidade de cenas.
Limitações da Clonagem de Comportamento (BC): O paradigma predominante de BC minimiza a perda entre a ação prevista e a demonstração, mas satura rapidamente. Ele falha em alinhar políticas a objetivos de longo prazo, recompensas de nível de tarefa e na recuperação de falhas (Out-of-Distribution - OOD).

Além disso, abordagens que incorporam raciocínio explícito (como Chain-of-Thought) muitas vezes introduzem latência de inferência inaceitável para controle robótico em tempo real. O objetivo do Green-VLA é superar essas limitações através de alinhamento de qualidade, unificação de ações e refinamento por Aprendizado por Reforço (RL), em vez de apenas escalar dados.

2. Metodologia: O Pipeline de Treinamento em Estágios

O Green-VLA propõe um currículo de treinamento de cinco estágios (L0 a R2) que constrói priores semânticos e físicos progressivamente:

Estágios de Treinamento:

L0 (Base VLM): Início com um modelo Visão-Linguagem (VLM) pré-treinado em larga escala (ex: Qwen3-VL ou PaliGemma), sem ações robóticas.
L1 (Pré-treinamento Web Multimodal): Uso de 24 milhões de amostras da internet (VQA, apontamento, raciocínio espacial) para adquirir priores de física, affordances de objetos e estrutura de tarefas.
R0 (Pré-treinamento Robótico Geral): Treinamento em ~3.000 horas de dados de demonstração de múltiplos embodiments (humanoides, braços fixos, manipuladores móveis). O objetivo é aprender priores de affordance amplos e invariantes entre domínios.
R1 (Adaptação Específica ao Embodiment): Ajuste fino (SFT) do modelo pré-treinado para um embodiment específico (ex: o robô humanoide "Green"), utilizando dados de alta qualidade e prompts de controle estruturados.
R2 (Alinhamento por RL): Refinamento final usando Aprendizado por Reforço para melhorar a robustez em tarefas de longo prazo, recuperação de falhas e eficiência, superando a saturação da clonagem de comportamento.

Arquitetura e Componentes Chave:

Espaço de Ação Unificado ( $A_u$ ): Em vez de preencher (padding) ações heterogêneas, o Green-VLA mapeia ações nativas (juntas, cartesianas, garras) para um espaço semântico unificado de 64 dimensões. Um prompt de controle especifica o tipo de embodiment, e uma máscara binária ignora dimensões irrelevantes durante a perda de treinamento, permitindo transferência positiva entre robôs diferentes.
Pipeline de Dados (DataQA): Um sistema automatizado que filtra e avalia a qualidade dos dados usando métricas de:
- Jitter (suavidade da trajetória).
- Nitidez da imagem (sharpness).
- Diversidade visual e variância de estado.
- Alinhamento temporal baseado em fluxo óptico para normalizar velocidades de execução entre diferentes datasets.
Módulo de Planejamento de Tarefas (Task Planner): Um VLM de alto nível (GigaVision) que decompõe instruções complexas do usuário em sub-tarefas atômicas (ex: "pegar item X", "colocar no Y"). Ele monitora o progresso do episódio e solicita replanejamento se uma sub-tarefa falhar.
Módulo de Guia com Previsão de Juntas (JPM): Para lidar com objetos não vistos ou instruções específicas (ex: "pegue a garrafa azul"), o JPM prevê um ponto de affordance 2D na imagem, projeta-o para 3D e usa esse ponto para guiar o campo de velocidade do modelo de flow-matching, direcionando o efetuador final para o alvo sem re-treinamento.
Detecção OOD e Correção: Um detector de distribuição fora do padrão (baseado em GMM) monitora o estado do robô. Se a ação prevista levar a um estado de baixa densidade (perigoso), o sistema corrige a trajetória usando o gradiente da densidade.

3. Contribuições Principais

Pipeline de Alinhamento de Qualidade e Temporal: Introdução do DataQA e normalização baseada em fluxo óptico, permitindo o treinamento unificado de dados heterogêneos (3.000 horas) com alta eficiência de amostragem.
Receita de Treinamento em Estágios (L0→R2): Uma abordagem comprovada que vai de priores web para especialização robótica e alinhamento por RL, demonstrando que a unificação cuidadosa e a curadoria de dados são tão importantes quanto o volume de dados.
Espaço de Ação Unificado e Multi-Embodiment: Capacidade de controlar humanóides, manipuladores móveis e braços fixos com uma única política, mantendo a semântica das ações e permitindo transferência positiva.
Desenvolvimento e Validação no Robô Green: Implementação bem-sucedida no robô humanoide "Green" (32 graus de liberdade, mãos dexterosas), demonstrando controle bimanual coordenado e comportamento robusto em cenários de distribuição fora do padrão (OOD).
Alinhamento por RL (R2): Demonstração de que o ajuste fino por RL, mesmo sem modificar diretamente os pesos do modelo base (usando otimização de trajetória e distribuição de ruído), traz ganhos significativos em taxas de sucesso e recuperação de erros.

4. Resultados Experimentais

O Green-VLA foi avaliado em benchmarks padronizados e em robôs reais:

Benchmarks Simpler (WidowX e Google Robot):
- Na fase R0 (apenas pré-treinamento), o Green-VLA superou modelos como OpenVLA, RT-1X e Flower, e foi competitivo com modelos pré-treinados como $\pi_0$ e GR00T N1.
- Após o estágio R2 (RL), o modelo alcançou taxas de sucesso superiores, especialmente em tarefas de longo prazo. No conjunto de dados Bridge (WidowX), o R2 melhorou a taxa de sucesso do R1 em 24% absolutos.
Tarefa de Limpeza de Mesa (ALOHA/Cobot):
- O Green-VLA (fase R0) alcançou uma taxa de sucesso de 69.5% na tarefa de limpeza de mesa, superando significativamente o $\pi_0$ (35.6%) e o GR00T N1 (33.2%), apesar de ter sido treinado com menos dados (~3.000 horas vs >10.000 horas).
Ambiente de E-commerce (Shelf Picking):
- A combinação do módulo JPM e guia aumentou a taxa de sucesso na seleção de itens específicos (SKU) de 36.7% para 93.1% em dados in-domain, e de 10.2% para 72.8% em dados OOD (itens não vistos).
Robô Humanoide Green:
- O modelo demonstrou capacidade de seguir instruções complexas de "pegar e colocar" com ambas as mãos, realizar handovers (transferência de objetos) e limpar mesas inteiras.
- Mostrou robustez em layouts de cena não vistos (OOD), mantendo alta taxa de sucesso em tarefas de ordenação e entrega.

5. Significado e Impacto

O trabalho Green-VLA representa um avanço significativo na direção de robôs generalistas práticos. Ele desafia a noção de que apenas a escala de dados é a solução, enfatizando a importância da qualidade dos dados, da unificação semântica e do alinhamento por recompensa.

Generalização Zero-Shot: A capacidade de uma única política controlar diferentes tipos de robôs (humanoides, braços fixos) sem alterações arquiteturais é um passo crucial para a escalabilidade de frotas robóticas.
Viabilidade de Implantação: Ao integrar detecção de OOD, correção de trajetória e planejamento de alto nível, o sistema aborda problemas de segurança e confiabilidade essenciais para operações no mundo real.
Eficiência Computacional: O uso de flow-matching e otimizações de atenção (SDPA) permite inferência de baixa latência, viabilizando o controle em tempo real.

Em resumo, o Green-VLA oferece uma "receita" prática e escalável para construir políticas robóticas que são não apenas inteligentes, mas também robustas, seguras e adaptáveis a novos ambientes e tarefas.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

1. O Problema: A "Salada de Dados"

2. A Solução: O Currículo de 5 Estágios (A "Escola" do Robô)

3. As Ferramentas Mágicas

4. O Resultado: O Robô "Green"

Resumo Final

1. Problema e Motivação

2. Metodologia: O Pipeline de Treinamento em Estágios

Estágios de Treinamento:

Arquitetura e Componentes Chave:

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers