VLANeXt: Recipes for Building Strong VLA Models

O artigo apresenta o VLANeXt, um modelo Vision-Language-Action (VLA) desenvolvido a partir de uma análise sistemática de 12 descobertas-chave sobre componentes fundamentais, percepção e modelagem de ações, que supera métodos anteriores em benchmarks e demonstra forte generalização no mundo real, acompanhado de um código unificado para a comunidade.

Xiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy

Publicado 2026-02-24
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a fazer tarefas domésticas, como arrumar a mesa ou abrir uma gaveta. Antigamente, você teria que ensinar o robô passo a passo para cada tarefa específica, como se estivesse ensinando uma criança a amarrar o cadarço de um sapato de um jeito muito específico. Se o sapato fosse de outra cor, o robô ficaria confuso.

Agora, com os Modelos VLA (Visão-Linguagem-Ação), a ideia é diferente. É como se você desse ao robô um "cérebro" superinteligente (treinado na internet inteira) que já sabe o que é uma mesa, o que é uma gaveta e o que significa "arrumar". O robô só precisa aprender a mover os braços para fazer isso.

O problema é que, até agora, cada cientista estava inventando sua própria receita para esse "cérebro de robô". Uns usavam ingredientes diferentes, outros cozinhavam em temperaturas diferentes, e ninguém conseguia dizer qual era a melhor maneira de fazer o bolo ficar perfeito. O campo estava uma "sopa primordial" de ideias, mas bagunçada.

O que é o VLANeXt?

Os autores deste paper decidiram entrar nessa cozinha e organizar o caos. Eles criaram o VLANeXt, que não é apenas mais um robô, mas sim um "Livro de Receitas Definitivo" para construir robôs inteligentes.

Eles pegaram uma receita básica (como a do RT-2 ou OpenVLA) e testaram, um por um, quais ingredientes e técnicas realmente faziam diferença. Foi como um teste de culinária científico: "E se eu tirar o sal? E se eu usar forno a gás em vez de elétrico? E se eu bater os ovos por mais tempo?"

As 3 Coisas Mais Importantes que Eles Descobriram (A "Mágica" da Receita)

Para fazer o robô ficar realmente bom, eles descobriram que três ajustes finos eram essenciais:

  1. O "Tradutor" Suave (Conexão entre Cérebro e Mãos):
    Imagine que o "cérebro" do robô (que entende a linguagem e a imagem) é um cozinheiro experiente, e os "braços" do robô são o ajudante que coloca a comida no prato.

    • Antes: O cozinheiro gritava ordens secas para o ajudante (conexão rígida) ou eles não conversavam nada (conexão solta).
    • A descoberta: O segredo é uma conexão "suave". É como se o cozinheiro passasse uma nota de papel com instruções detalhadas e um pouco de "pensamento" para o ajudante antes de ele agir. Isso permite que o cérebro e os braços trabalhem juntos de forma mais harmoniosa, entendendo melhor o que precisa ser feito.
  2. Olhos em Duas Frentes (Visão Multi-ângulo):
    Imagine que você está tentando pegar uma moeda no chão. Se você só olhar de cima, pode ter dificuldade. Se você olhar de cima e também usar uma câmera no seu pulso (como se fosse um olho na sua mão), fica muito mais fácil.

    • A descoberta: O robô fica muito mais esperto quando vê o mundo de dois lugares ao mesmo tempo: uma câmera fixa no teto (visão geral) e uma câmera no pulso do robô (visão detalhada). Isso resolve confusões espaciais, como saber exatamente onde o objeto está em relação à mão.
  3. Sentir o Corpo (Propriocepção):
    Você já tentou pegar um copo de água com os olhos fechados? É difícil, porque você precisa "sentir" onde seus braços estão.

    • A descoberta: O robô precisa "sentir" sua própria posição (seus ângulos, velocidade, etc.) e enviar essa informação para o "cérebro" (o modelo de linguagem), e não apenas para os "braços". É como se o cozinheiro soubesse exatamente onde está cada ingrediente na bancada antes de começar a cozinhar. Isso torna a ação muito mais precisa.

O Resultado: Um Robô que Aprende Rápido e Se Adapta

O resultado final, o VLANeXt, é um modelo que é:

  • Mais eficiente: Ele é menor (2,5 bilhões de parâmetros) do que os gigantes anteriores (que tinham 7 bilhões), mas faz um trabalho melhor. É como ter um carro pequeno e econômico que é mais rápido que um caminhão pesado.
  • Mais resistente: Eles testaram o robô em situações difíceis: luzes piscando, fundos bagunçados, instruções de voz com sotaques diferentes ou objetos em lugares estranhos. O VLANeXt não entra em pânico; ele continua funcionando.
  • Pronto para o mundo real: Eles testaram em robôs de verdade, fazendo tarefas como limpar uma mesa e abrir gavetas, e o robô teve muito mais sucesso do que os concorrentes.

Por que isso é importante?

Antes, construir um robô inteligente era como tentar montar um quebra-cabeça sem ver a imagem da caixa. Agora, com o VLANeXt e o "Livro de Receitas" deles, a comunidade científica tem um guia claro. Eles liberaram o código (a receita) para que qualquer pessoa possa usar, testar e melhorar.

Em resumo: Eles não inventaram um novo robô do zero; eles descobriram como cozinhar o melhor robô possível usando os ingredientes certos e na ordem certa. E o melhor? A receita é simples, barata e funciona muito bem.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →