Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Este artigo apresenta o Xiaomi-Robotics-0, um modelo aberto de Visão-Linguagem-Ação otimizado para execução em tempo real e de alto desempenho, que combina pré-treinamento em larga escala com técnicas de pós-treinamento e implantação para superar a latência de inferência, alcançando resultados de ponta em benchmarks de simulação e em tarefas complexas de manipulação bimanual em robôs reais.

Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang
Publicado 2026-03-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer tarefas complexas, como dobrar uma toalha ou montar peças de Lego, apenas mostrando a ele fotos e dando instruções em voz alta. Antigamente, isso era como tentar ensinar um bebê a andar de bicicleta enquanto ele ainda está no berço: o robô era lento, travava e fazia movimentos bruscos.

O Xiaomi-Robotics-0 é a nova solução da Xiaomi para esse problema. Pense nele como um "Robô-Gênio com Reflexos de Atleta".

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Cérebro do Robô (O Modelo VLA)

A maioria dos robôs hoje tem um "cérebro" separado para ver (olhos) e outro para agir (mãos). O Xiaomi-Robotics-0 une tudo em um único cérebro superpoderoso chamado Modelo Visão-Linguagem-Ação (VLA).

  • A Analogia: Imagine um maestro de orquestra que não apenas ouve a música (visão) e lê a partitura (linguagem), mas também toca todos os instrumentos ao mesmo tempo (ação). Ele entende o que você diz e vê o que está acontecendo, e decide o movimento exato na mesma fração de segundo.

2. O Treinamento: De "Aluno" a "Mestre"

Para criar esse robô, os pesquisadores fizeram duas coisas principais:

  • A Grande Biblioteca (Pré-treinamento): Eles alimentaram o robô com milhões de vídeos de outros robôs fazendo coisas e com milhões de livros e imagens da internet.

    • O Truque: Muitos robôs, ao aprender a fazer tarefas manuais, esquecem como entender o mundo (como se um aluno focasse tanto em matemática que esquecesse de ler). O Xiaomi-Robotics-0 foi treinado para não esquecer. Ele continua sendo um especialista em entender imagens e linguagem enquanto aprende a mover os braços. É como um aluno que estuda para ser cirurgião, mas continua lendo poesia e entendendo arte.
  • A Lição de Casa (Pós-treinamento): Depois de aprender o básico, eles ensinaram o robô a lidar com a realidade: a internet é lenta, e o robô não pode esperar.

3. O Segredo: "Correndo sem Parar" (Execução Assíncrona)

Este é o ponto mais genial do papel.

  • O Problema: Imagine que você está dirigindo um carro, mas precisa parar a cada 100 metros para calcular a próxima curva no papel. O carro ficaria tremendo, parando e começando de novo. Isso é o que acontece com robôs lentos: eles calculam, param, calculam de novo e fazem movimentos "truncados".
  • A Solução Xiaomi: Eles ensinaram o robô a pensar enquanto age.
    • A Analogia: Imagine um jogador de basquete. Enquanto ele está correndo para a cesta (executando o movimento atual), ele já está visualizando e planejando o próximo passe (calculando o próximo movimento). Ele não para de correr para pensar.
    • O Xiaomi-Robotics-0 usa uma técnica especial (uma "máscara de atenção em forma de Lambda") para garantir que, enquanto ele está planejando o futuro, ele não apenas copie o que fez no passado, mas continue olhando para a câmera e ouvindo você. Isso evita que ele fique "preguiçoso" e repita movimentos errados.

4. O Resultado na Vida Real

Eles testaram esse robô em duas tarefas difíceis:

  1. Desmontar Lego: Tirar peças de um castelo complexo e organizá-las por cor.
  2. Dobrar Toalha: Pegar uma toalha fofa e desajeitada e dobrá-la perfeitamente.

O que aconteceu?

  • Em testes de computador (simulação), o robô foi o número 1 do mundo, batendo todos os concorrentes.
  • No mundo real, ele rodou em um placa de vídeo comum (aquelas que você compra para jogar no PC), sem precisar de supercomputadores caros.
  • Ele foi rápido e suave. Enquanto outros robôs parecem robôs de filmes antigos (movimentos robóticos e travados), o Xiaomi-Robotics-0 se move com a fluidez de um humano.

Resumo Final

O Xiaomi-Robotics-0 é como dar a um robô um cérebro de gênio (que entende o mundo) e reflexos de atleta (que age sem travar). Ele aprendeu a não esquecer o que sabe, a planejar o futuro enquanto executa o presente e a fazer tudo isso em um computador que cabe na sua mesa, tornando a robótica inteligente algo muito mais acessível e eficiente.

E o melhor de tudo? Eles liberaram o "manual de instruções" e o "cérebro" do robô para que qualquer pessoa possa estudar e melhorar essa tecnologia.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →