Xiaomi-Robotics-0: An Open-Sourced… — Explicação em linguagem simples

Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang

Publicado 2026-03-26

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer tarefas complexas, como dobrar uma toalha ou montar peças de Lego, apenas mostrando a ele fotos e dando instruções em voz alta. Antigamente, isso era como tentar ensinar um bebê a andar de bicicleta enquanto ele ainda está no berço: o robô era lento, travava e fazia movimentos bruscos.

O Xiaomi-Robotics-0 é a nova solução da Xiaomi para esse problema. Pense nele como um "Robô-Gênio com Reflexos de Atleta".

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Cérebro do Robô (O Modelo VLA)

A maioria dos robôs hoje tem um "cérebro" separado para ver (olhos) e outro para agir (mãos). O Xiaomi-Robotics-0 une tudo em um único cérebro superpoderoso chamado Modelo Visão-Linguagem-Ação (VLA).

A Analogia: Imagine um maestro de orquestra que não apenas ouve a música (visão) e lê a partitura (linguagem), mas também toca todos os instrumentos ao mesmo tempo (ação). Ele entende o que você diz e vê o que está acontecendo, e decide o movimento exato na mesma fração de segundo.

2. O Treinamento: De "Aluno" a "Mestre"

Para criar esse robô, os pesquisadores fizeram duas coisas principais:

A Grande Biblioteca (Pré-treinamento): Eles alimentaram o robô com milhões de vídeos de outros robôs fazendo coisas e com milhões de livros e imagens da internet.
- O Truque: Muitos robôs, ao aprender a fazer tarefas manuais, esquecem como entender o mundo (como se um aluno focasse tanto em matemática que esquecesse de ler). O Xiaomi-Robotics-0 foi treinado para não esquecer. Ele continua sendo um especialista em entender imagens e linguagem enquanto aprende a mover os braços. É como um aluno que estuda para ser cirurgião, mas continua lendo poesia e entendendo arte.
A Lição de Casa (Pós-treinamento): Depois de aprender o básico, eles ensinaram o robô a lidar com a realidade: a internet é lenta, e o robô não pode esperar.

3. O Segredo: "Correndo sem Parar" (Execução Assíncrona)

Este é o ponto mais genial do papel.

O Problema: Imagine que você está dirigindo um carro, mas precisa parar a cada 100 metros para calcular a próxima curva no papel. O carro ficaria tremendo, parando e começando de novo. Isso é o que acontece com robôs lentos: eles calculam, param, calculam de novo e fazem movimentos "truncados".
A Solução Xiaomi: Eles ensinaram o robô a pensar enquanto age.
- A Analogia: Imagine um jogador de basquete. Enquanto ele está correndo para a cesta (executando o movimento atual), ele já está visualizando e planejando o próximo passe (calculando o próximo movimento). Ele não para de correr para pensar.
- O Xiaomi-Robotics-0 usa uma técnica especial (uma "máscara de atenção em forma de Lambda") para garantir que, enquanto ele está planejando o futuro, ele não apenas copie o que fez no passado, mas continue olhando para a câmera e ouvindo você. Isso evita que ele fique "preguiçoso" e repita movimentos errados.

4. O Resultado na Vida Real

Eles testaram esse robô em duas tarefas difíceis:

Desmontar Lego: Tirar peças de um castelo complexo e organizá-las por cor.
Dobrar Toalha: Pegar uma toalha fofa e desajeitada e dobrá-la perfeitamente.

O que aconteceu?

Em testes de computador (simulação), o robô foi o número 1 do mundo, batendo todos os concorrentes.
No mundo real, ele rodou em um placa de vídeo comum (aquelas que você compra para jogar no PC), sem precisar de supercomputadores caros.
Ele foi rápido e suave. Enquanto outros robôs parecem robôs de filmes antigos (movimentos robóticos e travados), o Xiaomi-Robotics-0 se move com a fluidez de um humano.

Resumo Final

O Xiaomi-Robotics-0 é como dar a um robô um cérebro de gênio (que entende o mundo) e reflexos de atleta (que age sem travar). Ele aprendeu a não esquecer o que sabe, a planejar o futuro enquanto executa o presente e a fazer tudo isso em um computador que cabe na sua mesa, tornando a robótica inteligente algo muito mais acessível e eficiente.

E o melhor de tudo? Eles liberaram o "manual de instruções" e o "cérebro" do robô para que qualquer pessoa possa estudar e melhorar essa tecnologia.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Xiaomi-Robotics-0

1. Problema e Contexto

Os modelos Visão-Linguagem-Ação (VLA) emergiram como um paradigma promissor para o aprendizado de políticas robóticas, permitindo que robôs interpretem instruções de linguagem natural e observações visuais para gerar ações. No entanto, os modelos VLA atuais enfrentam dois desafios críticos:

Latência de Inferência: Devido ao grande número de parâmetros (muitas vezes na escala de bilhões), a inferência é lenta, o que impede a execução suave e em tempo real. Isso resulta em movimentos "truncados" ou descontínuos quando o robô precisa esperar pela próxima inferência (execução síncrona).
Esquecimento Catastrófico: Ao treinar modelos baseados em VLMs (Modelos de Linguagem e Visão) pré-treinados para tarefas robóticas, há um risco significativo de perder as capacidades gerais de visão e linguagem do modelo original, degradando seu desempenho em tarefas de raciocínio e compreensão semântica.
Dependência de Prefixos de Ação: Técnicas recentes de execução assíncrona (como Training-time RTC) condicionam a geração de novas ações aos blocos de ação anteriores. Embora isso ajude na continuidade, permite que o modelo "pule" o raciocínio visual/linguístico, copiando apenas o prefixo de ação anterior, o que reduz a reatividade do robô a mudanças no ambiente.

2. Metodologia

O Xiaomi-Robotics-0 é um modelo VLA de ponta a ponta projetado para alta performance e execução suave em tempo real. Sua arquitetura e estratégia de treinamento são divididas em três componentes principais:

A. Arquitetura do Modelo

Base: Utiliza um VLM pré-treinado (Qwen3-VL-4B-Instruct) para processar entradas visuais e linguísticas.
Gerador de Ação: Um Diffusion Transformer (DiT) que gera blocos de ação (action chunks) via flow-matching.
Tamanho: O modelo possui 4,7 bilhões de parâmetros.
Entrada: Imagens de observação, instruções de linguagem e estado proprioceptivo do robô.
Saída: Um bloco de ações de T passos para controlar um robô de dois braços (bimanual).

B. Estratégia de Treinamento (Receita)
O treinamento ocorre em duas fases principais para equilibrar a capacidade de ação e a preservação de conhecimento:

Pré-treinamento (Dois Passos):
- Passo 1: Treina-se o VLM para prever blocos de ação usando dados de trajetórias de robôs e dados de visão-linguagem (VL) em uma proporção de 1:6. Isso evita o esquecimento catastrófico e melhora a percepção visual centrada no robô.
- Passo 2: O VLM é congelado e um DiT é treinado do zero com flow-matching para gerar ações condicionadas aos recursos do VLM.
Pós-treinamento (Para Execução Assíncrona):
- Para permitir que o robô continue se movendo enquanto o modelo inferencia o próximo bloco, o modelo é adaptado para execução assíncrona.
- Inovação Chave (Máscara de Atenção em Forma de Λ): Ao invés de usar uma máscara de atenção causal padrão que permite que todas as ações futuras "vejam" o prefixo de ação anterior, o Xiaomi-Robotics-0 utiliza uma máscara de atenção em forma de Λ (Lambda).
  - Isso permite que os tokens de ação imediatos (necessários para transição suave) vejam o prefixo anterior.
  - No entanto, impede que os tokens de timesteps posteriores acessem diretamente o prefixo, forçando o modelo a prestar atenção nas observações visuais e instruções linguísticas atuais. Isso elimina o "atalho" de apenas copiar ações passadas, garantindo políticas mais reativas.

C. Dados

Trajetórias de Robô: ~204,9 milhões de timesteps, incluindo dados de conjuntos de dados abertos (DROID, MolmoAct) e dados internos de teleoperação para tarefas complexas (desmontagem de Lego e dobragem de toalha).
Dados Visão-Linguagem: ~82,3 milhões de amostras, cobrindo grounding visual, VQA, legendagem e raciocínio corporificado.

D. Implantação (Deployment)

Execução Assíncrona: O robô executa os primeiros $T_e$ passos de um bloco inferido enquanto o próximo bloco é processado.
Sincronização: Os dados de entrada são sincronizados em uma linha do tempo unificada de 30Hz para garantir consistência temporal.
Hardware: O modelo roda em GPUs de nível consumidor (ex: NVIDIA RTX 4090) com uma latência de inferência de ~80ms, permitindo execução suave.

3. Contribuições Principais

Xiaomi-Robotics-0: Um modelo VLA de código aberto que alcança desempenho state-of-the-art (SOTA) em benchmarks de simulação e tarefas reais complexas.
Técnica de Atenção Λ: Uma solução inovadora para o problema de "atalho" em execução assíncrona, permitindo que o modelo seja reativo sem sacrificar a continuidade do movimento.
Preservação de Capacidades: Uma estratégia de treinamento que mantém as capacidades gerais de visão e linguagem do VLM subjacente, evitando o esquecimento catastrófico comum em modelos VLA.
Desempenho em Tempo Real: Demonstração de que modelos VLA grandes podem rodar suavemente em robôs reais usando hardware de consumo, superando métodos síncronos em eficiência.

4. Resultados

O modelo foi avaliado em benchmarks de simulação e em um robô bimanual real:

Benchmarks de Simulação:
- LIBERO: Alcançou uma taxa de sucesso média de 98,7%, superando todos os métodos comparados (incluindo $\pi_0$ , OpenVLA, GR00T-N1).
- CALVIN: Melhorou o comprimento médio de tarefas completadas em sequência (5 tarefas) de 4,54 para 4,80 (no cenário ABCD→D) e de 4,67 para 4,75 (no cenário ABC→D), demonstrando forte generalização.
- SimplerEnv: Alcançou taxas de sucesso de 85,5% (Google Robot, Visual Matching) e 79,2% (WidowX), superando os baselines existentes.
Experimentos com Robô Real:
- Desmontagem de Lego e Dobragem de Toalha: O Xiaomi-Robotics-0 superou os métodos SOTA (como $\pi_0.5$ ) em throughput (produtividade).
- Na tarefa de dobragem de toalha (objeto deformável), alcançou 1,2 peças/minuto, superando o método síncrono e variantes de Training RTC que tendiam a ficar presas em loops repetitivos.
- A execução foi suave e contínua, sem pausas perceptíveis.
Preservação de VLM:
- Em benchmarks gerais de visão-linguagem (MME, MMBench, POPE, etc.), o modelo manteve desempenho comparável ao VLM original (Qwen3-VL), enquanto modelos que não usaram dados VL durante o pré-treinamento sofreram esquecimento catastrófico (desempenho próximo a zero).

5. Significado e Impacto

O Xiaomi-Robotics-0 representa um avanço significativo na viabilidade prática de modelos VLA para robótica do mundo real. Ao resolver o dilema entre latência de inferência e reatividade, o trabalho demonstra que é possível executar políticas complexas e precisas em tempo real sem sacrificar a inteligência semântica do modelo. A abordagem de código aberto, incluindo pesos do modelo e código de inferência, fornece uma base sólida para pesquisas futuras em manipulação bimanual, objetos deformáveis e generalização em ambientes não vistos. A técnica de máscara de atenção em forma de Λ pode ser aplicada a outros modelos de fluxo ou difusão para melhorar a estabilidade em cenários de execução assíncrona.

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution