World Action Models are Zero-shot Policies

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

Publicado 2026-02-19

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer tarefas domésticas, como dobrar roupas, arrumar a mesa ou pegar uma maçã. Até hoje, a maneira mais comum de fazer isso era como ensinar um cachorro: você mostrava o truque repetidamente (pegar a maçã, pegar a maçã, pegar a maçã) e o robô tentava imitar exatamente os movimentos.

O problema? Se você mudasse a cor da maçã, o lugar onde ela estava ou pedisse para o robô fazer algo que ele nunca viu (como desamarrar um laço de sapato), ele ficava confuso e parava.

A NVIDIA apresentou um novo modelo chamado DreamZero que muda completamente essa lógica. Em vez de apenas "imitar movimentos", o DreamZero aprende a sonhar.

Aqui está uma explicação simples de como isso funciona:

1. O Robô que "Sonha" (O Modelo de Ação do Mundo)

Imagine que você precisa atravessar uma rua movimentada. Antes de dar o primeiro passo, você não apenas olha para o chão; você imagina o que vai acontecer nos próximos segundos: "Se eu correr, o carro vai me bater. Se eu esperar, vou conseguir passar".

O DreamZero faz exatamente isso. Ele é um modelo de "Ação do Mundo" (World Action Model).

Como funciona: Quando você dá uma ordem (ex: "pegue a laranja"), o robô não calcula apenas qual motor mover. Primeiro, ele gera um vídeo mental do futuro: ele "sonha" com os próximos segundos mostrando a laranja sendo pega e colocada no lugar.
A Mágica: Só depois de "ver" esse vídeo mentalmente é que ele decide quais movimentos físicos fazer para tornar esse sonho realidade.

2. Aprendendo com a Vida Real, não com Livros de Instruções

Os robôs antigos precisavam de milhares de horas de vídeos repetitivos de alguém fazendo a mesma tarefa. É como tentar aprender a cozinhar assistindo a 1.000 vídeos de alguém cortando apenas uma cenoura.

O DreamZero foi treinado com uma abordagem diferente:

Diversidade é a chave: Ele foi treinado com vídeos de robôs fazendo coisas variadas em ambientes reais (cozinhas, escritórios, lojas), sem repetir a mesma tarefa exata milhares de vezes.
A Analogia: Em vez de decorar uma lista de receitas, o DreamZero aprendeu a cozinhar observando a física do mundo. Ele entende que "se soltar um copo, ele cai" e "se empurrar uma porta, ela abre". Isso vem de ter visto milhões de vídeos na internet, não apenas de robôs.

3. A "Aceleração" (Como ele é rápido?)

Um dos maiores problemas de usar "sonhos" (vídeos gerados por IA) é que eles são lentos de calcular. Pense em tentar dirigir um carro enquanto desenha o futuro em um quadro negro: você não daria tempo de reagir a um pedestre.

A NVIDIA criou uma série de truques de engenharia (chamados de "DreamZero-Flash") para resolver isso:

Eles criaram um sistema onde o robô não precisa esperar o "sonho" terminar de ser desenhado para começar a agir.
É como se o robô tivesse um "piloto automático" que prevê o futuro em frações de segundo, permitindo que ele aja em tempo real (7 vezes por segundo), tão rápido quanto um humano reagindo.

4. Aprendendo com Humanos e Outros Robôs (Transferência Cruzada)

Esta é talvez a parte mais impressionante.

Aprendendo apenas olhando: Se você mostrar para o DreamZero um vídeo de um humano fazendo uma tarefa (sem mostrar os comandos do robô, apenas o vídeo), o robô consegue aprender a fazer a mesma coisa. É como se ele assistisse a um filme de um humano cozinhando e, de repente, soubesse como segurar a faca.
Adaptação Rápida: Se você pegar um robô treinado e colocá-lo em um novo corpo (um robô diferente), ele precisa de apenas 30 minutos de dados de "brincadeira" para se adaptar e continuar funcionando perfeitamente, mantendo sua capacidade de aprender coisas novas.

Resumo da Ópera

O DreamZero é como um robô que não apenas tem músculos, mas tem imaginação.

Ele sonha com o resultado antes de agir.
Ele aprende com a diversidade do mundo real, não com repetição chata.
Ele é rápido o suficiente para agir em tempo real.
Ele pode aprender novas habilidades apenas assistindo a vídeos de humanos ou outros robôs.

Isso significa que, no futuro, poderemos ensinar robôs a fazer tarefas complexas e novas apenas mostrando vídeos, sem precisar programar cada movimento manualmente. É um passo gigante para ter robôs úteis nas nossas casas e empresas.

Each language version is independently generated for its own context, not a direct translation.

Título: World Action Models são Políticas Zero-shot

Autores: Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, et al. (NVIDIA e colaboradores)
Data: Fevereiro de 2026

1. O Problema

Os modelos de fundação robótica atuais, conhecidos como Modelos Visão-Linguagem-Ação (VLAs), demonstraram excelente generalização semântica (entender instruções de linguagem e identificar objetos). No entanto, eles enfrentam limitações críticas:

Falta de Generalização Física: Eles lutam para generalizar para novos movimentos físicos ou habilidades em ambientes não vistos, especialmente se a habilidade específica não estava presente nos dados de treinamento repetitivos.
Dependência de Dados Repetitivos: As políticas VLAs tradicionais geralmente exigem grandes quantidades de demonstrações repetitivas e específicas de tarefas para aprender dinâmicas físicas precisas.
Falta de Priors Espaciais e Temporais: Embora os VLAs herdem conhecimento linguístico de modelos de linguagem (VLMs), eles carecem de representações densas de como o mundo evolui fisicamente (dinâmica, geometria, controle motor) para executar ações complexas como "desatar um laço" ou "dobrar uma camisa" em novos contextos.

2. Metodologia: DreamZero e Modelos de Ação do Mundo (WAMs)

O artigo introduz o DreamZero, um modelo de fundação robótica de 14 bilhões de parâmetros baseado em uma arquitetura de Modelo de Ação do Mundo (WAM).

Conceito Central: WAMs

Diferente dos VLAs que mapeam diretamente observação para ação, os WAMs aprendem a prever futuros estados visuais do mundo e ações simultaneamente.

Base: O modelo é inicializado a partir de um modelo de difusão de vídeo pré-treinado em escala web (Wan2.1-I2V-14B).
Objetivo de Treinamento: Prever conjuntamente os próximos quadros de vídeo e as ações do robô condicionados a instruções de linguagem e estados proprioceptivos.
Mecanismo: Ao prever o futuro visual, o modelo internaliza os "priors" de física e dinâmica do mundo. A ação é aprendida como um problema de dinâmica inversa alinhada com o plano visual gerado.

Arquitetura Técnica

Modelo Autoregressivo: O DreamZero utiliza uma arquitetura autoregressiva (DiT - Diffusion Transformer) para gerar vídeos e ações em "chunks" (blocos). Isso permite o uso de KV-Cache (cache de chave-valor) para inferência eficiente e mantém a taxa de quadros nativa, evitando a necessidade de subamostragem de vídeo que causaria desalinhamento.
Aprendizado por Força de Professor (Teacher Forcing): Durante o treinamento, o modelo é condicionado em chunks anteriores limpos para denoizar o chunk atual (vídeo + ação).
Alinhamento Multimodal: O modelo compartilha o objetivo de denoising entre vídeo e ação, garantindo que as ações geradas correspondam estritamente ao que é visualizado no vídeo previsto.

Otimizações para Tempo Real (DreamZero-Flash)

Modelos de difusão são inerentemente lentos para controle em malha fechada. O DreamZero implementa uma série de otimizações para atingir 7Hz (controle em tempo real):

Paralelismo CFG: Execução paralela das passagens condicionais e incondicionais em duas GPUs.
Cache de DiT: Reutilização de vetores de velocidade quando a similaridade cosseno entre passos consecutivos é alta, reduzindo os passos de difusão efetivos de 16 para 4.
Otimizações de Sistema: Uso de torch.compile, CUDA Graphs, quantização (NVFP4) e kernels otimizados.
DreamZero-Flash (Agendamento de Ruído Desacoplado): Uma inovação chave onde o agendamento de ruído para o vídeo é enviesado para estados de alto ruído (Beta distribution), enquanto a ação permanece uniforme. Isso permite treinar o modelo para prever ações limpas a partir de contextos visuais ruidosos, permitindo inferência de 1 passo (single-step) sem perda significativa de qualidade, reduzindo a latência de ~350ms para ~150ms.

3. Principais Contribuições

Generalização Zero-shot Superior: O DreamZero demonstra uma melhoria de mais de 2x na generalização para novas tarefas e ambientes em comparação com os melhores VLAs (como GR00T e $\pi_0.5$ ).
Aprendizado Eficiente de Dados Heterogêneos: O modelo aprende efetivamente a partir de dados robóticos diversos e não repetitivos (500 horas de dados teleoperados em 22 ambientes reais), superando a necessidade de demonstrações repetitivas por tarefa.
Transferência Cruzada de Embodiment (Corpo):
- Apenas Vídeo: O modelo pode aprender novas tarefas para um robô alvo usando apenas demonstrações em vídeo de outros robôs ou humanos (sem dados de ação), com melhoria de >42% no desempenho.
- Adaptação Few-shot: Um modelo pré-treinado em um robô (AgiBot G1) adapta-se a um novo robô (YAM) com apenas 30 minutos de dados de "play" (brincadeira), mantendo a generalização zero-shot.
Inferência em Tempo Real: Atinge 7Hz em hardware de ponta (NVIDIA GB200), tornando viável o controle em malha fechada para modelos de difusão de vídeo.

4. Resultados Experimentais

Os experimentos foram conduzidos em dois robôs: AgiBot G1 (bimanual móvel) e Franka (braço único), utilizando o conjunto de dados DROID para validação.

Generalização em Tarefas Não Vistas:
- Em tarefas totalmente ausentes do treinamento (ex: desatar cadarços, passar a ferro, apertar a mão), o DreamZero alcançou 39.5% de progresso médio na tarefa, enquanto os VLAs de base (mesmo pré-treinados) ficaram abaixo de 17%.
- Os VLAs tendem a falhar ao tentar executar movimentos genéricos (como pegar e soltar) em vez de entender a semântica da nova tarefa.
Generalização em Ambientes Não Vistos:
- O DreamZero manteve alta performance em ambientes geograficamente diferentes dos dados de treinamento, demonstrando robustez a variações de iluminação, objetos e disposição espacial.
Ablação de Dados e Modelo:
- Diversidade vs. Repetição: Dados diversos melhoraram o desempenho de 33% para 50% em tarefas simples, enquanto dados repetitivos não ajudaram na generalização.
- Escala: O modelo de 14B superou significativamente o de 5B, indicando que a capacidade do modelo é crucial para evitar alucinações visuais que levam a erros de ação.
- Arquitetura: A abordagem autoregressiva produziu movimentos mais suaves e foi 3-4x mais rápida que variantes bidirecionais devido ao KV-Cache.

5. Significado e Impacto

O trabalho representa um avanço fundamental na robótica de fundação:

Mudança de Paradigma: Move a ênfase da "imitação densa de estado-ação" para a "modelagem do mundo e planejamento visual". Isso permite que os robôs aprendam a física do mundo a partir de vídeos da internet, não apenas de dados de robô.
Escalabilidade de Dados: Abre a porta para o uso de dados de vídeo humanos em escala massiva (milhões de horas) para treinar robôs, eliminando a necessidade de coletar dados de ação caros e difíceis para cada nova tarefa ou corpo robótico.
Viabilidade de Tempo Real: Demonstra que modelos generativos complexos (difusão de vídeo) podem ser otimizados para controle robótico em tempo real, superando a barreira de latência que limitava o uso prático desses modelos.
Futuro: Sugere que a próxima geração de robôs inteligentes dependerá de modelos que unificam a compreensão visual, a previsão física e a geração de ação, permitindo adaptação rápida a novos corpos e ambientes com poucos dados.

Em resumo, o DreamZero prova que modelos de ação do mundo, ao prever o futuro visual, adquirem uma compreensão física profunda que permite generalização zero-shot e adaptação eficiente, superando as limitações atuais dos modelos puramente baseados em linguagem e ação.

World Action Models are Zero-shot Policies

1. O Robô que "Sonha" (O Modelo de Ação do Mundo)

2. Aprendendo com a Vida Real, não com Livros de Instruções

3. A "Aceleração" (Como ele é rápido?)

4. Aprendendo com Humanos e Outros Robôs (Transferência Cruzada)

Resumo da Ópera

Título: World Action Models são Políticas Zero-shot

1. O Problema

2. Metodologia: DreamZero e Modelos de Ação do Mundo (WAMs)

Conceito Central: WAMs

Arquitetura Técnica

Otimizações para Tempo Real (DreamZero-Flash)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank