World Action Models are Zero-shot Policies

O artigo apresenta o DreamZero, um Modelo de Ação Mundial (WAM) baseado em difusão de vídeo que supera os modelos VLA ao aprender dinâmicas físicas para generalizar tarefas em novos ambientes e corpos robóticos com poucos dados, alcançando controle em tempo real e transferência zero-shot.

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

Publicado 2026-02-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer tarefas domésticas, como dobrar roupas, arrumar a mesa ou pegar uma maçã. Até hoje, a maneira mais comum de fazer isso era como ensinar um cachorro: você mostrava o truque repetidamente (pegar a maçã, pegar a maçã, pegar a maçã) e o robô tentava imitar exatamente os movimentos.

O problema? Se você mudasse a cor da maçã, o lugar onde ela estava ou pedisse para o robô fazer algo que ele nunca viu (como desamarrar um laço de sapato), ele ficava confuso e parava.

A NVIDIA apresentou um novo modelo chamado DreamZero que muda completamente essa lógica. Em vez de apenas "imitar movimentos", o DreamZero aprende a sonhar.

Aqui está uma explicação simples de como isso funciona:

1. O Robô que "Sonha" (O Modelo de Ação do Mundo)

Imagine que você precisa atravessar uma rua movimentada. Antes de dar o primeiro passo, você não apenas olha para o chão; você imagina o que vai acontecer nos próximos segundos: "Se eu correr, o carro vai me bater. Se eu esperar, vou conseguir passar".

O DreamZero faz exatamente isso. Ele é um modelo de "Ação do Mundo" (World Action Model).

  • Como funciona: Quando você dá uma ordem (ex: "pegue a laranja"), o robô não calcula apenas qual motor mover. Primeiro, ele gera um vídeo mental do futuro: ele "sonha" com os próximos segundos mostrando a laranja sendo pega e colocada no lugar.
  • A Mágica: Só depois de "ver" esse vídeo mentalmente é que ele decide quais movimentos físicos fazer para tornar esse sonho realidade.

2. Aprendendo com a Vida Real, não com Livros de Instruções

Os robôs antigos precisavam de milhares de horas de vídeos repetitivos de alguém fazendo a mesma tarefa. É como tentar aprender a cozinhar assistindo a 1.000 vídeos de alguém cortando apenas uma cenoura.

O DreamZero foi treinado com uma abordagem diferente:

  • Diversidade é a chave: Ele foi treinado com vídeos de robôs fazendo coisas variadas em ambientes reais (cozinhas, escritórios, lojas), sem repetir a mesma tarefa exata milhares de vezes.
  • A Analogia: Em vez de decorar uma lista de receitas, o DreamZero aprendeu a cozinhar observando a física do mundo. Ele entende que "se soltar um copo, ele cai" e "se empurrar uma porta, ela abre". Isso vem de ter visto milhões de vídeos na internet, não apenas de robôs.

3. A "Aceleração" (Como ele é rápido?)

Um dos maiores problemas de usar "sonhos" (vídeos gerados por IA) é que eles são lentos de calcular. Pense em tentar dirigir um carro enquanto desenha o futuro em um quadro negro: você não daria tempo de reagir a um pedestre.

A NVIDIA criou uma série de truques de engenharia (chamados de "DreamZero-Flash") para resolver isso:

  • Eles criaram um sistema onde o robô não precisa esperar o "sonho" terminar de ser desenhado para começar a agir.
  • É como se o robô tivesse um "piloto automático" que prevê o futuro em frações de segundo, permitindo que ele aja em tempo real (7 vezes por segundo), tão rápido quanto um humano reagindo.

4. Aprendendo com Humanos e Outros Robôs (Transferência Cruzada)

Esta é talvez a parte mais impressionante.

  • Aprendendo apenas olhando: Se você mostrar para o DreamZero um vídeo de um humano fazendo uma tarefa (sem mostrar os comandos do robô, apenas o vídeo), o robô consegue aprender a fazer a mesma coisa. É como se ele assistisse a um filme de um humano cozinhando e, de repente, soubesse como segurar a faca.
  • Adaptação Rápida: Se você pegar um robô treinado e colocá-lo em um novo corpo (um robô diferente), ele precisa de apenas 30 minutos de dados de "brincadeira" para se adaptar e continuar funcionando perfeitamente, mantendo sua capacidade de aprender coisas novas.

Resumo da Ópera

O DreamZero é como um robô que não apenas tem músculos, mas tem imaginação.

  1. Ele sonha com o resultado antes de agir.
  2. Ele aprende com a diversidade do mundo real, não com repetição chata.
  3. Ele é rápido o suficiente para agir em tempo real.
  4. Ele pode aprender novas habilidades apenas assistindo a vídeos de humanos ou outros robôs.

Isso significa que, no futuro, poderemos ensinar robôs a fazer tarefas complexas e novas apenas mostrando vídeos, sem precisar programar cada movimento manualmente. É um passo gigante para ter robôs úteis nas nossas casas e empresas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →