Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

O artigo apresenta o framework Act-Observe-Rewrite (AOR), no qual um agente de linguagem multimodal melhora políticas de manipulação robótica sintetizando e reescrevendo código executável entre tentativas com base em observações visuais e falhas estruturadas, alcançando alto desempenho em tarefas sem necessidade de demonstrações, engenharia de recompensas ou atualizações de gradiente.

Vaishak Kumar

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô que precisa aprender a pegar objetos e colocá-los em lugares específicos. Normalmente, para ensinar um robô assim, os cientistas precisam fazer duas coisas difíceis: ou mostram milhares de vídeos de humanos fazendo a tarefa (como um professor repetindo a lição) ou criam um sistema de recompensas complexo (como dar um "ponto" quando o robô acerta e "tirar ponto" quando erra).

Agora, imagine um robô que não precisa de professor, nem de vídeos, nem de pontos. Ele apenas tenta, erra, olha para o erro, pensa sobre o que aconteceu e reescreve o próprio manual de instruções para tentar de novo.

É exatamente isso que o paper "Act–Observe–Rewrite" (Agir–Observar–Reescrever) propõe. Vamos usar uma analogia simples para entender como funciona:

A Analogia do "Mecânico que Escreve o Manual"

Imagine que você tem um carro (o robô) e um mecânico muito inteligente, mas que nunca dirigiu aquele carro antes (a Inteligência Artificial).

  1. Agir (Act): O mecânico deixa o carro tentar subir uma ladeira. O carro escorrega e cai.
  2. Observar (Observe): O mecânico olha as fotos do acidente, vê que o pneu patinou e que o motor estava muito fraco. Ele não apenas diz "falhou". Ele olha para o manual de instruções do carro (que é escrito em código de computador) e percebe: "Ah! O manual diz para apertar o acelerador de um jeito que não funciona nessa ladeira!"
  3. Reescrever (Rewrite): Em vez de apenas dizer "tente de novo", o mecânico pega uma caneta, pega o manual, rasga a página antiga e escreve uma nova página com as instruções corrigidas. Ele muda a lógica: "Agora, quando a ladeira for íngreme, aperte o freio antes de acelerar".
  4. Repetir: O carro tenta de novo com o novo manual. Se acertar, ótimo. Se errar, o mecânico olha de novo, entende o novo erro e escreve uma nova versão do manual.

O Grande Diferencial: O "Manual" vs. "Ajuste de Parafuso"

A maioria dos robôs modernos funciona como se você estivesse tentando ajustar um rádio antigo. Se o som está ruim, você gira um parafuso (muda um número) e espera que melhore. Se não melhorar, gira outro. É lento e você não sabe por que o som está ruim.

O método deste paper é diferente. O robô não apenas "gira parafusos". Ele reescreve a música inteira.

  • O que a IA faz: Ela lê o código do robô (o manual) e diz: "Olha aqui, a fórmula matemática que calcula a posição do objeto está errada porque o robô está usando a convenção de 'cima' do mundo real, mas a câmera está usando a convenção de 'baixo' do computador. Vamos corrigir essa linha de código."
  • O resultado: O robô aprende a ver o mundo corretamente, não apenas a tentar mais vezes.

Os Experimentos (A Prova de Fogo)

Os pesquisadores testaram essa ideia em três tarefas de "simulação" (um mundo virtual de robôs):

  1. Levantar um cubo: O robô tentou, errou porque estava calculando a altura errada. A IA olhou, percebeu o erro de cálculo no código, corrigiu e, na próxima tentativa, acertou 100% das vezes.
  2. Pegar uma lata de refrigerante: O robô confundiu a lata com um marcador vermelho no chão. A IA olhou as fotos, percebeu que o código estava procurando "qualquer coisa vermelha" e reescreveu o código para procurar "a coisa vermelha maior". Acertou 100%.
  3. Empilhar cubos (A tarefa difícil): O robô conseguiu pegar o cubo, mas ao soltar, esbarrava no outro cubo e derrubava tudo. A IA percebeu o problema visualmente: "O robô está descendo muito rápido e batendo no outro cubo". Ela tentou várias soluções. Conseguiu chegar a 91% de sucesso, mas travou no último 9% porque não conseguiu inventar uma estratégia nova para não bater no cubo (talvez precisasse de um movimento mais lateral, mas a IA não "pensou" nisso).

Por que isso é incrível?

  • Sem Treinamento Pesado: Não precisou de supercomputadores rodando por meses.
  • Sem Demonstração Humana: Ninguém precisou mostrar como fazer.
  • Explicável: Se o robô errar, você pode ler o código que a IA escreveu e entender exatamente onde ela errou. É como ler um diário de bordo.
  • Auto-Correção: A IA consegue encontrar erros de "lógica" que um humano demoraria dias para achar, como uma fórmula matemática invertida.

Resumo Final

Este paper apresenta um robô que é como um aluno muito estudioso e autodidata. Ele não espera o professor corrigir a prova. Ele olha para a prova errada, entende por que errou, pega a caneta, reescreve a regra que usou para resolver o problema e tenta de novo.

É um passo gigante para robôs que precisam trabalhar em ambientes novos, onde não temos vídeos de como fazer a tarefa, mas onde eles precisam aprender a pensar e a corrigir seus próprios "manuais de instrução" sozinhos.