MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Este trabalho apresenta o MEM (Multi-Scale Embodied Memory), uma arquitetura de memória mista que combina representações de vídeo de curto prazo e texto de longo prazo para capacitar modelos de ação visual e linguística a executar tarefas robóticas complexas de longa duração e adaptar suas estratégias de manipulação de forma inteligente.

Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a cozinhar o jantar de uma família inteira. Se você apenas disser ao robô "faça o jantar" e ele olhar apenas para o que está vendo agora, ele vai ficar perdido. Ele vai esquecer que já pegou o leite, vai esquecer que já lavou a panela e pode até tentar abrir a geladeira que já está fechada.

O problema é que a memória de um robô tradicional é muito curta. É como se ele tivesse um "amnésia" a cada segundo que passa.

Aqui entra o MEM (Memória Corporificada Multi-Escala), uma nova tecnologia apresentada por pesquisadores que funciona como um sistema de memória de dois níveis para robôs, combinando o melhor de dois mundos: a visão rápida e a sabedoria de longo prazo.

Vamos usar uma analogia simples para entender como isso funciona:

1. A Memória de Curto Prazo: "O Olho que Tudo Vê" (Vídeo)

Imagine que você está tentando pegar um copo de vidro que caiu e está escondido atrás de uma cadeira. Você precisa lembrar exatamente onde ele estava há 2 segundos para saber como alcançá-lo sem derrubar nada.

  • Como o robô faz isso: O MEM usa um "encoder de vídeo" super eficiente. É como se o robô tivesse uma câmera de alta velocidade que grava os últimos segundos de ação e comprime essa informação em um "resumo visual".
  • A Analogia: Pense nisso como o reflexo de um atleta. Se um jogador de futebol erra um chute, ele não precisa pensar "quem sou eu? onde estou?". Ele usa a memória muscular e visual imediata para corrigir o movimento na próxima tentativa. O MEM permite que o robô faça isso: se ele tentar pegar um objeto e falhar, ele "lembra" do vídeo dos últimos segundos para ajustar a pegada imediatamente, sem precisar de um manual de instruções.

2. A Memória de Longo Prazo: "O Diário de Bordo" (Texto)

Agora, imagine que o robô precisa cozinhar um prato complexo que leva 15 minutos. Ele precisa lembrar: "Já coloquei o sal?", "Já abri a geladeira?", "Qual é o próximo passo da receita?". Guardar 15 minutos de vídeo na memória seria como tentar ler um livro inteiro de uma vez só para tomar uma decisão rápida; seria muito lento e confuso.

  • Como o robô faz isso: O MEM usa uma memória baseada em linguagem. Em vez de guardar o vídeo, o robô escreve um "diário" ou um "resumo" do que aconteceu.
  • A Analogia: Pense no robô como um chef de cozinha experiente. Ele não precisa lembrar de cada segundo do processo de cortar a cebola. Ele apenas mantém em mente: "Já cortei a cebola, agora vou fritar". Se ele errar e tentar cortar a cebola de novo, o "diário" (a memória de texto) diz: "Ei, você já fez isso!".
  • O Truque Inteligente: O sistema é inteligente o suficiente para resumir. Em vez de escrever "Peguei a tigela azul, depois a verde, depois a amarela...", ele escreve "Peguei três tigelas". Isso economiza espaço e mantém o robô rápido.

O Grande Desafio: O Robô que Esquece

Sem essa tecnologia, os robôs atuais (como o modelo π0.6\pi0.6) são como pessoas com um déficit de atenção severo. Se você pedir para eles limpar a cozinha inteira, eles podem limpar a pia, esquecer de fechar a geladeira, limpar a pia de novo e entrar em um loop infinito.

Com o MEM, o robô consegue:

  1. Resolver tarefas longas: Limpar uma cozinha inteira ou preparar um sanduíche de queijo grelhado do início ao fim (até 15 minutos de duração).
  2. Aprender com erros no momento: Se o robô tentar abrir uma geladeira e a porta estiver travada, ele lembra da tentativa falha e tenta abrir de outro ângulo ou empurrar com mais força, em vez de tentar a mesma coisa errada 10 vezes seguidas.
  3. Ver o que está escondido: Se o braço do robô cobrir um objeto (occlusão), ele usa a memória de vídeo de frações de segundo para saber exatamente onde o objeto está, mesmo não conseguindo vê-lo no momento.

Em Resumo

O MEM é como dar ao robô um cérebro híbrido:

  • Um sistema visual rápido (como um guarda-costas atento) que cuida dos detalhes imediatos e corrige erros na hora.
  • Um arquivista de texto (como um assistente pessoal organizado) que mantém o registro do que já foi feito para que o robô não perca o rumo em tarefas longas.

Essa combinação permite que os robôs deixem de ser apenas máquinas que reagem ao "agora" e se tornem parceiros capazes de planejar e executar tarefas complexas do mundo real, como cozinhar, limpar e organizar, sem precisar de um humano segurando a mão o tempo todo.