Recurrent Action Transformer with Memory

O artigo propõe o Recurrent Action Transformer with Memory (RATE), uma nova arquitetura baseada em transformers que integra um mecanismo de memória recorrente para superar as limitações de contexto em ambientes parcialmente observáveis, demonstrando desempenho superior em tarefas dependentes de memória e competitividade em benchmarks padrão de RL offline.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev, Aleksandr I. Panov

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a jogar um jogo muito difícil, como um labirinto gigante ou um videogame de ação. O problema é que, para ganhar, o robô precisa lembrar de algo que viu muito tempo atrás, talvez no início do jogo, mas que não aparece mais na tela agora.

Aqui entra a história do RATE (Recurrent Action Transformer with Memory), uma nova inteligência artificial apresentada neste artigo. Vamos explicar como ela funciona usando analogias do dia a dia.

1. O Problema: O "Cérebro" que esquece rápido

Antes do RATE, existiam modelos de IA muito inteligentes chamados Transformers (os mesmos usados em chatbots como o meu). Eles são ótimos para ler textos longos e entender o contexto. No entanto, eles têm um defeito grave: eles têm uma "memória de curto prazo" limitada.

  • A Analogia: Imagine que você está lendo um livro, mas a cada 10 páginas, o livro apaga as 9 páginas anteriores e só mostra a página 10. Se a resposta para o quebra-cabeça atual estiver na página 1, você já perdeu.
  • Na prática: Em jogos ou tarefas complexas, o "janela de visão" desses modelos é pequena. Se o jogo for longo, eles esquecem a dica crucial que receberam no início.

2. A Solução: O RATE com seu "Diário de Bordo"

Os autores criaram o RATE para resolver isso. Eles pegaram o Transformer e deram a ele um diário de bordo (memória) que ele carrega consigo o tempo todo.

O RATE funciona como um explorador dividindo uma longa jornada em etapas:

  1. Caminho em Etapas: Em vez de tentar ver todo o caminho de uma vez (o que é impossível para a memória padrão), o RATE divide a jornada em pequenos pedaços (segmentos).
  2. O Diário (Memória): Ao final de cada pedaço, o explorador escreve um resumo importante no seu diário.
  3. A Valvula de Retenção (MRV): Esta é a parte mais genial. Imagine que você tem um diário, mas às vezes você escreve coisas inúteis que apagam as informações importantes. O RATE tem uma "Valvula de Retenção de Memória". É como um guarda inteligente que decide: "O que eu escrevi agora é importante? Devo guardar isso junto com o que já estava no diário, ou devo apagar?".
    • Isso evita que informações vitais (como "o caminho da esquerda é o correto") sejam apagadas por informações novas e irrelevantes.

3. Onde o RATE Brilha?

O papel testou o RATE em vários cenários:

  • Labirintos (T-Maze): O robô recebe uma dica no início (ex: "vire à direita no final"). Depois, ele caminha por um corredor longo e escuro. No final, precisa lembrar da dica.
    • Resultado: O RATE lembrou perfeitamente. Modelos antigos esqueceram a dica assim que ela saiu da tela.
  • Jogos de Vídeo (ViZDoom): O robô vê uma coluna de cor vermelha ou verde no início. Depois, precisa coletar apenas itens da mesma cor.
    • Resultado: O RATE manteve a cor na memória e jogou perfeitamente, enquanto os outros erravam.
  • Jogos Comuns (Atari e MuJoCo): O RATE também jogou jogos clássicos como Pong e Breakout.
    • Resultado: Ele jogou tão bem quanto os melhores especialistas, mostrando que ter memória não atrapalha quando você não precisa dela. Ele é versátil!

4. Por que isso é importante?

Muitas tarefas do mundo real são como esses labirintos:

  • Um médico precisa lembrar de um sintoma leve que o paciente teve há uma semana para diagnosticar uma doença hoje.
  • Um carro autônomo precisa lembrar de uma placa que viu há 500 metros para tomar uma decisão agora.
  • Um investidor precisa lembrar de uma notícia antiga para tomar uma decisão de compra.

O RATE mostra que podemos criar IAs que não apenas "olham para o agora", mas que integram o passado ao presente de forma inteligente, sem se perderem em informações inúteis.

Resumo em uma frase

O RATE é como um explorador que, em vez de tentar decorar todo o mapa de uma vez, escreve resumos inteligentes em um caderno especial à medida que avança, garantindo que nunca esqueça a direção certa, não importa o quão longa seja a viagem.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →