Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

O artigo apresenta o EMPO2^2, um framework híbrido de aprendizado por reforço que integra memória para aprimorar a exploração e combina atualizações on- e off-policy, resultando em agentes de LLM significativamente mais adaptáveis e com melhor desempenho em tarefas novas e ambientes complexos.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (um modelo de linguagem gigante, como o Qwen ou o GPT) que sabe de tudo o que já foi escrito na internet. Ele é muito inteligente, mas tem um problema: ele é um pouco "preguiçoso" e teimoso.

Se você pedir para ele resolver um quebra-cabeça novo em um jogo, ele tende a tentar apenas o que já sabe, mesmo que isso não funcione. Se ele errar, ele tenta de novo da mesma forma errada, sem aprender com o fracasso. É como se ele dissesse: "Eu já li sobre isso, deve funcionar!", mesmo quando o jogo diz "Não, isso não funciona aqui".

Os pesquisadores criaram um novo método chamado EMPO2 para ensinar esse gênio a ser mais curioso e a aprender na prática.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Gênio que não sai da zona de conforto

Antes, os cientistas tentavam treinar esses agentes usando apenas "recompensas" (pontos no jogo). O problema é que, se o agente não sabe o que fazer, ele fica preso em um ciclo de erros. Ele não explora o suficiente para descobrir novas soluções. É como tentar aprender a andar de bicicleta apenas lendo um livro, sem nunca cair e levantar.

2. A Solução: O "Diário de Bordo" (Memória)

O EMPO2 dá ao agente um Diário de Bordo (uma memória externa).

  • Como funciona: Quando o agente tenta algo e falha, ele não apenas joga fora. Ele escreve no diário: "Ei, tentei focar na lâmpada vermelha, mas ela não estava na sala. Errei! Na próxima, vou procurar na oficina primeiro."
  • O Pulo do Gato: Na próxima tentativa, antes de agir, o agente lê o diário. Ele usa essas dicas para não cometer o mesmo erro duas vezes. Isso é chamado de aprendizado não paramétrico (aprender sem mudar o cérebro, apenas usando anotações).

3. O Segredo: A "Fusão" de Dois Tipos de Aprendizado

Aqui está a parte genial do EMPO2. Eles combinaram dois tipos de treino:

  • Treino "No Momento" (On-Policy): O agente joga usando o diário, aprende com os erros e atualiza o diário. É como um aluno fazendo exercícios com um caderno de anotações.
  • Treino "De Volta" (Off-Policy): Depois de jogar com o diário, o agente tenta internalizar o que aprendeu. Ele joga de novo, mas sem o diário, tentando fazer o que aprendeu na cabeça. É como o aluno fechar o caderno e tentar resolver o problema sozinho para ver se realmente aprendeu.

Se ele conseguir resolver sem o diário, significa que o conhecimento foi incorporado ao cérebro dele (atualização dos parâmetros). Se ele falhar, o diário ajuda a corrigir.

4. A Analogia do "Mestre e o Aprendiz"

Pense no EMPO2 como uma relação entre um Mestre e um Aprendiz:

  1. O Mestre (com Memória): O agente usa o diário para explorar lugares novos e arriscados, descobrindo caminhos que o "Mestre" original não conhecia.
  2. O Aprendiz (sem Memória): O agente tenta imitar o Mestre, mas sem o diário. Ele tenta fazer o que o Mestre fez, mas usando apenas o que aprendeu.
  3. O Resultado: Com o tempo, o Aprendiz não precisa mais do Mestre nem do diário. Ele se torna um Mestre por si só, capaz de resolver problemas novos sem ajuda externa.

5. Por que isso é incrível? (Os Resultados)

Os pesquisadores testaram isso em dois "jogos":

  • ScienceWorld: Um laboratório virtual onde o agente precisa fazer experimentos científicos (como acender uma lâmpada ou misturar tintas).
  • WebShop: Uma loja virtual onde o agente precisa encontrar e comprar produtos específicos seguindo instruções complexas.

O que aconteceu?

  • Os métodos antigos (como o GRPO) travavam em tarefas difíceis.
  • O EMPO2 não só aprendeu mais rápido, mas também conseguiu se adaptar a tarefas totalmente novas muito rapidamente.
  • Em um teste, o EMPO2 melhorou em 128% em um dos jogos e em 11% no outro, superando todos os concorrentes.

Resumo em uma frase

O EMPO2 é como dar a um robô superinteligente um caderno de anotações para não esquecer seus erros, e depois ensiná-lo a escrever essas lições na própria mente, para que ele se torne um especialista capaz de resolver qualquer problema novo, mesmo sem o caderno.

Isso é um grande passo para criar agentes de IA que não apenas "sabem" coisas, mas que realmente exploram, aprendem e evoluem como humanos fazem.