Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (um modelo de linguagem gigante, como o Qwen ou o GPT) que sabe de tudo o que já foi escrito na internet. Ele é muito inteligente, mas tem um problema: ele é um pouco "preguiçoso" e teimoso.

Se você pedir para ele resolver um quebra-cabeça novo em um jogo, ele tende a tentar apenas o que já sabe, mesmo que isso não funcione. Se ele errar, ele tenta de novo da mesma forma errada, sem aprender com o fracasso. É como se ele dissesse: "Eu já li sobre isso, deve funcionar!", mesmo quando o jogo diz "Não, isso não funciona aqui".

Os pesquisadores criaram um novo método chamado EMPO2 para ensinar esse gênio a ser mais curioso e a aprender na prática.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Gênio que não sai da zona de conforto

Antes, os cientistas tentavam treinar esses agentes usando apenas "recompensas" (pontos no jogo). O problema é que, se o agente não sabe o que fazer, ele fica preso em um ciclo de erros. Ele não explora o suficiente para descobrir novas soluções. É como tentar aprender a andar de bicicleta apenas lendo um livro, sem nunca cair e levantar.

2. A Solução: O "Diário de Bordo" (Memória)

O EMPO2 dá ao agente um Diário de Bordo (uma memória externa).

Como funciona: Quando o agente tenta algo e falha, ele não apenas joga fora. Ele escreve no diário: "Ei, tentei focar na lâmpada vermelha, mas ela não estava na sala. Errei! Na próxima, vou procurar na oficina primeiro."
O Pulo do Gato: Na próxima tentativa, antes de agir, o agente lê o diário. Ele usa essas dicas para não cometer o mesmo erro duas vezes. Isso é chamado de aprendizado não paramétrico (aprender sem mudar o cérebro, apenas usando anotações).

3. O Segredo: A "Fusão" de Dois Tipos de Aprendizado

Aqui está a parte genial do EMPO2. Eles combinaram dois tipos de treino:

Treino "No Momento" (On-Policy): O agente joga usando o diário, aprende com os erros e atualiza o diário. É como um aluno fazendo exercícios com um caderno de anotações.
Treino "De Volta" (Off-Policy): Depois de jogar com o diário, o agente tenta internalizar o que aprendeu. Ele joga de novo, mas sem o diário, tentando fazer o que aprendeu na cabeça. É como o aluno fechar o caderno e tentar resolver o problema sozinho para ver se realmente aprendeu.

Se ele conseguir resolver sem o diário, significa que o conhecimento foi incorporado ao cérebro dele (atualização dos parâmetros). Se ele falhar, o diário ajuda a corrigir.

4. A Analogia do "Mestre e o Aprendiz"

Pense no EMPO2 como uma relação entre um Mestre e um Aprendiz:

O Mestre (com Memória): O agente usa o diário para explorar lugares novos e arriscados, descobrindo caminhos que o "Mestre" original não conhecia.
O Aprendiz (sem Memória): O agente tenta imitar o Mestre, mas sem o diário. Ele tenta fazer o que o Mestre fez, mas usando apenas o que aprendeu.
O Resultado: Com o tempo, o Aprendiz não precisa mais do Mestre nem do diário. Ele se torna um Mestre por si só, capaz de resolver problemas novos sem ajuda externa.

5. Por que isso é incrível? (Os Resultados)

Os pesquisadores testaram isso em dois "jogos":

ScienceWorld: Um laboratório virtual onde o agente precisa fazer experimentos científicos (como acender uma lâmpada ou misturar tintas).
WebShop: Uma loja virtual onde o agente precisa encontrar e comprar produtos específicos seguindo instruções complexas.

O que aconteceu?

Os métodos antigos (como o GRPO) travavam em tarefas difíceis.
O EMPO2 não só aprendeu mais rápido, mas também conseguiu se adaptar a tarefas totalmente novas muito rapidamente.
Em um teste, o EMPO2 melhorou em 128% em um dos jogos e em 11% no outro, superando todos os concorrentes.

Resumo em uma frase

O EMPO2 é como dar a um robô superinteligente um caderno de anotações para não esquecer seus erros, e depois ensiná-lo a escrever essas lições na própria mente, para que ele se torne um especialista capaz de resolver qualquer problema novo, mesmo sem o caderno.

Isso é um grande passo para criar agentes de IA que não apenas "sabem" coisas, mas que realmente exploram, aprendem e evoluem como humanos fazem.

Each language version is independently generated for its own context, not a direct translation.

Título: Agente LLM Aumentado por Memória Exploratória via Otimização Híbrida On- e Off-Policy (EMPO2)

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) treinados com Aprendizado por Reforço (RL) enfrentam um gargalo crítico: a exploração.

Dependência de Conhecimento Prévio: A maioria dos agentes LLMs atuais tende a explorar apenas dentro da distribuição de dados em que foram pré-treinados, falhando em ambientes que exigem a descoberta de novos estados ou a aquisição ativa de informações não familiares.
Limitações do RL Online Puro: Algoritmos como GRPO (Group Relative Policy Optimization) muitas vezes convergem prematuramente para soluções subótimas porque não conseguem manter a continuidade entre tentativas (rollouts) além de um sinal de recompensa escalar. O agente repete erros sem analisar as causas de falha.
Limitações da Memória Estática: Métodos anteriores que usam memória externa (como Reflexion) permitem que o agente evite erros passados sem atualizar parâmetros. No entanto, esses métodos saturam rapidamente, pois o conhecimento não é internalizado nos pesos do modelo, limitando a adaptação de longo prazo e a generalização.

2. Metodologia: EMPO2

O EMPO2 propõe um framework unificado de RL híbrido que combina atualizações paramétricas (no modelo) e não paramétricas (memória externa) para superar as limitações de exploração. O algoritmo opera em duas fases principais, cada uma com dois modos:

A. Fase de Rollout (Geração de Trajetórias)

O agente alterna entre dois modos de geração de ações:

Prompting Sem Memória: O agente age apenas com base no estado atual e na tarefa ( $\pi_\theta(\cdot | s_t, u)$ ).
Prompting Aumentado por Memória: O agente recupera "dicas" (tips) relevantes da memória externa e as usa como contexto adicional para gerar a ação ( $\pi_\theta(\cdot | s_t, u, \text{tips}_t)$ $π_{θ} (\cdot ∣ s_{t}, u, tips_{t})$ ).
- As dicas são geradas automaticamente pelo próprio agente ao refletir sobre trajetórias anteriores (ex: "Você tentou focar na lâmpada vermelha, mas ela não estava na sala; você precisa procurar no laboratório").

B. Fase de Atualização (Otimização)

As trajetórias geradas com memória são processadas de duas formas para atualizar os parâmetros do modelo:

Atualização On-Policy: O modelo é atualizado usando o mesmo prompt que foi usado durante o rollout (incluindo as dicas). Isso ajuda a estabilizar o aprendizado quando a memória está presente.
Atualização Off-Policy (Distilação Guiada por Recompensa): Este é o componente inovador.
- O modelo é atualizado para reproduzir as ações tomadas com dicas, mas calcula a probabilidade como se não houvesse dicas ( $\pi_\theta(\cdot | s_t, u)$ ).
- Isso força o modelo a internalizar o conhecimento contido nas dicas nos seus próprios parâmetros. Trajetórias de alta recompensa são reforçadas, enquanto as de baixa recompensa são suprimidas, permitindo que o modelo aprenda a explorar melhor mesmo sem a memória externa no momento da inferência.

C. Componentes Adicionais

Recompensas Intrínsecas: Para incentivar a exploração de estados novos, o sistema adiciona uma recompensa intrínseca baseada na novidade do estado (similaridade cosinosa com estados anteriores).
Mecanismo de Máscara: Para estabilizar o treinamento off-policy e evitar que tokens de baixa probabilidade causem instabilidade (explosão de gradientes), é aplicada uma máscara que suprime termos de vantagem para tokens com probabilidade abaixo de um limiar $\delta$ .

3. Contribuições Principais

Framework Híbrido Unificado: O primeiro método a integrar efetivamente atualizações de memória não paramétrica com otimização on-policy e off-policy em um único ciclo de RL para LLMs.
Internalização de Conhecimento: Diferente de métodos puramente baseados em memória (que dependem de prompts externos), o EMPO2 usa a atualização off-policy para transferir o conhecimento das dicas para os pesos do modelo, permitindo que o agente generalize sem depender da memória externa durante o teste.
Mecanismo de Exploração Ativa: O uso de dicas auto-geradas guia o agente a evitar erros repetidos e a buscar estratégias alternativas, superando a convergência prematura comum em RL online.
Estabilidade e Eficiência: Introdução de técnicas de estabilização (máscara de tokens e recompensas intrínsecas) que permitem o treinamento robusto de agentes em ambientes complexos de múltiplos passos.

4. Resultados Experimentais

Os experimentos foram conduzidos nos benchmarks ScienceWorld (tarefas de raciocínio científico) e WebShop (comércio eletrônico), utilizando o modelo base Qwen2.5-7B-Instruct.

Desempenho In-Distribution (ID):
- ScienceWorld: O EMPO2 superou o baseline GRPO em 128,6%, alcançando pontuações máximas (100) em várias tarefas onde o GRPO falhava ou estagnava.
- WebShop: Melhorou o desempenho do GRPO em 11,3%, superando também baselines de RL offline (Retrospex) e outros métodos online (GiGPO).
Desempenho Out-of-Distribution (OOD) e Adaptação:
- Em testes de adaptação a novas tarefas (ex: mudar de biologia para eletricidade), o EMPO2 demonstrou capacidade de adaptação rápida com apenas algumas tentativas e sem atualizações de pesos, utilizando a memória acumulada.
- O modelo treinado com EMPO2, mesmo sem memória no momento do teste, manteve desempenho superior, provando que o conhecimento foi internalizado.
Estudo de Ablação:
- A remoção de qualquer um dos três modos (On-policy sem memória, On-policy com memória, Off-policy) resultou em desempenho subótimo, confirmando que a combinação híbrida é essencial.
- A recompensa intrínseca mostrou-se crucial para evitar o colapso da política em comportamentos homogêneos.

5. Significado e Impacto

O EMPO2 representa um avanço significativo na construção de agentes LLMs mais adaptáveis e generalizáveis.

Superação do Gargalo de Exploração: Resolve o problema de agentes que "sabem" o que fazer em cenários familiares, mas falham em descobrir novas soluções em ambientes desconhecidos.
Caminho para Inteligência Geral: Ao internalizar os benefícios da memória externa nos parâmetros do modelo, o EMPO2 reduz a dependência de ferramentas externas durante a inferência, movendo-se em direção a agentes autônomos mais robustos.
Eficiência de Amostra: A combinação de exploração guiada por memória e aprendizado off-policy permite que o agente aprenda tarefas complexas com menos interações do que métodos puramente online ou offline.

Em resumo, o EMPO2 demonstra que a integração inteligente entre memória externa (para exploração imediata) e otimização de parâmetros (para aprendizado de longo prazo) é a chave para desbloquear o potencial completo de agentes LLMs em tarefas de raciocínio e decisão sequencial complexas.