Internalizing Agency from Reflective Experience

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô muito inteligente a jogar um jogo de tabuleiro complexo, como xadrez ou um labirinto gigante.

O problema com a maioria dos robôs hoje em dia é como eles aprendem. Se você usar o método tradicional (chamado de aprendizado por recompensa), o robô só recebe um "bom trabalho" ou "tente de novo" no final do jogo.

Se ele ganha, ele fica feliz.
Se ele perde, ele fica triste, mas não sabe exatamente onde errou. Foi no passo 1? No passo 50? Ele só sabe que o resultado final foi ruim.

Com o tempo, esse método faz o robô ficar "teimoso". Ele começa a repetir apenas as poucas jogadas que já funcionaram antes, ignorando a chance de descobrir novas estratégias. É como um aluno que decora a resposta certa de um teste, mas não entende a matéria. Se a pergunta mudar um pouquinho, ele trava.

A Solução: LEAFE (O Robô que Aprende com seus Erros)

Os autores deste artigo criaram um novo método chamado LEAFE. A ideia central é transformar o robô em um detetive de seus próprios erros.

Aqui está como funciona, usando uma analogia simples:

1. A Fase de Exploração (O "Replay" e o "Ponto de Salvação")

Imagine que o robô está jogando e começa a se perder no labirinto. Em vez de esperar o fim do jogo para saber que errou, o LEAFE faz algo diferente:

O Pausar Mágico: Assim que o robô percebe que está indo para o buraco (recebe um feedback negativo, como um erro de código ou uma parede), ele pausa o tempo.
O Diagnóstico: Ele olha para trás e diz: "Espera! No passo 10, eu deveria ter virado à esquerda, não à direita. Foi ali que tudo deu errado."
O "Sair do Ponto": O robô volta no tempo (faz um rollback) até aquele passo 10 e tenta uma nova ação baseada no que aprendeu. Ele cria um "galho" novo na árvore de possibilidades.

É como se você estivesse dirigindo, viu que ia bater no carro da frente, e em vez de esperar o acidente acontecer, você desviou o carro instantaneamente e anotou mentalmente: "Na próxima vez que virar aqui, vou frear mais cedo".

2. A Fase de Internalização (O "Treino Definitivo")

Depois de fazer muitos desses "replays" e correções, o robô não precisa mais de um professor para apontar o erro.

O sistema pega todas essas lições aprendidas (o "onde errei" e "como corrigi") e queima essas informações diretamente no cérebro do robô (nos seus pesos e parâmetros).
Agora, quando o robô for jogar sozinho, ele já sabe instintivamente: "Ah, se eu virar à direita aqui, vou bater. Melhor virar à esquerda."

Por que isso é incrível? (A Analogia do "Pass@K")

Para medir se o robô é bom, os cientistas usam uma métrica chamada Pass@K.

Pass@1: É a chance do robô acertar na primeira tentativa.
Pass@128: É a chance do robô acertar se você der a ele 128 tentativas para resolver o mesmo problema.

Os métodos antigos (como o GRPO mencionado no texto) são ótimos em aumentar o Pass@1. Eles fazem o robô ser muito bom em repetir o que já sabe. Mas, se você der 128 tentativas, eles não melhoram muito, porque o robô ficou "preso" nas mesmas estratégias antigas.

O LEAFE, por outro lado, ensina o robô a explorar.

Ele melhora o Pass@1 (o robô acerta mais na primeira vez).
Mas o grande milagre é o Pass@128: O robô consegue descobrir muitas mais soluções diferentes porque ele aprendeu a corrigir erros no meio do caminho, não apenas no final.

Resumo da Ópera

Pense no LEAFE como a diferença entre:

Um aluno que só estuda a resposta final do gabarito (Método Antigo): Ele acerta o teste se a pergunta for igual, mas falha se a pergunta mudar.
Um aluno que estuda o "porquê" de cada erro (LEAFE): Ele entende a lógica, sabe onde errou, sabe como corrigir e, por isso, consegue resolver problemas novos e complexos com muito mais facilidade.

Em suma: O LEAFE ensina a inteligência artificial a não ter medo de errar, mas sim a usar o erro como um mapa para encontrar o caminho certo, tornando-a mais inteligente, flexível e capaz de resolver problemas difíceis sem precisar de ajuda externa toda hora.

Each language version is independently generated for its own context, not a direct translation.

Título: Internalizing Agency from Reflective Experience (LEAFE)

Autores: Rui Ge, Yichao Fu, Yu-Yang Qian, Junda Su, Yiming Zhao, Peng Zhao, Hao Zhang.
Instituições: UCSD, Shanghai Jiao Tong University, Nanjing University.

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) estão sendo cada vez mais implantados como agentes autônomos que devem planejar, agir e recuperar-se de erros em interações de longo prazo com ambientes ricos em feedback. No entanto, os métodos de pós-treinamento predominantes, como o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) (ex: GRPO), focam excessivamente em sinais de sucesso final (recompensas escalares terminais).

Isso gera dois problemas principais:

Subutilização do Feedback: O feedback rico do ambiente (erros de compilação, transições de estado inválidas, mensagens de erro) é reduzido a um único sinal binário de sucesso/fracasso, perdendo informações cruciais sobre onde e por que o agente falhou.
Afinamento de Distribuição (Distribution Sharpening): O RLVR tende a aumentar a probabilidade de um pequeno conjunto de trajetórias já bem-sucedidas. Embora isso possa melhorar a taxa de sucesso em uma única tentativa (Pass@1), ele falha em expandir a capacidade de resolução de problemas do modelo em cenários de longo prazo. Consequentemente, o desempenho em grandes orçamentos de amostragem (Pass@k, onde $k$ é grande) estagna ou melhora pouco, limitando a "agência" do modelo para explorar novas soluções e corrigir erros dinamicamente.

2. Metodologia: LEAFE

Os autores propõem o LEAFE (Learning Feedback-Grounded Agency from Reflective Experience), um framework de duas etapas projetado para internalizar a capacidade de recuperação baseada em feedback diretamente nos pesos do modelo, reduzindo a dependência de computação cara em tempo de teste (como múltiplas tentativas ou busca em árvore).

Etapa 1: Geração de Experiência Baseada em Árvore com Retrocesso (Rollback)

Nesta fase, o agente explora o ambiente e gera dados de treinamento ricos em correções:

Reflexão Periódica: Durante a exploração, o agente analisa periodicamente a trajetória atual. Se detectar um desvio ou falha, ele identifica um ponto de decisão subótimo ( $\tau$ ).
Resumo de Experiência: O agente gera um resumo de experiência ( $e$ ) que diagnostica o erro e sugere uma correção.
Retrocesso e Ramificação (Rollback & Branching): O sistema "volta no tempo" para o ponto $\tau$ , restaura o estado do ambiente e, guiado pela experiência $e$ , gera uma ação revisada ( $a'$ ). Isso cria uma nova ramificação na trajetória que segue o caminho de Falha $\to$ Retrocesso $\to$ Correção $\to$ Sucesso.
Resultado: Gera-se um conjunto de dados contendo pares de "história original + ação corrigida" (dados contrafactuais) e trajetórias de sucesso.

Etapa 2: Destilação de Experiência para Política (Experience-to-Policy Distillation)

Nesta fase, o modelo é ajustado para internalizar as correções aprendidas:

Destilação Contrafactual ( $L_{cf}$ ): O modelo é treinado para prever a ação corrigida ( $a'$ ) dada apenas a história original ( $h_\tau$ ) e a instrução, sem receber o resumo de experiência ( $e$ ) durante o teste. Isso força o modelo a aprender a lógica de correção internamente.
Repetição de Comportamento ( $L_{reh}$ ): Para evitar o esquecimento catastrófico, o modelo também é treinado em trajetórias de sucesso originais (amostragem por rejeição) para manter suas capacidades fundamentais.
Objetivo Final: A função de perda combina a destilação de correção e a repetição de comportamento, resultando em uma política que consegue recuperar-se de erros de forma intrínseca.

3. Contribuições Chave

Exploração Estruturada via Feedback: Transforma sinais escalares em ramificações guiadas por experiência (retrocesso + correção), permitindo exploração direcionada além dos modos dominantes da política base.
Supervisão Mais Rica que Recompensas Escalares: Fornece supervisão no nível da decisão ("refletir $\to$ revisar"), especificando explicitamente onde a trajetória errou e como corrigi-la, em vez de tratar cada tentativa como uma amostra independente pontuada apenas no final.
Recuperação Internalizada: Ao ajustar o modelo com ações pós-retrocesso, a capacidade de recuperação baseada em feedback é incorporada aos pesos do modelo, expandindo a cobertura comportamental e melhorando significativamente o Pass@k em interações de longo prazo.

4. Resultados Experimentais

O LEAFE foi avaliado em diversos benchmarks de agentes interativos (WebShop, ALFWorld, ScienceWorld, Sokoban e CodeContests) usando modelos como Qwen2.5 e Llama-3.

Desempenho em Pass@k: O LEAFE superou consistentemente as linhas de base (Base, GRPO, EarlyExp, ACE), especialmente em grandes orçamentos de amostragem.
- Em CodeContests, o LEAFE alcançou ganhos de até 14% no Pass@128 em comparação com o modelo base, enquanto o GRPO mostrou ganhos limitados.
- Em WebShop e ALFWorld, o LEAFE manteve uma eficiência superior, atingindo limites de desempenho (ceilings) mais altos.
Eficiência de Amostragem: O método alcançou o mesmo limiar de precisão com menos amostras do que as abordagens baseadas apenas em recompensa, demonstrando uma melhor conversão de orçamento de amostragem em sucesso.
Generalização OOD (Out-of-Distribution): Em testes no conjunto MBPP (treinado em CodeContests), o LEAFE manteve o desempenho e superou o modelo base, enquanto o GRPO sofreu degradação significativa, indicando que o LEAFE aprende uma agência reflexiva fundamental em vez de apenas memorizar atalhos do conjunto de dados.
Análise de Ablação: A adição da destilação contrafactual ( $L_{cf}$ ) foi crucial para melhorar o Pass@128, enquanto a repetição de comportamento ( $L_{reh}$ ) garantiu a estabilidade do Pass@1.

5. Significado e Conclusão

O trabalho LEAFE demonstra que a simples otimização para recompensas finais (RLVR) é insuficiente para criar agentes robustos em ambientes complexos de longo prazo. Ao internalizar a capacidade de refletir sobre falhas, identificar pontos de erro e corrigir trajetórias diretamente nos pesos do modelo, o LEAFE transforma o feedback do ambiente em uma supervisão acionável.

Isso representa uma mudança de paradigma: em vez de depender de computação pesada em tempo de teste (como múltiplas tentativas ou busca em árvore externa) para contornar erros, o modelo adquire uma "agência" intrínseca para se recuperar. Isso não apenas melhora a eficiência de amostragem, mas expande o limite real da capacidade do modelo, permitindo que ele resolva problemas mais complexos que exigem iteração e correção contínua.