Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
O artigo apresenta o EMPO, um framework híbrido de aprendizado por reforço que integra memória para aprimorar a exploração e combina atualizações on- e off-policy, resultando em agentes de LLM significativamente mais adaptáveis e com melhor desempenho em tarefas novas e ambientes complexos.