Hindsight Credit Assignment for Long-Horizon LLM Agents
O artigo apresenta o HCAPO, um novo framework que integra atribuição de crédito retrospectiva para superar os desafios de aprendizado em tarefas de longo prazo de agentes LLM, superando métodos existentes como o GRPO em benchmarks complexos ao refinar a estimativa de valores e melhorar a eficiência exploratória.