ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
El artículo presenta ARLArena, un marco unificado para analizar la estabilidad en el aprendizaje por refuerzo agéntico (ARL), y propone SAMPO, un método de optimización que garantiza un entrenamiento estable y de alto rendimiento en diversas tareas.