ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
Dit paper introduceert ARLArena, een gestructureerd raamwerk voor het analyseren van trainingsstabiliteit in agentic reinforcement learning, en presenteert SAMPO, een nieuwe methode die instabiliteit aanpakt en robuuste prestaties garandeert voor LLM-gebaseerde agenten.