Meta-RL Induces Exploration in Language Agents
Ce papier présente LaMer, un cadre d'apprentissage par renforcement méta (Meta-RL) qui permet aux agents de modèles de langage d'explorer activement et de s'adapter en contexte grâce à la réflexion, surpassant ainsi les méthodes RL classiques sur des tâches complexes nécessitant une exploration à long terme.