Adaptive Social Learning via Mode Policy Optimization for Language Agents
Este artículo presenta ASL, un marco de aprendizaje social adaptativo que utiliza el algoritmo AMPO para optimizar la política de modos de razonamiento en agentes de lenguaje, logrando un mejor rendimiento y una mayor eficiencia en tokens mediante la adaptación dinámica de la profundidad del razonamiento según el contexto social.