ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents
El artículo presenta ToolRLA, un enfoque de entrenamiento post-fase que utiliza una función de recompensa con descomposición multiplicativa en cuatro dimensiones para alinear agentes integrados con herramientas en entornos de alto riesgo, logrando mejoras significativas en la precisión, el cumplimiento normativo y la eficiencia en un asistente financiero real.