ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents
O artigo apresenta o ToolRLA, um pipeline de pós-treinamento em três estágios que utiliza uma função de recompensa com decomposição multiplicativa de quatro dimensões para alinhar agentes integrados a ferramentas em cenários de alto risco, resultando em melhorias significativas na taxa de conclusão de tarefas, redução de erros de invocação e conformidade regulatória em um copiloto de consultoria financeira.