FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
O artigo apresenta o FinToolBench, o primeiro benchmark executável do mundo real projetado para avaliar agentes de IA no uso de ferramentas financeiras, oferecendo um ecossistema com 760 ferramentas executáveis e um novo framework de avaliação que prioriza a precisão, a conformidade regulatória e a estabilidade em cenários financeiros de alto risco.