Interactive Benchmarks
Cet article propose les « Interactive Benchmarks », un nouveau paradigme d'évaluation unifié qui mesure la capacité de raisonnement des modèles dans des processus interactifs sous contraintes budgétaires, démontrant ainsi que les benchmarks traditionnels sont insuffisants et qu'il existe encore d'importantes marges de progression dans les scénarios interactifs.