MASEval: Extending Multi-Agent Evaluation from Models to Systems
Le papier présente MASEval, une bibliothèque agnostique qui évalue les systèmes d'agents LLM dans leur ensemble en démontrant que le choix du framework impacte la performance autant que celui du modèle, comblant ainsi le vide des benchmarks centrés uniquement sur les modèles.