Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems
Ce papier propose un cadre d'évaluation pour les systèmes d'IA scientifiques multi-agents en identifiant les défis du benchmarking tels que la contamination des données et l'absence de vérité terrain, tout en suggérant des stratégies pour créer des tâches résilientes et en validant ces approches via des tests de faisabilité et des entretiens avec des chercheurs en physique quantique.