CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants
Ce papier présente CelloAI, une suite de benchmarks reproductibles conçue pour évaluer de manière uniforme les performances des assistants IA dans la génération de code, la documentation et l'analyse de données pour les domaines spécifiques de la physique des hautes énergies et de l'informatique haute performance.