One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Ce papier présente One-Eval, un système agentic automatisé qui transforme les requêtes d'évaluation en langage naturel en flux de travail exécutables et traçables pour simplifier, standardiser et rendre reproductible l'évaluation des grands modèles de langage.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

Publié Wed, 11 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous êtes un chef cuisinier célèbre (votre modèle de langage) et que vous voulez savoir si votre nouveau plat est vraiment délicieux. Normalement, pour le tester, vous devriez :

  1. Trouver les meilleurs critiques gastronomiques (les benchmarks).
  2. Imprimer leurs formulaires de notation spécifiques.
  3. Traduire votre recette dans leur langue.
  4. Organiser le service, compter les points, et écrire un rapport.

C'est fastidieux, technique, et souvent source d'erreurs. C'est exactement le problème que résout One-Eval.

Voici une explication simple de ce système, comme si on vous racontait une histoire :

🤖 One-Eval : Votre Assistant de Cuisine Automatique et Intelligente

One-Eval est un système "agentique" (c'est-à-dire qu'il agit comme un assistant intelligent) qui transforme une simple phrase en français (ex: "Vérifie si mon modèle est bon en mathématiques et en logique") en un test complet, automatisé et vérifiable.

Au lieu de vous fatiguer à configurer des outils complexes, vous parlez simplement à One-Eval, et il fait tout le travail de terrain pour vous.

🛠️ Comment ça marche ? (Les 3 Étapes Magiques)

Le système fonctionne comme une équipe de trois experts qui travaillent ensemble :

1. Le Traducteur de Désirs (NL2Bench)

  • L'analogie : Imaginez un chef de cuisine très intuitif qui écoute votre envie vague ("Je veux un plat qui pique et qui est sain") et la transforme en une liste d'ingrédients précis et de recettes connues.
  • Ce qu'il fait : Il prend votre phrase en langage naturel, comprend ce que vous voulez vraiment (maths, logique, sécurité ?), et va chercher les meilleurs "examens" (benchmarks) disponibles dans sa bibliothèque ou sur Internet pour correspondre à votre demande. Il vous montre ce qu'il a trouvé et vous demande : "Ça te va ?" avant de continuer.

2. Le Préparateur de Cuisine (BenchResolve)

  • L'analogie : C'est le commis de cuisine qui va chercher les ingrédients, les lave, les coupe et s'assure que tous les bols sont de la bonne taille. Souvent, les recettes (benchmarks) sont écrites dans des formats différents ou utilisent des ingrédients introuvables.
  • Ce qu'il fait : Il télécharge automatiquement les données nécessaires, nettoie le "chaos" (par exemple, s'un examen appelle la question "Q" et un autre "Question", il les met sur le même pied d'égalité). Il s'assure que tout est prêt à être exécuté sans que vous ayez à toucher à un seul fichier de configuration.

3. Le Critique Gastronomique (Metrics & Reporting)

  • L'analogie : Au lieu de vous donner juste une note sur 20 (ex: "14/20"), ce critique vous explique pourquoi vous avez eu cette note. Il vous dit : "Tu as raté les légumes, mais ta sauce était parfaite. Voici un exemple précis où tu as échoué."
  • Ce qu'il fait : Il ne se contente pas de calculer un score. Il analyse les erreurs, classe les résultats par type de problème, et génère un rapport clair pour vous aider à prendre une décision (ex: "Ce modèle est prêt pour la production, mais attention aux erreurs de calcul".).

🤝 La Touche Humaine (Le "Human-in-the-Loop")

Le système est intelligent, mais il n'est pas arrogant. À chaque étape importante, il s'arrête pour vous demander votre avis.

  • "J'ai trouvé ces 3 examens. Tu veux en ajouter un autre ?"
  • "Je pense que cette configuration est bonne. Tu valides ?"

Si vous dites "Non" ou "Change ça", le système recule, ajuste le tir et recommence. C'est comme un co-pilote qui vérifie toujours avec vous avant de décoller.

📊 Pourquoi c'est révolutionnaire ?

Avant, évaluer une intelligence artificielle ressemblait à bricoler une voiture avec un marteau : il fallait tout assembler soi-même, c'était lent et risqué.

Avec One-Eval, c'est comme appeler un Uber :

  1. Vous dites où vous voulez aller (votre objectif d'évaluation).
  2. Le système trouve le meilleur trajet, conduit la voiture, et vous dépose à destination avec un reçu détaillé.
  3. Vous n'avez qu'à vérifier que vous êtes bien arrivé.

En résumé

One-Eval rend l'évaluation des intelligences artificielles aussi simple que de poser une question. Il transforme le travail de "bricoleur technique" en un processus fluide, automatisé et transparent, permettant aux entreprises de savoir si leurs modèles sont vraiment bons, et pourquoi, sans perdre des semaines à configurer des outils.