\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez invité un groupe de robots très intelligents (les modèles d'IA) à passer un examen. Jusqu'à présent, ces robots excellaient dans des examens de type "QCM" ou des énigmes logiques, un peu comme s'ils étaient des champions du Scrabble ou des joueurs d'échecs.

Mais le papier que vous présentez, $OneMillion-Bench, pose une question différente et beaucoup plus sérieuse : "Ces robots sont-ils prêts à travailler dans de vraies entreprises, à gérer de l'argent, à soigner des patients ou à rédiger des contrats juridiques ?"

Voici une explication simple, imagée et en français de ce que les auteurs ont fait et découvert.

1. Le Problème : Les robots sont des "théoriciens", pas des "praticiens"

Imaginez que vous embauchez un chirurgien. Si vous lui demandez de réciter la théorie sur le cœur, il est excellent. Mais si vous lui demandez d'opérer un patient en urgence, avec des instruments précis et des règles strictes, la théorie ne suffit pas.

Actuellement, les benchmarks (tests) pour l'IA ressemblent à des examens de fin d'études. Ils sont propres, structurés et ont une seule bonne réponse. Mais le vrai monde professionnel est un champ de bataille chaotique :

Il faut chercher des informations dans des documents officiels.
Il faut trancher entre des preuves contradictoires.
Il faut respecter des règles légales complexes.
Une erreur de détail peut coûter des millions.

2. La Solution : Le "$OneMillion-Bench" (Le Banc d'Essai du Million)

Les auteurs ont créé un nouveau test, qu'ils appellent $OneMillion-Bench. Pourquoi ce nom ? Parce qu'ils ont estimé que la valeur totale du travail humain nécessaire pour créer et résoudre ces 400 tâches dépasse un million de dollars.

C'est comme si, au lieu de demander aux robots de résoudre des équations mathématiques abstraites, on leur disait :

"Voici un dossier de 500 pages sur une fusion d'entreprise. Trouvez l'erreur fiscale, vérifiez la conformité légale, et calculez le risque. Si vous vous trompez, l'entreprise perd de l'argent."

Le test couvre 5 domaines critiques :

Finance (comme un expert-comptable).
Droit (comme un avocat).
Santé (comme un médecin).
Sciences (comme un chercheur).
Industrie (comme un ingénieur).

3. Comment ça marche ? La Grille de Notation (Le "Rubric")

Dans un examen classique, on note la réponse finale (Vrai/Faux). Ici, c'est différent. Les auteurs utilisent une grille de notation détaillée, comme un juge de concours de cuisine.

Ce n'est pas seulement "est-ce que le plat est bon ?"
C'est : "A-t-il utilisé les bons ingrédients ? A-t-il respecté l'hygiène ? La présentation est-elle conforme ? A-t-il suivi la recette à la lettre ?"

Si l'IA donne la bonne réponse finale mais qu'elle a inventé une source (hallucination) ou ignoré une règle de sécurité, elle perd des points. C'est crucial : le processus compte autant que le résultat.

4. Les Résultats : Qui gagne ?

Les auteurs ont testé 35 modèles d'IA (les plus puissants du moment, comme Claude, GPT-5, Gemini, etc.). Voici les découvertes principales, expliquées avec des métaphores :

Le champion est... Claude Opus 4.6 : C'est le robot qui a le mieux géré le chaos. Il a su naviguer dans les documents, trouver les bonnes infos et respecter les règles.
L'outil de recherche est une épée à double tranchant :
- Pour les robots intelligents, ajouter un moteur de recherche (comme Google) les rend encore plus forts, comme un détective qui a accès à une immense bibliothèque.
- Mais pour les robots moins avancés, cela les perd. Ils se noient dans l'information, lisent des choses fausses et s'emmêlent les pinceaux. C'est comme donner un marteau à un enfant : ça peut servir, mais ça risque de casser quelque chose.
Les "Spécialistes" ne battent pas les "Généralistes" : Les robots conçus spécifiquement pour faire des recherches profondes ("Deep Research Agents") sont bons, mais ils ne sont pas nécessairement meilleurs que les grands modèles polyvalents qui savent utiliser des outils.
Le fossé de la réalité : Même les meilleurs robots échouent souvent sur des tâches simples mais critiques. Ils peuvent écrire un texte magnifique, mais oublier une règle de sécurité vitale. Ils sont encore loin d'être des "experts humains" fiables.

5. Pourquoi c'est important ? (La Valeur Économique)

L'idée centrale du papier est de passer de la question "L'IA est-elle intelligente ?" à "L'IA est-elle rentable et fiable ?".

Imaginez que vous deviez payer un robot pour faire le travail d'un avocat.

Si le robot fait une erreur de calcul, vous perdez 10 000 $.
Si le robot vous fait gagner 100 000 $ en trouvant une astuce légale, il a de la valeur.

Ce benchmark mesure cette valeur réelle. Il montre que pour l'instant, les robots ne sont pas encore prêts à remplacer les experts humains dans des situations à haut risque, car ils manquent de fiabilité et de rigueur.

En résumé

$OneMillion-Bench est un test de "réalité" pour l'IA. Il arrête de demander aux robots de réciter des poèmes et commence à leur demander de faire leur travail dans la vraie vie.

La conclusion ? Les robots sont devenus de très bons étudiants, mais ils ne sont pas encore des employés dignes de confiance. Ils ont besoin de plus de maturité, de rigueur et de capacité à gérer les imprévus avant de pouvoir gérer nos économies, nos lois et notre santé sans supervision humaine.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche « $OneMillion-Bench: How Far are Language Agents from Human Experts ? » en français.

1. Problématique et Contexte

Les modèles de langage (LM) ont évolué de simples assistants de chat vers des agents capables de raisonnement multi-étapes et d'utilisation d'outils. Cependant, les benchmarks existants souffrent de limitations majeures :

Déconnexion avec la réalité professionnelle : Ils se concentrent souvent sur des tâches structurées, de type examen, qui ne reflètent pas les exigences complexes du monde professionnel.
Manque de mesure de la valeur économique : Les évaluations actuelles mesurent la précision, mais pas la valeur réelle ou le coût du travail accompli par l'agent.
Absence de contraintes réalistes : Les tâches professionnelles réelles impliquent la récupération de sources autoritaires, la résolution de preuves contradictoires, l'application de règles spécifiques à un domaine et la prise de décisions sous contraintes strictes.

L'objectif est de combler l'écart entre les capacités des agents actuels et les exigences du travail professionnel hautement qualifié, en quantifiant leur fiabilité et leur valeur économique.

2. Méthodologie : $OneMillion-Bench ($ 1M-Bench)

Le papier introduit $OneMillion-Bench, un benchmark composé de 400 tâches curatées par des experts, couvrant cinq domaines à fort enjeu : Droit, Finance, Santé, Sciences Naturelles et Industrie.

A. Conception des Données et Évaluation Économique

Valeur Monétaire : Chaque tâche est assignée une valeur monétaire réelle, calculée en multipliant le temps estimé pour un expert senior par son taux horaire de marché (basé sur des données du Bureau of Labor Statistics aux États-Unis et des guides salariaux en Chine). La valeur totale du benchmark dépasse 1 million de dollars, d'où son nom.
Couverture Bilingue et Culturelle : Le benchmark contient 200 tâches en anglais et 200 en chinois. Les tâches chinoises ne sont pas de simples traductions mais sont conçues spécifiquement pour refléter les réglementations, normes et contextes culturels de la Chine continentale.
Pipeline de Curatation en Trois Étapes :
1. Création de la tâche : Un expert conçoit une tâche semi-ouverte avec une réponse de référence et des critères de notation (rubrics). Une validation adversariale est effectuée contre des agents de pointe pour s'assurer que la tâche n'est pas trivialement résoluble.
2. Revue par les pairs : Un deuxième expert révise la tâche, la réponse et les critères pour garantir la clarté et l'équité.
3. Résolution et Révision : Un troisième expert arbitre les cas de désaccord ou de risque, assurant une qualité élevée.
4. Filtrage : Élimination des tâches trop faciles (toutes les agents réussissent) ou trop difficiles (aucun agent ne réussit, sauf si la tâche est jugée "mission impossible").

B. Mécanisme d'Évaluation : Le "Expert Score"

Contrairement aux métriques binaires classiques, le benchmark utilise une évaluation basée sur des rubriques (rubrics) :

Expert Score : Un score pondéré (de 0 à 1) calculé selon une formule qui agrège les scores de plusieurs critères (exactitude factuelle, cohérence logique, conformité professionnelle, etc.).
Pénalités Négatives : Le système inclut des rubriques à poids négatif (jusqu'à -20) pour pénaliser les hallucinations, les violations de normes professionnelles, les comportements dangereux ou le non-respect des instructions.
Taux de Réussite (Pass Rate) : La proportion de tâches où l'Expert Score dépasse un seuil de compétence (0,7), indiquant si l'agent est réellement "opérationnel".
Catégories de Compétences : Les rubriques évaluent quatre capacités clés : Recherche Web, Raisonnement, Verbalisation et Respect des Instructions.

3. Résultats Clés

Le benchmark a été utilisé pour évaluer 35 modèles (modèles de base, agents avec recherche web, et agents de recherche approfondie).

A. Performance Globale

Leader Actuel : CLAUDE-OPUS-4.6 se distingue comme le modèle le plus performant, tant en version "Vanilla" (sans outil) qu'avec la recherche web activée.
Impact de la Recherche Web : La recherche web agit comme un amplificateur de capacité. Pour les modèles robustes (ex: Claude-Opus-4.6, GPT-5.2), elle améliore significativement les scores factuels et de raisonnement. Cependant, pour certains modèles moins robustes, elle peut dégrader les performances en introduisant du bruit ou des preuves contradictoires.
Agents de Recherche Approfondie : Les agents spécialisés (ex: o3-DeepResearch) obtiennent des résultats compétitifs mais ne surpassent pas systématiquement les meilleurs modèles généraux équipés de recherche web, suggérant que la couverture des rubriques et la conformité sont plus critiques que la complexité du pipeline de recherche.

B. Analyse par Domaine et Rubrique

Difficulté Non Uniforme : Le domaine Finance s'avère être le plus difficile pour la plupart des modèles, tandis que la Santé et le Droit obtiennent de meilleurs scores pour les systèmes de pointe.
Faiblesses Structurelles : Les modèles excellent généralement dans la structure et le respect des instructions de surface, mais peinent dans le Raisonnement Analytique et la Véracité Factuelle sous contraintes d'experts.
Sensibilité Temporelle : Les modèles performants sur des questions agnostiques au temps voient leurs performances chuter sur des questions sensibles au temps, révélant une dépendance excessive aux indices temporels plutôt qu'à un raisonnement dynamique.

C. Analyse Coût-Bénéfice (Pareto)

L'étude montre une relation de Pareto optimale entre le coût d'inférence et la valeur économique générée.
Les agents équipés d'outils de recherche capturent une valeur économique disproportionnée par rapport à leur coût, rendant les tâches professionnelles complexes accessibles à un coût réduit par rapport aux experts humains.
Les modèles plus petits, lorsqu'ils sont bien équipés, peuvent rivaliser avec les modèles les plus grands à une fraction du coût.

4. Contributions Principales

Benchmark Économiquement Ancré : Première évaluation qui quantifie la capacité des agents non seulement en termes de précision, mais en valeur monétaire réelle du travail accompli.
Méthodologie d'Évaluation Rigoureuse : Introduction d'un protocole d'évaluation basé sur des rubriques complexes incluant des pénalités négatives pour aligner l'évaluation sur les normes professionnelles réelles (conformité, sécurité, exactitude).
Couverture Multidomaine et Bilingue : Un ensemble de données diversifié couvrant cinq secteurs critiques avec une adaptation culturelle et linguistique spécifique (Chine/Global), comblant le vide des benchmarks anglo-centrés.
Analyse des Échecs : Identification de motifs d'échec récurrents (ex: erreurs de calcul financier, mauvaise application des règles juridiques locales, incapacité à gérer la complexité des chaînes de causalité), fournissant une feuille de route pour l'amélioration des modèles.

5. Signification et Impact

$OneMillion-Bench marque un tournant dans l'évaluation des agents de langage :

Du "Jeu de Questions-Réponses" au "Travail Réel" : Il déplace le paradigme de l'évaluation de la simple réponse correcte vers la fiabilité opérationnelle et la conformité professionnelle.
Mesure de la Maturité : Il établit que la maturité d'un agent ne se mesure pas à sa capacité à répondre à des questions, mais à sa capacité à exécuter des workflows complexes avec un niveau de confiance suffisant pour être déployé dans des environnements économiques réels.
Guide pour le Développement Futur : Les résultats soulignent que l'intégration d'outils de recherche est cruciale, mais que la robustesse du raisonnement et la capacité à filtrer les informations sont les goulots d'étranglement actuels. Le benchmark sert de testbed pour accélérer le développement d'agents fiables, sûrs et économiquement significatifs.

En conclusion, ce travail fournit une métrique interprétable pour transformer la "capacité" brute en une mesure de valeur délivrée, accélérant ainsi le déploiement responsable de l'IA dans les domaines professionnels critiques.