Auteurs originaux : Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Publié 2026-05-13✓ Author reviewed ⓘ

📖 7 min de lecture🧠 Analyse approfondie

Auteurs originaux : Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes un critique gastronomique examinant un nouveau restaurant. Le chef vous remet une fiche de notation indiquant : « Ce repas mérite un 9,5 sur 10. » Mais le chef refuse de vous montrer le plat réel, la recette ou les notes expliquant comment il a déterminé cette note. Il se contente de dire : « Faites-moi confiance, c'est un 9,5. »

Maintenant, imaginez un autre critique qui goûte exactement le même repas mais lui attribue un 6,0. Sans voir le plat ni la recette, vous n'avez aucun moyen de savoir qui a raison. Le premier critique a-t-il utilisé une échelle différente ? A-t-il ignoré le toast brûlé ? A-t-il compté le dessert comme faisant partie du plat principal ?

C'est exactement le problème que les Cartes de Déploiement (Rollout Cards) visent à résoudre dans le monde des « agents » d'IA (programmes informatiques intelligents qui effectuent des tâches telles que l'écriture de code, la navigation sur le web ou la résolution de problèmes mathématiques).

Voici une explication simple de ce que dit l'article, en utilisant des analogies du quotidien :

Le Problème : La Note de la « Boîte Noire »

Actuellement, lorsque des chercheurs publient des résultats sur des agents d'IA, ils ne partagent généralement que la note finale (le « 9,5 »). Ils jettent à la poubelle le registre de déploiement.

Le Registre de Déploiement : Pensez-y comme à l'enregistrement vidéo complet de l'IA effectuant la tâche. Il inclut chaque étape qu'elle a suivie, chaque outil sur lequel elle a cliqué, chaque erreur commise, le temps qu'elle a pris, et si elle a planté ou s'est bloquée.
Le Problème : Différentes équipes de recherche utilisent des « règles » différentes pour transformer cette vidéo en une note.
- L'Équipe A pourrait dire : « Si l'IA plante, nous ignorons cette tentative. »
- L'Équipe B pourrait dire : « Si l'IA plante, cela compte comme un zéro. »
- L'Équipe C pourrait dire : « Nous ne comptons que la réponse finale, en ignorant les 50 étapes nécessaires pour y parvenir. »

L'article a révélé qu'aucun des 50 dépôts de recherche sur l'IA populaires qu'ils ont vérifiés ne signalait le nombre d'échecs ou de plantages aux côtés de leur note principale. C'est comme si une équipe sportive disait : « Nous avons gagné 3 matchs ! » mais cachait le fait qu'ils en avaient perdu 10 et ne comptaient que les 3 qu'ils avaient gagnés.

Les Preuves : Les Règles Changent le Jeu

Les auteurs ont audité 50 outils d'IA différents et ont trouvé 37 cas spécifiques où changer le « livre de règles » modifiait complètement la note, même si l'IA avait fait exactement la même chose.

L'Exemple « MMLU » : Le même modèle d'IA (LLaMA-65B) a obtenu une note de 63,7 selon un ensemble de règles et de 48,8 selon un autre. C'est une énorme différence simplement due à la manière dont la note a été calculée, et non parce que l'IA a changé.
L'Exemple « SWE-bench » : Dans les tâches d'ingénierie logicielle, le fait de compter ou non les « tentatives échouées » dans le total ou de les jeter modifiait le taux de réussite de 15,6 points de pourcentage.
L'Exemple « MLE-Bench » : Selon que vous définissez une « réussite » comme l'obtention d'une médaille d'or ou simplement d'une note de passage, le taux de réussite des mêmes soumissions d'IA passait de 34,2 % à 13,3 %.

L'article soutient que sans l'enregistrement vidéo (le déploiement), nous ne pouvons pas dire si l'IA est réellement meilleure, ou si le chercheur a simplement utilisé un livre de règles plus clément.

La Solution : La « Carte de Déploiement »

Pour résoudre ce problème, les auteurs proposent une nouvelle norme appelée Carte de Déploiement.

Imaginez une Carte de Déploiement comme une boîte de recettes transparente et inviolable que vous devez inclure avec votre plat final. Elle contient :

La Vidéo Complète : L'enregistrement complet des actions, des erreurs et du chronométrage de l'IA.
Le Livre de Règles : Une déclaration claire expliquant exactement comment la note a été calculée (par exemple : « Nous avons ignoré les plantages » ou « Nous avons compté chaque jeton »).
La Liste des « Pièces Manquantes » : Une note honnête indiquant : « Nous n'avons pas pu partager la vidéo complète pour des raisons de confidentialité, voici exactement ce que nous avons retiré. »

Cela permet à d'autres scientifiques de regarder la même vidéo et de poser différentes questions. Peut-être que l'article original ne s'intéressait qu'à « A-t-il terminé la tâche ? » mais qu'un nouveau chercheur veut demander : « A-t-il dépensé trop d'argent ? » ou « A-t-il effectué des appels d'outils dangereux ? » Avec la Carte de Déploiement, ils peuvent répondre à ces questions sans avoir à refaire toute l'expérience coûteuse.

Ce Qu'ils Ont Réellement Fait (Les Expériences)

Les auteurs ne se sont pas contentés d'en parler ; ils l'ont testé avec de vraies données :

Redécouverte d'Informations Cachées : Ils ont pris quatre jeux de données publics existants (provenant d'outils comme GAP, MAESTRO, COPRA et Tree-of-Thought) qui avaient été publiés auparavant. En appliquant la méthode de la Carte de Déploiement, ils ont découvert de nouveaux faits que les articles originaux avaient manqués.
- Exemple : Ils ont constaté que 20 % des réponses d'IA qui semblaient « sûres » dans le texte effectuaient en réalité des appels d'outils interdits en arrière-plan. La note originale avait manqué cela car elle ne regardait que le texte.
- Exemple : Ils ont constaté que dans les équipes multi-agents, les « échecs » impliquaient en réalité beaucoup plus de travail de coordination que les « succès », suggérant qu'un travail supplémentaire ne signifie pas toujours de meilleures réponses.
Re-notation du Même Travail : Ils ont pris des soumissions publiques d'IA (comme des correctifs de code ou des réponses mathématiques) et les ont re-notées en utilisant différents livres de règles.
- Résultat : Changer uniquement la règle de notation modifiait les notes rapportées jusqu'à 20,9 points de pourcentage. Dans certains cas, cela inversait le classement, faisant paraître une IA « pire » comme la « gagnante » simplement parce que le livre de règles avait changé.

La Conclusion

L'article conclut que publier uniquement une note équivaut à publier une note d'examen final sans le sujet de l'examen. Cela cache les détails qui comptent.

En introduisant les Cartes de Déploiement, les auteurs veulent rendre la recherche sur l'IA reproductible. Ils ont déjà publié un outil gratuit et open-source (appelé ERGON) et 21 jeux de données publics (Cartes de Déploiement) couvrant des tâches telles que l'ingénierie logicielle, la navigation sur le web et les mathématiques. Cela permet à n'importe qui d'examiner l'« enregistrement vidéo » derrière les notes, garantissant que lorsque nous disons qu'une IA est intelligente, nous savons réellement pourquoi et comment nous l'avons mesurée.

Ce que l'article NE prétend PAS :

Il ne prétend pas que cela rendra l'IA plus sûre ou plus puissante en soi.
Il ne prétend pas que cela résout tous les problèmes de confidentialité (vous devez toujours décider quoi cacher).
Il ne prétend pas que c'est une nouvelle façon d'entraîner l'IA ; c'est une nouvelle façon de rapporter et d'auditer les résultats de l'entraînement de l'IA.

Résumé technique : Rollout Cards, une norme de reproductibilité pour la recherche sur les agents

Énoncé du problème

L'article identifie une crise critique de reproductibilité émergente dans la recherche sur les agents, reflétant des problèmes historiques en apprentissage automatique et en apprentissage par renforcement. Les pratiques actuelles privilégient la publication des scores rapportés (par exemple, précision, taux de réussite) tout en écartant les enregistrements de déroulement (la trace complète des interactions agent-environnement) et les règles de rapport spécifiques utilisées pour calculer ces scores.

Cette fragmentation crée deux modes d'échec principaux :

Échec d'enregistrement : Les lots de déroulement sont notés une fois puis jetés. Sans les enregistrements bruts, les chercheurs ultérieurs ne peuvent pas réanalyser les mêmes épisodes pour étudier des comportements omis par le rapport original (par exemple, violations de sécurité dans les appels d'outils, surcharge de coordination dans les systèmes multi-agents) ou appliquer de nouvelles perspectives aux données. La réexécution de ces expériences est souvent prohibitivement coûteuse en raison de la hausse des coûts d'inférence des modèles de pointe et de l'obsolescence rapide des structures d'évaluation.
Échec de rapport : Les règles de rapport (les procédures convertissant les vues des déroulements en scores) varient selon les cadres et sont rarement divulguées. Cela entraîne des écarts significatifs de scores pour des comportements sous-jacents identiques. L'audit des auteurs de 50 dépôts populaires a révélé qu'aucun ne rapporte les déroulements échoués, erronés ou sautés aux côtés des scores principaux. De plus, ils ont documenté 37 cas où des règles de rapport différentes (par exemple, comptabilisation des jetons, gestion des échecs, modèles de prompt) ont entraîné des variations dramatiques de scores, modifiant parfois le classement des modèles ou les taux de réussite de plus de 20 points de pourcentage.

Méthodologie

Les auteurs proposent un changement de l'unité de reproductibilité, passant du « score rapporté » à l'enregistrement de déroulement, couplé à des déclarations explicites sur la manière dont cet enregistrement est traité.

La Rollout Card

La contribution centrale est la Rollout Card, un bundle de publication conçu comme une spécification minimale suffisante. Elle se compose de :

Enregistrement de déroulement : Une archive auto-descriptive contenant la preuve de l'épisode : spécification de la tâche, état de l'environnement, actions de l'agent (messages, appels d'outils), artefacts, chronométrage et statut terminal. Crucialement, elle traite les échecs comme des changements de statut au sein de l'enregistrement plutôt que comme des exceptions contournant la journalisation.
Registre des règles de rapport : Une déclaration de chaque vue et règle de rapport appliquée à l'enregistrement pour générer un score rapporté, incluant les détails d'implémentation et les versions.
Manifeste des exclusions (Drops Manifest) : Un enregistrement typé spécifiant quels champs, lignes ou flux ont été lus, filtrés ou réduits par une analyse spécifique. Cela documente explicitement quelles informations ont été omises, permettant aux chercheurs futurs de comprendre les limites d'une vue rapportée.
Métadonnées de portée de publication : Déclarations concernant la censure, la licence et les limites d'accès.

Les auteurs ont implémenté une spécification de référence dans ERGON, un gymnase d'apprentissage par renforcement open-source, qui agit comme un adaptateur de jeu de données léger pour valider, mapper et exporter ces bundles.

Évaluation empirique

L'article valide l'utilité des Rollout Cards grâce à deux expériences rétrospectives utilisant des artefacts publics :

RQ1 (Réutilisabilité des enregistrements préservés) : Les auteurs ont analysé quatre publications publiques (GAP, MAESTRO, journaux COPRA miniF2F et Tree-of-Thought) ayant préservé des preuves de déroulement suffisantes. Ils ont calculé des analyses secondaires que les articles originaux n'avaient pas rapportées :
- GAP : Il a été constaté que 20,6 % des réponses certifiées « sûres pour le texte » contenaient en réalité des appels d'outils interdits, un échec invisible pour les scores de sécurité basés uniquement sur le texte.
- MAESTRO : Il a été révélé que les exécutions multi-agents échouées ont entraîné 5 fois plus de spans de coordination et 7 fois plus de jetons que les exécutions réussies, contredisant l'hypothèse selon laquelle une collaboration supplémentaire améliore toujours les résultats.
- COPRA : Il a été démontré que les étapes étendues de recherche de preuve étaient corrélées négativement avec le succès, suggérant que les étapes répétées indiquent souvent une récupération échouée plutôt qu'un raisonnement utile.
- Tree-of-Thought : Il a été démontré que les stratégies d'élagage pouvaient préserver les récompenses finales tout en réduisant considérablement l'exploration gaspillée, une nuance cachée par les métriques de récompense finale seules.
RQ2 (Impact des règles de rapport) : Les auteurs ont maintenu fixes les artefacts de référence (par exemple, les soumissions GPT-4o à SWE-bench, les soumissions Kaggle pour MLE-Bench) et ont appliqué des règles de rapport alternatives.
- Changer la définition de la « réussite » ou la gestion des patches manquants dans SWE-bench a modifié l'écart de capacité rapporté entre les agents de 2,3 points de pourcentage.
- Changer le correcteur sur $\tau$ -bench a inversé le classement des modèles de pointe (GPT-4o vs Claude 3.5 Sonnet) de 16,9 points de pourcentage.
- Changer la définition de la médaille/réussite pour MLE-Bench a fait chuter le taux de réussite de 34,2 % à 13,3 % (un écart de 20,9 points).

Contributions clés

Diagnostic des échecs de publication : Un audit structuré de 50 dépôts et un catalogue de 37 écarts de règles de rapport démontrant que les pratiques actuelles masquent les échecs et obscurcissent la nature conventionnelle des écarts de scores.
Spécification Rollout Card : Une norme de publication formelle qui préserve l'enregistrement de déroulement, déclare les vues et règles appliquées, et documente les omissions via des manifestes d'exclusions.
Implémentation de référence et publication de données : Une implémentation open-source dans ERGON et la publication publique de 21 exports de Rollout Card (17 exports de publication de traces et 4 exports de vues analytiques/récupérées) couvrant l'utilisation d'outils, l'ingénierie logicielle, la sécurité et la recherche.

Résultats

Réutilisation scientifique : Les enregistrements de déroulement préservés ont permis de découvrir des échecs de sécurité, des surcharges de coordination et des inefficacités de recherche qui n'étaient pas visibles dans les scores rapportés originaux.
Sensibilité aux conventions : Les expériences ont confirmé que les règles de rapport ne sont pas neutres ; les modifier sur des preuves fixes peut altérer les scores rapportés jusqu'à 20,9 points de pourcentage et inverser les classements de modèles.
Transparence : La structure Rollout Card rend la « boîte noire » de l'évaluation transparente, permettant de tracer les désaccords vers des choix de rapport spécifiques plutôt que vers un comportement de modèle ambigu.

Importance et revendications

L'article revendique que la publication de scores uniquement extrait une fraction de la valeur des expériences sur les agents. En traitant les enregistrements de déroulement comme l'unité de reproductibilité, la communauté peut :

Atténuer le problème d'enregistrement : Permettre de poser de nouvelles questions scientifiques sur des données existantes et coûteuses sans réexécuter des agents de pointe.
Atténuer le problème de rapport : Rendre les changements de scores conventionnels inspectables, permettant aux chercheurs de distinguer le comportement de l'agent des règles utilisées pour l'enregistrer.

Les auteurs sont modestes quant à la portée, notant que les Rollout Cards n'empêchent pas le choix sélectif de métriques, les contraintes de confidentialité ou la censure. Au contraire, leur rôle est de rendre l'enregistrement, la règle et les omissions inspectables, garantissant que les désaccords peuvent être tracés vers des preuves préservées, des choix de rapport ou un comportement réel de l'agent. Le travail vise à soutenir la recherche future, les méta-analyses et les comparaisons de règles de rapport sans nécessiter de nouveaux budgets de déroulement de pointe coûteux.

Rollout Cards: A Reproducibility Standard for Agent Research