AgentRivet: an automated system for producing Rivet… — Explication vulgarisée

Auteurs originaux : Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

Publié 2026-06-12

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez le monde de la physique des particules comme un immense concours de cuisine à enjeux élevés. Les scientifiques, utilisant de gigantesques machines (comme le Grand Collisionneur de Hadrons), préparent des « plats » complexes (des collisions de particules) et rédigent des recettes détaillées dans des articles scientifiques. Ils fournissent également une liste d'ingrédients (données) pour que d'autres chefs puissent tenter de recréer le plat.

Cependant, il y a un problème : pour pouvoir véritablement goûter et comparer ces plats, les autres scientifiques ont besoin d'un outil de cuisine spécifique et standardisé appelé Rivet. Considérez Rivet comme une tasse à mesurer spécialisée et de haute technologie qui garantit que tout le monde mesure la soupe exactement de la même manière. Sans lui, vous ne pouvez pas comparer équitablement votre soupe à celle de quelqu'un d'autre.

Le problème est que seulement environ 40 % des recettes publiées sont accompagnées de cette tasse à mesurer spéciale. Le reste n'est qu'une description textuelle, ce qui est difficile à transformer en le code précis nécessaire pour l'outil.

Entrez en scène : AgentRivet, le Sous-Chef IA

Les auteurs de cet article ont conçu un nouveau système appelé AgentRivet. Considérez AgentRivet comme une équipe de robots dotés d'IA conçus pour lire ces recettes désordonnées et textuelles, et pour construire automatiquement les tasses à mesurer Rivet (le code informatique) manquantes pour vous.

Voici comment fonctionne leur « équipe de cuisine » en utilisant un flux de travail simple :

L'Analyste (Le Lecteur) : Ce robot d'IA lit l'article scientifique et agit comme un sous-chef très attentif. Il ne se contente pas de lire ; il extrait les instructions exactes : « Utilisez 2 citrons », « Hachez les oignons de cette façon », « Cuisez pendant 10 minutes ». Il transforme le texte désordonné en une liste de courses propre et structurée.
Le Codeur (Le Bâtisseur) : Ce robot prend la liste de courses et tente de construire l'outil Rivet proprement dit (qui est écrit dans un langage informatique spécifique appelé C++). C'est comme un bras robotisé essayant d'assembler une machine complexe en se basant sur les instructions.
Les Vérificateurs (Les Inspecteurs) : Avant que l'outil ne soit terminé, deux inspecturs vérifient le travail.
- Le Réviseur de Code vérifie les erreurs techniques, comme l'utilisation du mauvais type de vis ou d'une pièce cassée (erreurs de syntaxe).
- Le Réviseur de Physique vérifie si les instructions correspondent réellement à la recette. Le robot a-t-il mesuré les oignons correctement ? A-t-il respecté le temps de cuisson ?

Le « Test de Goût » (Les Résultats)

L'équipe a testé cette équipe d'IA sur deux recettes récentes et complexes provenant des expériences ATLAS et CMS (deux laboratoires majeurs de physique des particules). Ils ont demandé à l'IA de construire les outils Rivet à partir de zéro.

La Bonne Nouvelle : L'équipe d'IA a été étonnamment efficace pour la tâche. Elle a construit des outils fonctionnels avec très peu de problèmes techniques. Lorsqu'ils ont utilisé les outils pour mesurer des collisions de particules simulées, les résultats étaient très similaires à ce que les scientifiques humains attendaient.
La Mauvaise Nouvelle (Les « Hallucinations ») : Parfois, l'IA s'est emmêlée les pinceaux face aux parties vagues de la recette.
- Si l'article disait : « Faites quelque chose de spécial avec la sauce », mais n'expliquait pas exactement comment, l'IA devinait. Parfois, elle devinait juste ; parfois, elle se trompait.
- Un modèle d'IA (Gemini) oubliait parfois de suivre des instructions spécifiques concernant les « neutrinos » (un type de particule invisible), tandis qu'un autre (Claude) restait parfois bloqué dans une boucle ou écrivait ses propres « pensées » au lieu de simplement écrire le code.
- L'IA a le plus de mal avec les parties les plus complexes et abstraites des recettes, comme mesurer la « forme » de l'événement ou utiliser des formules mathématiques complexes qui ne sont pas clairement définies.

Le Verdict

L'article conclut qu'AgentRivet est un nouvel outil prometteur. Il peut transformer avec succès environ 40 % des recettes « manquantes » en code fonctionnel, ce qui est une aide immense pour la communauté de la physique.

Cependant, il n'est pas encore parfait. Il a toujours besoin qu'un humain surveille par-dessus son épaule, surtout lorsque la recette originale est vague. Les auteurs suggèrent qu'à l'avenir, ils enseigneront mieux à l'IA en l'entraînant sur davantage d'exemples et en ajoutant des vérifications automatiques pour détecter les erreurs avant même qu'un humain ne les voie.

En bref : AgentRivet est une équipe automatisée qui lit des articles scientifiques et construit les outils logiciels manquants dont les scientifiques ont besoin pour comparer leurs données. Cela fonctionne bien, mais l'IA fait encore des erreurs lorsque les instructions sont peu claires, de sorte qu'une intervention humaine reste nécessaire pour vérifier le travail.

Résumé technique d'AgentRivet : Un système automatisé pour la production de routines Rivet à partir de publications de revues scientifiques

Énoncé du problème
Les expériences de collision de particules physiques dépendent de Rivet (Robust Independent Validation of Event Generators), un kit d'outils en C++, pour préserver les définitions d'analyse et permettre des comparaisons indépendantes des modèles entre les prédictions théoriques et les données expérimentales. Malgré les avantages évidents de cette stratégie de préservation, la couverture des analyses est de manière critique incomplète. Actuellement, seulement 39 % des mesures disposent de routines Rivet documentées et publiquement disponibles, avec une couverture allant de 49 % pour ATLAS à 16 % pour ALICE. La production de ces routines est souvent perçue comme une tâche laborieuse qui n'est pas suffisamment reconnue ou récompensée au sein de la communauté, créant un goulot d'étranglement dans la préservation des données de collision.

Méthodologie : Le flux de travail AgentRivet
Pour combler cette lacune, les auteurs ont conçu et implémenté AgentRivet, un flux de travail autonome et multi-étapes basé sur des modèles de langage de grande taille (LLM). Le système est construit comme un framework Python modulaire et agnostique vis-à-vis des fournisseurs, qui orchestre des agents spécialisés pour extraire des informations physiques des publications de revues et générer les routines Rivet correspondantes.

Le flux de travail se compose des éléments clés suivants :

Architecture d'agents modulaires : Le système sépare l'orchestration de haut niveau des fournisseurs de LLM spécifiques (OpenAI, Anthropic, Google), permettant une commutation dynamique entre les modèles.
Agents spécialisés :
- Analyste (Analyst) : Extrait des informations physiques structurées à partir des publications, incluant les définitions de l'espace des phases fiduciaires, la construction d'objets (ex: leptons habillés, jets), les critères de sélection d'événements et les spécifications d'histogrammes. Il utilise des modèles Pydantic pour imposer des schémas de sortie structurés.
- Codeur (Coder) : Génère du code C++ compatible avec Rivet basé sur le résumé structuré fourni par l'Analyste. Il est contraint d'utiliser la syntaxe Rivet4 et respecte des politiques de révision spécifiques.
- Réviseur de code (Code Reviewer) : Évalue le code généré pour détecter les erreurs de syntaxe, l'usage obsolète de Rivet3 et les problèmes potentiels lors de la compilation.
- Réviseur de physique (Physics Reviewer) : Valide la fidélité de la physique de l'implémentation par rapport à la spécification extraite par l'Analyste, en vérifiant les incohérences dans les définitions d'objets, les coupures (cuts) et les observables.
Boucle de révision itérative : Une caractéristique critique du flux de travail est une boucle itérative où le Codeur affine le code en fonction des retours des deux réviseurs. Cette boucle continue jusqu'à ce qu'une approbation soit accordée, qu'aucun problème majeur ne subsiste, ou qu'une limite d'itérations configurable soit atteinte.
Mémoire partagée et artefacts : Toutes les étapes intermédiaires, y compris les métadonnées extraites, les ébauches de code et les commentaires de révision, sont stockées dans un état partagé. Cela garantit que le processus est auditable, reproductible et permet la mise en cache des produits dérivés des LLM coûteux.

Évaluation et configuration expérimentale
La performance d'AgentRivet a été évaluée à l'aide de deux mesures récentes et publiquement disponibles qui ne possédaient pas de routines Rivet existantes :

ATLAS : Production inclusive de $W\gamma \to \ell\nu\gamma$ , présentant des observables angulaires complexes, des asymétries de boost et des observables basées sur des réseaux de neurones.
CMS : Observables de forme d'événement utilisant des particules chargées à l'intérieur des jets, impliquant des définitions non triviales de la masse du jet, du thrust et de l'élargissement (broadening).

Le système a été testé avec trois LLM commerciaux : Gpt-5.5 (OpenAI), Gemini-3.5-Flash (Google) et Claude-Opus-4.6 (Anthropic). Pour chaque configuration, trois exécutions indépendantes ont été effectuées pour évaluer la cohérence. Les routines générées ont été compilées avec Rivet-4.1.2 et appliquées à des échantillons d'événements Monte Carlo (MadGraph5_aMC@NLO et Pythia8) pour vérifier les sorties physiques.

Résultats clés

Qualité du code : AgentRivet a produit des routines Rivet compétentes avec peu d'erreurs de syntaxe.
- Gpt-5.5 et Claude-Opus-4.6 ont généralement produit des routines qui ont compilé avec succès, bien que Claude-Opus-4.6 ait rarement approuvé formellement les routines malgré l'identification de zéro bloqueur.
- Gemini-3.5-Flash a nécessité 2 à 3 itérations pour supprimer la syntaxe obsolète de Rivet3 et a parfois introduit une syntaxe hallucinée.
- Toutes les routines ont pu être compilées avec une intervention humaine minimale (ne corrigeant que les erreurs nécessaires).
Fidélité physique :
- Reconstruction d'objets : La plupart des modèles ont correctement reconstruit les objets standards (électrons, muons, photons, jets). Cependant, des problèmes subtils sont apparus, tels que l'exclusion incorrecte de leptons "habillés" ou l'inclusion de neutrinos prompts dans la recherche de jets, souvent dus à des formulations ambiguës dans les articles sources.
- Observables complexes : Le système a eu des difficultés avec les définitions les plus complexes. Pour l'analyse ATLAS, Gemini-3.5-Flash n'a pas réussi à construire les observables angulaires en raison d'une extraction d'informations incomplète par l'Analyste. Claude-Opus-4.6 a parfois appliqué des contraintes au mauvais système (par exemple, contraindre le système $\ell\nu\gamma$ au lieu de $\ell\nu$ ).
- Observables de réseaux de neurones : Comme prévu, aucun modèle n'a pu construire d'observables basées sur des réseaux de neurones sans les fichiers de modèles sous-jacents, soulignant une limitation dans la gestion des définitions de type "boîte noire".
- Binning d'histogrammes : Lorsque les enregistrements HepData n'étaient pas disponibles, les modèles ont dû inférer le binning à partir de graphiques, ce qui a conduit à de légers décalages nécessitant une correction manuelle.
Coût et fiabilité : Le coût de production d'une routine variait de 1,20 $à 2,20$ . Le framework a démontré sa robustesse face aux défaillances d'API grâce à une logique de tentative de reconnexion (retry logic), bien que la stabilité de l'accès ait varié considérablement selon le fournisseur et l'heure de la journée.

Signification et revendications
L'article affirme qu'AgentRivet démontre la capacité des LLM modernes à extraire des définitions d'analyse détaillées à partir de la littérature scientifique et à les traduire en logiciels scientifiques exécutables. Le système comble avec succès le fossé entre la publication et l'implémentation, offrant une solution potentielle à la couverture incomplète des routines Rivet.

Les auteurs soulignent que le processus de révision itératif est essentiel pour améliorer à la fois la qualité du code et la cohérence avec l'analyse originale. Ils notent que bien que le système ne soit pas encore parfait, la majorité des problèmes d'implémentation physique proviennent de définitions subtiles mais ambiguës dans les publications originales plutôt que de défauts fondamentaux du flux de travail. Par conséquent, l'article soutient qu'AgentRivet fournit une voie automatisée viable pour augmenter la préservation des analyses, à condition que les artefacts générés passent par les boucles de contrôle de qualité décrites. Ce travail contribue à la littérature croissante sur les agents IA en documentant leurs performances dans un contexte scientifique rigoureux et spécifique à un domaine.

AgentRivet: an automated system for producing Rivet routines from journal publications

Articles similaires