AgentRivet: an automated system for producing Rivet routines… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

Gepubliceerd 2026-06-12

📖 4 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je de wereld van de deeltjesfysica voor als een enorme, prestigieuze kookwedstrijd. Wetenschappers bij gigantische machines (zoals de Large Hadron Collider) bereiden complexe "gerechten" (botsingen van deeltjes) en schrijven gedetailleerde recepten in wetenschappelijke papers. Ze leveren ook een lijst met ingrediënten (data) zodat andere chefs de gerechten kunnen proberen na te maken.

Er is echter een probleem: om deze gerechten echt te kunnen proeven en te vergelijken, hebben andere wetenschappers een specifieke, gestandaardiseerde keukentool nodig genaamd Rivet. Denk aan Rivet als een speciale, hoogtechnologische maatbeker die ervoor zorgt dat iedereen de soep op exact dezelfde manier afmeet. Zonder Rivet kun je de soep van iemand anders niet eerlijk vergelijken.

Het probleem is dat slechts ongeveer 40% van de gepubliceerde recepten met deze speciale maatbeker komt. De rest bestaat uit louter tekstuele beschrijvingen, die moeilijk om te zetten zijn in de precieze code die nodig is voor het instrument.

Ontmoet AgentRivet: De AI-Sous-Chef

De auteurs van dit paper hebben een nieuw systeem gebouwd genaamd AgentRivet. Denk aan AgentRivet als een team van AI-robots die ontwor twee van die rommelige, tekstuele recepten te lezen en de ontbrekende Rivet-maatbekers (computercode) automatisch voor je te bouwen.

Zo werkt dit "keukenteam" met behulp van een eenvoudige workflow:

De Analist (De Lezer): Deze AI-robot leest het wetenschappelijke paper en fungeert als een zeer zorgvuldige sous-chef. Het leest niet alleen; het extraheert de exacte instructies: "Gebruik 2 citroenen," "Snipper de uien op deze manier," "Kook gedurende 10 minuten." Het zet de rommelige tekst om in een nette, gestructureerde boodschappenlijst.
De Programmeur (De Bouwer): Deze robot neemt de boodschappenlijst en probeert het eigenlijke Rivet-instrument te bouwen (dat geschreven is in een specifieke programmeertaal genaamd C++). Het is als een robotarm die probeert een complexe machine te assembleren op basis van de instructies.
De Reviewers (De Inspecteurs): Voordat het instrument klaar is, controleren twee inspecteurs het werk.
- De Code Reviewer controleert op technische fouten, zoals het gebruik van het verkeerde type schroef of een defect onderdeel (syntaxfouten).
- De Physics Reviewer controleert of de instructies daadwerkelijk overeenkomen met het recept. Heeft de robot de uien wel correct afgemeten? Is de kooktijd gevolgd?

De "Proeverij" (De Resultaten)

Het team testte dit AI-team op twee recente en complexe recepten van de ATLAS- en CMS-experimenten (twee grote deeltjesfysica-laboratoria). Ze vroegen de AI om de Rivet-tools vanaf nul op te bouwen.

Het Goede Nieuws: Het AI-team was verrassend goed in de taak. Ze bouwden werkende instrumenten met zeer weinig technische problemen. Wanneer ze de instrumenten gebruikten om gesimuleerde deeltjesbotsingen te meten, zagen de resultaten er zeer vergelijkbaar uit met wat de menselijke wetenschappers verwachtten.
Het Slechte Nieuws (De "Hallucinaties"): Soms raakte de AI in de war door vage delen van het recept.
- Als het paper zei: "Doe iets speciaals met de saus," maar niet precies uitlegde hoe, dan ging de AI gokken. Soms gokte de AI goed; soms gokte de AI fout.
- Eén AI-model (Gemini) vergat soms specifieke instructies over "neutrino's" (een type onzichtbaar deeltje) op te volgen, terwijl een ander model (Claude) soms in een loop vastliep of zijn eigen "gedachten" opschreef in plaats van alleen de code.
- De AI had de meeste moeite met de meest complexe, abstracte delen van de recepten, zoals het meten van de "vorm" van een gebeurtenis of het gebruik van complexe wiskundige formules die niet duidelijk gedefinieerd waren.

Het Eindoordeel

Het paper concludeert dat AgentRivet een veelbelovend nieuw hulpmiddel is. Het kan succesvol ongeveer 40% van de "ontbrekende" recepten omzetten in werkende code, wat een enorme hulp is voor de natuurkundige gemeenschap.

Het is echter nog niet perfect. Er is nog steeds een mens nodig om over de schouder mee te kijken, vooral wanneer het originele recept vaag is. De auteurs stellen voor om de AI in de toekomst beter te leren door deze te trainen op meer voorbeelden en automatische controles toe te voegen om fouten te vangen voordat een mens ze zelfs maar ziet.

Kortom: AgentRivet is een geautomatiseerd team dat wetenschappelijke papers leest en de ontbrekende softwaretools bouwt die wetenschappers nodig hebben om hun data te vergelijken. Het werkt goed, maar het maakt nog steeds fouten wanneer de instructies onduidelijk zijn, waardoor menselijke experts nog steeds nodig zijn om het werk te controleren.

Technische Samenvatting van AgentRivet: Een Geautomatiseerd Systeem voor het Produceren van Rivet-routines uit Wetenschappelijke Publicaties

Probleemstelling
Deeltjesfysica-experimenten bij versnellers vertrouwen op Rivet (Robust Independent Validation of Event Generators), een C++ toolkit, om analyse-definities te bewaren en modelonafhankelijke vergelijkingen tussen theoretische voorspellingen en experimentele data mogelijk te maken. Ondanks de duidelijke voordelen van deze preservatiestrategie is de analyse-dekking kritiek incompleet. Momenteel heeft slechts 39% van de metingen gedocumenteerde en publiek beschikbare Rivet-routines, waarbij de dekking varieert van 49% bij ATLAS tot 16% bij ALICE. De productie van deze routines wordt vaak beschouwd als een arbeidsintensieve taak die niet voldoende wordt erkend of beloond binnen de gemeenschap, wat een knelpunt vormt in de preservatie van collider-data.

Methodologie: De AgentRivet Workflow
Om dit gat te dichten, hebben de auteurs AgentRivet ontworpen en geïmplementeerd, een autonome, meerstaps workflow gebaseerd op Large Language Models (LLMs). Het systeem is gebouwd als een modulair, provider-agnostisch Python-framework dat gespecialiseerde AI-agenten orkestreert om fysica-informatie uit wetenschappelijke publicaties te extraheren en de bijbehorende Rivet-routines te genereren.

De workflow bestaat uit de volgende kerncomponenten:

Modulaire Agent-architectuur: Het systeem ontkoppelt de hoogwaardige orchestratie van specifieke LLM-providers (OpenAI, Anthropic, Google), waardoor dynamische wisseling tussen modellen mogelijk is.
Gespecialiseerde Agents:
- Analyst: Extraheert gestructureerde fysica-informatie uit publicaties, inclusioneel de definitie van de fiduciële fase-ruimte, objectconstructies (bijv. 'dressed leptons', jets), event-selectiecriteria en histogram-specificaties. Het maakt gebruik van Pydantic-modellen om gestructureerde output-schema's af te dwingen.
- Coder: Genereert Rivet-compatibele C++ code op basis van de gestructureerde samenvatting die door de Analyst is geleverd. Het is beperkt tot het gebruik van Rivet4-syntax en houdt zich aan specifieke revisie-policies.
- Code Reviewer: Evalueert de gegenereerde code op syntactische fouten, verouderde Rivet3-gebruik en potentiële compile-problemen.
- Physics Reviewer: Valideert de fysieke getrouwheid van de implementatie tegenover de door de Analyst geëxtraheerde specificatie, waarbij inconsistenties in objectdefinities, cuts en observables worden gecontroleerd.
Iteratieve Review-loop: Een cruciaal kenmerk van de workflow is een iteratieve loop waarbij de Coder de code verfijnt op basis van feedback van beide reviewers. Deze loop gaat door totdat goedkeuring wordt verleend, er geen belangrijke problemen meer zijn, of een configureerbare iteratielimiet is bereikt.
Shared Memory en Artifacts: Alle tussenstappen, inclusief geëxtraheerde metadata, code-ontwerpen en review-commentaren, worden opgeslagen in een gedeelde staat. Dit zorgt ervoor dat het proces controleerbaar en reproduceerbaar is, en maakt het mogelijk om dure, door LLM's afgeleide producten te cachen.

Benchmarking en Experimentele Opstelling
De prestaties van AgentRivet werden geëvalueerd aan de hand van twee recente, publiekelijk beschikbare metingen die geen bestaande Rivet-routines hadden:

ATLAS: Inclusieve $W\gamma \to \ell\nu\gamma$ productie, met complexe hoek-observables, boost-asymmetrieën en op neurale netwerken gebaseerde observables.
CMS: Event shape observables met geladen deeltjes binnen jets, waarbij niet-triviale definities van jet massa, thrust en broadening betrokken zijn.

Het systeem werd getest met drie commerciële LLM's: Gpt-5.5 (OpenAI), Gemini-3.5-Flash (Google) en Claude-Opus-4.6 (Anthropic). Voor elke setup werden drie onafhankelijke runs uitgevoerd om consistentie te beoordelen. De gegenereerde routines werden gecompileerd met Rivet-4.1.2 en toegepast op Monte Carlo event-samples (MadGraph5_aMC@NLO en Pythia8) om de fysica-outputs te verifiëren.

Belangrijkste Resultaten

Codekwaliteit: AgentRivet produceerde competente Rivet-routines met weinig syntactische fouten.
- Gpt-5.5 en Claude-Opus-4.6 produceerden over het algemeen routines die succesvol compileerden, hoewel Claude-Opus-4.6 zelden routines formeel goedkeurde, ondanks het identificeren van nul blokkades.
- Gemini-3.5-Flash vereiste 2–3 iteraties om verouderde Rivet3-syntax te verwijderen en introduceerde incidenteel gehallucineerde syntax.
- Alle routines konden met minimale menselijke interventie worden gecompileerd (alleen noodzakelijke fouten herstellen).
Fysieke Getrouwheid:
- Objectreconstructie: De meeste modellen reconstrueerden standaardobjecten (elektronen, muonen, fotonen, jets) correct. Echter, subtiele problemen ontstonden, zoals de onjuiste uitsluiting van "dressed" leptonen of de inclusie van prompt neutrino's bij het vinden van jets, vaak door ambigue formuleringen in de bronartikelen.
- Complexe Observables: Het systeem had moeite met de meest complexe definities. Voor de ATLAS-analyse slaagde Gemini-3.5-Flash er niet in om hoek-observables te construeren vanwege onvolledige informatie-extractie door de Analyst. Claude-Opus-4.6 paste soms beperkingen toe op het verkeerde systeem (bijv. het beperken van het $\ell\nu\gamma$ -systeem in plaats van $\ell\nu$ ).
- Neurale Netwerk Observables: Zoals verwacht kon geen enkel model neurale netwerk-gebaseerde observables construeren zonder de onderliggende modelbestanden, wat wijst op een beperking in het afhandelen van "black box"-definities.
- Histogram Binning: Wanneer HepData-records niet beschikbaar waren, moesten modellen de binning afleiden van plots, wat leidde tot lichte mismatches die handmatige correctie vereisten.
Kosten en Betrouwbaarheid: De kosten om een routine te produceren varieerden van $1.20 tot $2.20. Het framework toonde robuustheid tegen API-fouten door middel van retry-logica, hoewel de stabiliteit van de toegang aanzienlijk varieerde per provider en tijdstip.

Betekenis en Claims
Het artikel claimt dat AgentRivet de capaciteit van moderne LLM's aantoont om gedetailleerde analyse-definities te extraheren uit wetenschappelijke literatuur en deze te vertalen naar uitvoerbare wetenschappelijke software. Het systeem overbrugt succesvol de kloof tussen publicatie en implementatie, en biedt een potentiële oplossing voor de incomplete dekking van Rivet-routines.

De auteurs benadrukken dat het iteratieve reviewproces essentieel is voor het verbeteren van zowel de codekwaliteit als de consistentie met de oorspronkelijke analyse. Ze merken op dat hoewel het systeem nog niet perfect is, de meerderheid van de fysica-implementatieproblemen voortkomt uit subtiele maar ambigue definities in de oorspronkelijke publicaties in plaats van fundamentele gebreken in de workflow. Bijgevolg betogen de auteurs dat AgentRivet een levensvatbaar, geautomatiseerd pad biedt om de preservatie van analyses te vergroten, mits de gegenereerde artefacten ondergaan aan de beschreven kwaliteitscontrolesystemen. Het werk draagt bij aan de groeiende literatuur over AI-agents door hun prestaties in een rigoureuze, domeinspecifieke wetenschappelijke context te documenteren.

AgentRivet: an automated system for producing Rivet routines from journal publications

Meer zoals dit