AgentRivet: an automated system for producing… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

Veröffentlicht 2026-06-12

📖 4 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich die Welt der Teilchenphysik als einen riesigen, hochkarätigen Kochwettbewerb vor. Wissenschaftler an gewaltigen Maschinen (wie dem Large Hadron Collider) kochen komplexe „Gerichte“ (Kollisionen von Teilchen) und schreiben detaillierte Rezepte in wissenschaftlichen Arbeiten auf. Zudem stellen sie eine Liste der Zutaten (Daten) zur Verfügung, damit andere Köche versuchen können, das Gericht nachzukochen.

Es gibt jedoch ein Problem: Um diese Gerichte wirklich probieren und vergleichen zu können, benötigen andere Wissenschaftler ein spezielles, standardisiertes Küchenwerkzeug namens Rivet. Denken Sie an Rivet als einen speziellen, hochtechnologischen Messbecher, der sicherstellt, dass alle ihre Suppe auf exakt dieselbe Weise messen. Ohne ihn können Sie Ihre Suppe nicht fair mit der eines anderen vergleichen.

Das Problem ist, dass nur etwa 40 % der veröffentlichten Rezepte mit diesem speziellen Messbecher geliefert werden. Bei den restlichen handelt es sich lediglich um schriftliche Beschreibungen, die schwer in den präzisen Code umzuwandeln sind, den das Werkzeug benötigt.

Hier kommt AgentRivet ins Spiel: Der KI-Sous-Chef

Die Autoren dieser Arbeit haben ein neues System namens AgentRivet entwickelt. Betrachten Sie AgentRivet als ein Team von KI-Robotern, die darauf ausgelegt sind, diese unordentlichen, rein textbasierten Rezepte zu lesen und die fehlenden Rivet-Messbecher (Computercode) automatisch für Sie zu erstellen.

So funktioniert ihr „Küchenteam“ mithilfe eines einfachen Arbeitsablaufs:

Der Analyst (Der Leser): Dieser KI-Roboter liest das wissenschaftliche Papier und agiert wie ein sehr sorgfältiger Sous-Chef. Er liest nicht nur; er extrahiert die exakten Anweisungen: „Verwenden Sie 2 Zitronen“, „Hacken Sie die Zwiebeln auf diese Weise“, „Kochen Sie für 10 Minuten“. Er verwandelt den unordentlichen Text in eine saubere, strukturierte Einkaufsliste.
Der Programmierer (Der Erbauer): Dieser Roboter nimmt die Einkaufsliste und versucht, das eigentliche Rivet-Werkzeug (das in einer speziellen Programmiersprache namens C++ geschrieben ist) zu bauen. Es ist wie ein Roboterarm, der versucht, eine komplexe Maschine basierend auf den Anweisungen zusammenzubauen.
Die Prüfer (Die Kontrolleure): Bevor das Werkzeug fertig ist, kontrollieren zwei Kontrolleure die Arbeit.
- Der Code-Reviewer prüft auf technische Fehler, wie etwa die Verwendung der falschen Schraube oder eines defekten Teils (Syntaxfehler).
- Der Physik-Reviewer prüft, ob die Anweisungen tatsächlich mit dem Rezept übereinstimmen. Hat der Roboter die Zwiebeln korrekt gemessen? Hat er die Kochzeit eingehalten?

Der „Geschmackstest“ (Die Ergebnisse)

Das Team testete dieses KI-Team an zwei sehr aktuellen und komplexen Rezepten aus den ATLAS- und CMS-Experimenten (zwei große Teilchenphysik-Labore). Sie baten die KI, die Rivet-Werkzeuge von Grund auf neu zu erstellen.

Die gute Nachricht: Das KI-Team war überraschend gut bei der Arbeit. Sie bauten funktionierende Werkzeuge mit sehr wenigen technischen Fehlern. Wenn sie die Werkzeuge verwendeten, um simulierte Teilchenkollisionen zu messen, sahen die Ergebnisse den Ergebnissen, die die menschlichen Wissenschaftler erwarteten, sehr ähnlich.
Die schlechte Nachricht (Die „Halluzinationen“): Manchmal wurde die KI durch vage Teile des Rezepts verwirrt.
- Wenn im Papier stand: „Machen Sie etwas Besonderes mit der Sauce“, aber nicht genau erklärt wurde, wie, rät die KI. Manchmal rät sie richtig, manchmal falsch.
- Ein KI-Modell (Gemini) vergaß manchmal, spezifische Anweisungen über „Neutrinos“ (eine Art unsichtbares Teilchen) zu befolgen, während ein anderes Modell (Claude) manchmal in einer Schleife stecken blieb oder seine eigenen „Gedanken“ anstatt nur des Codes aufschrieb.
- Die KI hatte am meisten Schwierigkeiten mit den komplexesten, abstraktesten Teilen der Rezepte, wie etwa der Messung der „Form“ des Ereignisses oder der Verwendung komplexer mathematischer Formeln, die nicht klar definiert waren.

Das Urteil

Die Arbeit kommt zu dem Schluss, dass AgentRivet ein vielversprechendes neues Werkzeug ist. Es kann erfolgreich etwa 40 % der „fehlenden“ Rezepte in funktionierenden Code umwandeln, was eine große Hilfe für die Physik-Gemeinschaft darstellt.

Es ist jedoch noch nicht perfekt. Es benötigt immer noch einen Menschen, der über die Schulter schaut, besonders wenn das ursprüngliche Rezept vage ist. Die Autoren schlagen vor, die KI in Zukunft besser zu machen, indem sie sie mit mehr Beispielen trainieren und automatische Kontrollen hinzufügen, um Fehler abzufangen, noch bevor ein Mensch sie sieht.

Kurz gesagt: AgentRivet ist ein automatisiertes Team, das wissenschaftliche Arbeiten liest und die fehlenden Software-Werkzeuge baut, die Wissenschaftler benötigen, um ihre Daten zu vergleichen. Es funktioniert gut, macht aber immer noch Fehler, wenn die Anweisungen unklar sind, weshalb menschliche Experten weiterhin notwendig sind, um die Arbeit zu überprüfen.

Technisches Resümee von AgentRivet: Ein automatisiertes System zur Erstellung von Rivet-Routinen aus Fachpublikationen

Problemstellung
Experimente an Teilchenbeschleunigern verlassen sich auf Rivet (Robust Independent Validation of Event Generators), ein C++ Toolkit, um Analysedefinitionen zu bewahren und modellunabhängige Vergleiche zwischen theoretischen Vorhersagen und experimentellen Daten zu ermöglichen. Trotz der klaren Vorteile dieser Bewahrungsstrategie ist die Analysendichte kritisch unvollständig. Derzeit liegen nur 39 % der Messungen mit dokumentierten und öffentlich verfügbaren Rivet-Routinen vor, wobei die Abdeckung von 49 % bei ATLAS bis zu 16 % bei ALICE reicht. Die Erstellung dieser Routinen wird oft als arbeitsintensive Aufgabe angesehen, die innerhalb der Fachgemeinschaft nicht ausreichend anerkannt oder belohnt wird, was einen Engpass bei der Bewahrung von Collider-Daten schafft.

Methodik: Der AgentRivet-Workflow
Um diese Lücke zu schließen, haben die Autoren AgentRivet entworfen und implementiert, einen autonomen, mehrstufigen Workflow, der auf Large Language Models (LLMs) basiert. Das System ist als modulares, provider-agnostisches Python-Framework konzipiert, das spezialisierte KI-Agenten orchestriert, um physikalische Informationen aus Fachpublikationen zu extrahieren und entsprechende Rivet-Routinen zu generieren.

Der Workflow besteht aus den folgenden Schlüsselkomponenten:

Modulare Agenten-Architektur: Das System entkoppelt die übergeordnete Orchestrierung von spezifischen LLM-Providern (OpenAI, Anthropic, Google), was einen dynamischen Wechsel zwischen Modellen ermöglicht.
Spezialisierte Agenten:
- Analyst: Extrahiert strukturierte physikalische Informationen aus Publikationen, einschließlich fiduzieller Phasenraum-Definitionen, Objektkonstruktionen (z. B. „dressed leptons“, Jets), Ereignisauswahlkriterien und Histogramm-Spezifikationen. Er nutzt Pydantic-Modelle, um strukturierte Ausgabe-Schemata zu erzwingen.
- Coder: Generiert Rivet-kompatiblen C++-Code basierend auf der strukturierten Zusammenfassung des Analysten. Er ist darauf beschränkt, Rivet4-Syntax zu verwenden und hält sich an spezifische Revisionsrichtlinien.
- Code Reviewer: Bewertet den generierten Code auf Syntaxfehler, veraltete Rivet3-Nutzung und potenzielle Kompilierzeit-Probleme.
- Physics Reviewer: Validiert die physikalische Treue der Implementierung gegenüber der vom Analysten extrahierten Spezifikation und prüft auf Inkonsistenzen in Objektdefinitionen, Schnitten (Cuts) und Observablen.
Iterative Review-Schleife: Ein kritisches Merkmal des Workflows ist eine iterative Schleife, in der der Coder den Code basierend auf dem Feedback beider Reviewer verfeinert. Diese Schleife setzt sich fort, bis eine Genehmigung erteilt wird, keine schwerwiegenden Probleme mehr bestehen oder ein konfigurierbares Iterationslimit erreicht ist.
Shared Memory und Artefakte: Alle Zwischenschritte, einschließlich extrahierter Metadaten, Code-Entwürfe und Review-Kommentare, werden in einem gemeinsamen Zustand gespeichert. Dies stellt sicher, dass der Prozess auditierbar und reproduzierbar ist und ermöglicht das Caching teurer, durch LLMs gewonnener Produkte.

Benchmarking und experimenteller Aufbau
Die Leistung von AgentRivet wurde anhand zweier kürzlich veröffentlichter, öffentlich zugänglicher Messungen evaluiert, für die keine bestehenden Rivet-Routinen vorhanden waren:

ATLAS: Inklusive $W\gamma \to \ell\nu\gamma$ -Produktion, die komplexe Winkel-Observablen, Boost-Asymmetrien und auf neuronalen Netzen basierende Observablen umfasst.
CMS: Event-Shape-Observablen mittels geladener Teilchen innerhalb von Jets, involvierend nicht-triviale Definitionen von Jet-Masse, Thrust und Broadening.

Das System wurde mit drei kommerziellen LLMs getestet: Gpt-5.5 (OpenAI), Gemini-3.5-Flash (Google) und Claude-Opus-4.6 (Anthropic). Für jedes Setup wurden drei unabhängige Durchläufe durchgeführt, um die Konsistenz zu bewerten. Die generierten Routinen wurden mit Rivet-4.1.2 kompiliert und auf Monte-Carlo-Ereignisproben (MadGraph5_aMC@NLO und Pythia8) angewendet, um die physikalischen Outputs zu verifizieren.

Hauptergebnisse

Code-Qualität: AgentRivet produzierte kompetente Rivet-Routinen mit wenigen Syntaxfehlern.
- Gpt-5.5 und Claude-Opus-4.6 produzierten im Allgemeinen Routinen, die erfolgreich kompilierten, obwohl Claude-Opus-4.6 Routinen selten formal genehmigte, selbst wenn keine Blockaden identifiziert wurden.
- Gemini-3.5-Flash benötigte 2–3 Iterationen, um veraltete Rivet3-Syntax zu entfernen, und führte gelegentlich halluzinierte Syntax ein.
- Alle Routinen konnten mit minimalem menschlichem Eingriff (Behebung nur notwendiger Fehler) kompiliert werden.
Physikalische Treue (Fidelity):
- Objekt-Rekonstruktion: Die meisten Modelle rekonstruierten Standardobjekte (Elektronen, Muonen, Photonen, Jets) korrekt. Es traten jedoch subtile Probleme auf, wie die fehlerhafte Exklusion von „dressed“ Leptonen oder die Inklusion von prompten Neutrinos beim Jet-Finding, was oft auf mehrdeutige Formulierungen in den Originalpapieren zurückzuführen war.
- Komplexe Observablen: Das System hatte Schwierigkeiten mit den komplexesten Definitionen. Bei der ATLAS-Analyse konnte Gemini-3.5-Flash Winkel-Observablen aufgrund unvollständiger Informationsextraktion durch den Analysten überhaupt nicht konstruieren. Claude-Opus-4.6 wandte gelegentlich Constraints auf das falsche System an (z. B. die Beschränkung des $\ell\nu\gamma$ -Systems anstatt des $\ell\nu$ -Systems).
- Neuronale Netz-Observablen: Wie erwartet konnte kein Modell neuronale Netz-Observablen ohne die zugrunde liegenden Modelldateien konstruieren, was die Einschränkung bei der Handhabung von „Black Box“-Definitionen verdeutlicht.
- Histogramm-Binning: Wenn HepData-Datensätze nicht verfügbar waren, mussten die Modelle das Binning aus Plots ableiten, was zu leichten Abweichungen führte, die eine manuelle Korrektur erforderten.
Kosten und Zuverlässigkeit: Die Kosten zur Erstellung einer Routine lagen zwischen 1,20 $ und 2,20 $. Das Framework zeigte sich robust gegenüber API-Fehlern durch Retry-Logik, wenngleich die Stabilität des Zugriffs je nach Provider und Tageszeit erheblich variierte.

Bedeutung und Ansprüche
Das Paper behauptet, dass AgentRivet die Fähigkeit moderner LLMs demonstriert, detaillierte Analysedefinitionen aus wissenschaftlicher Literatur zu extrahieren und diese in ausführbare wissenschaftliche Software zu übersetzen. Das System schließt erfolgreich die Lücke zwischen Publikation und Implementierung und bietet einen potenziellen Lösungsansatz für die unvollständige Abdeckung von Rivet-Routinen.

Die Autoren betonen, dass der iterative Review-Prozess essenziell ist, um sowohl die Code-Qualität als auch die Konsistenz mit der ursprünglichen Analyse zu verbessern. Sie stellen fest, dass die meisten Probleme zwischen Physik und Implementierung auf subtile, aber mehrdeutige Definitionen in den Originalpublikationen zurückzuführen sind und nicht auf fundamentale Mängel im Workflow. Folglich argumentiert das Paper, dass AgentRivet einen praktikablen, automatisierten Pfad zur Erhöhung der Analyse-Bewahrung bietet, sofern die generierten Artefakte den beschriebenen Qualitätskontrollschleifen unterzogen werden. Die Arbeit trägt zur wachsenden Literatur über KI-Agenten bei, indem sie deren Leistung in einem rigorosen, domänenspezifischen wissenschaftlichen Kontext dokumentiert.

AgentRivet: an automated system for producing Rivet routines from journal publications

Mehr davon