\textsc{RooAgent}: An LLM Agent for \textsc{Root}-Based High… — Begrijpelijke uitleg

Stel je voor dat je een enorme, ongelooflijk complexe bibliotheek met wetenschappelijke data hebt. In de wereld van de deeltjesfysica heet deze bibliotheek Root, en deze bevat de "bonnetjes" van miljarden deeltjesbotsingen. Om een specifiek stukje informatie te vinden—zoals een bepaald type deeltje of een patroon in de data—moet je meestal een bibliothecaris zijn die een zeer moeilijke, technische taal spreekt (programmeertaal). Als je de exacte code niet kent, kun je het boek niet lenen.

RooAgent is als het inhuren van een superintelligente, meertalige assistent-bibliothecaris die jouw taal spreekt (gewoon Engels) en de geheime code van de bibliotheek perfect kent.

Hier is hoe het werkt, opgesplitst in eenvoudige concepten:

1. Het Probleem: De "Vreemde Taal"-Barrière

Hoge-energiefysici gebruiken een tool genaamd PyRoot om data te analyseren. Het is krachtig, maar het is alsof je probeert een complex maaltijd te bestellen in een restaurant waar het menu is geschreven in een taal die je niet spreekt. Je moet de exacte syntaxis kennen om te vragen om "een histogram van elektronimpuls" of "een telling van gebeurtenissen waarbij jets zwaar zijn". Als je een typfout maakt of het verkeerde woord gebruikt, zegt de computer gewoon "Fout".

2. De Oplossing: De "Vertaler"-Agent

RooAgent fungeert als een vertaler. Je hoeft de code niet te leren. Je vertelt de agent gewoon wat je wilt in gewoon Engels, zoals:

"Toon me een grafiek van de massa van de bottom-quarks."
"Tel hoeveel gebeurtenissen er plaatsvinden als ik alleen kijk naar deeltjes die sneller bewegen dan 50 GeV."
"Vind de beste snijwaarde om het signaal te scheiden van de achtergrondruis."

De agent (aangedreven door een Large Language Model, of LLM) luistert naar je verzoek, vertaalt dit naar de juiste technische commando's, voert de analyse uit en geeft je het resultaat terug—meestal een grafiek, een tabel met getallen of een samenvatting.

3. Hoe Het Werkt: De "Werkkist"

Zie de agent als een bouwvakker met een specifieke werkkist. Het artikel beschrijft twee manieren waarop deze arbeider kan worden ingehuurd:

De LangGraph-modus: De arbeider gebruikt een "voorman" (LangGraph) om een team van AI-modellen (zoals GPT-4.1 of DeepSeek-V3) te beheren. De voorman breekt je grote verzoek op in kleine stappen, vraagt de AI om het juiste gereedschap te kiezen, en voert het vervolgens uit.
De MCP-modus: De arbeider praat direct met een andere AI-baas (Anthropic's Claude) via een standaardprotocol (Model Context Protocol).

In beide gevallen zijn de "gereedschappen" in de werkkist vooraf geschreven computerfuncties die het zware werk doen:

Inspecteren: Kijken in de data-bestanden om te zien wat erin zit.
Tellen: Optellen hoeveel gebeurtenissen aan een specifieke regel voldoen.
Plotten: Grafieken en diagrammen tekenen.
Fitten: Een gladde curve door de datapunten te tekenen om het verloop te zien.
Berekenen: De wiskunde doen om te zien of een ontdekking statistisch significant is.

4. De "Proefrit"

De auteurs hebben deze assistent getest met verschillende scenario's om te zien of hij de baan aankon:

De "ZH"-Simulatie: Ze simuleerden een specifieke deeltjesbotsing (een Z-boson en een Higgs-boson). De agent vond succesvol de bestanden, tekende de grafieken, telde de gebeurtenissen en vond zelfs het "sweet spot" (de beste snijwaarde) om het signaal te scheiden van de achtergrondruis.
De "Multi-Taken"-Uitdaging: Ze gaven de agent één lange, complexe instructie om zes verschillende dingen tegelijk te doen (een curve fitten, vergelijkingsgrafieken maken, een cut-flow uitvoeren, snijwaarden optimaliseren, massavensters scannen en resultaten rangschikken). De agent voerde alle zes stappen achter elkaar uit zonder menselijke hulp.
De "Speelgoed"-Statistische Test: Ze creëerden een nep-dataset met een verborgen signaal. De agent scande succesvol door verschillende massawaarden, vond het verborgen signaal op de juiste plek (250 GeV) en berekende de waarschijnlijkheid dat het niet zomaar een toevalstreffer was.
De "Real World"-Test: Ze gebruikten echte, publieke data van het ATLAS-experiment bij CERN (de Large Hadron Collider). De agent analyseerde succesvol de data voor een Higgs-boson dat vervalt in vier leptonen, en produceerde een gestapelde grafiek die overeenkwam met wat menselijke experts zouden produceren.

5. Het Resultaat

Het artikel beweert dat RooAgent werkt. Het heeft succesvol vragen in gewoon Engels omgezet in complexe antwoorden uit de fysica.

Het behandelde 19 van de 20 single-task-tests correct.
Het voltooide een 6-staps multi-task workflow zonder te stoppen.
Het produceerde dezelfde numerieke resultaten, of het nu OpenAI's GPT-4.1 of Anthropic's Sonnet 4.6 gebruikte.

De Haken en Ogen:
De agent is niet perfect. In één test raakte hij in de war omdat de gebruiker "Events" (hoofdletter E) typte in plaats van "events" (kleine letter e) voor de bestandsnaam. De agent stopte en vroeg om verduidelijking in plaats van te gokken. Ook kiezen verschillende AI-modellen soms iets andere bereiken voor een grafiek (bijvoorbeeld 0–100 GeV tonen versus 0–200 GeV), maar de kernwiskunde blijft hetzelfde.

Samenvatting

RooAgent is een brug. Het stelt fysici (en potentieel studenten of nieuwe onderzoekers) in staat om in menselijke taal met hun data te praten, terwijl de computer de complexe, technische taal afhandelt die nodig is om de analyse daadwerkelijk uit te voeren. Het vervangt niet het begrip van de fysicus voor de fysica, maar het verwijdert de barrière van het moeten onthouden van complexe codesyntaxis om de klus te klaren.

Technische Samenvatting van "RooAgent: Een LLM-agent voor op ROOT gebaseerde analyse van hoge-energiefysica"

Probleemstelling
De analyse van data uit hoge-energiefysica (HEP) is sterk afhankelijk van het ROOT-framework en de Python-interface PyROOT voor taken die variëren van selectie van gebeurtenissen en het maken van histogrammen tot statistische inferentie. Het gebruik van deze tools vereist echter aanzienlijke bekendheid met specifieke API-conventies, datastructuren (zoals TTree-branches) en de interne organisatie van invoermonsters. Deze instapdrempel kan nieuwe gebruikers belemmeren en routine-taken inefficiënt maken. Hoewel Large Language Models (LLM's) veelbelovend zijn gebleken voor het automatiseren van workflows met meerdere stappen via "tool calls", is er behoefte aan een gespecialiseerde interface die doelen in natuurlijke taal direct koppelt aan de specifieke functiediensten die nodig zijn voor op ROOT gebaseerde analyse.

Methodologie
De auteurs presenteren RooAgent, een Python-pakket dat fungeert als een interface in natuurlijke taal voor op ROOT gebaseerde analyse. Het systeem omhult PyROOT-functies als uitvoerbare tools voor een LLM-agent. De architectuur ondersteunt twee distincte operationele modi, die beide gebruikmaken van dezelfde onderliggende PyROOT-implementatie:

LangGraph-agentmodus: Compatibel met OpenAI's GPT-4.1 (via GitHub Copilot) en DeepSeek-V3 (via Ollama). In deze modus redeneert de LLM over gebruikersprompts, selecteert tools, construeert argumenten en roept iteratief PyROOT-functies aan totdat het doel van de gebruiker is bereikt.
Model Context Protocol (MCP)-modus: Ontworpen voor integratie met de Anthropic Claude CLI (specifiek getest met Sonnet 4.6). Deze modus werkt als een MCP-server, waarbij de Claude CLI fungeert als zowel de LLM als de orchestratie-laag, waardoor de noodzaak voor LangChain- of LangGraph-afhankelijkheden wordt geëlimineerd.

De toolset is modulair en dekt het volledige spectrum van veelvoorkomende ROOT-analysetaken, waaronder:

Inspectie: Bestandsinhoud, TTree-structuren en branch-data types opsommen.
Tellen en Selecteren: Toepassen van boolean cuts, het genereren van cutflows en het berekenen van gebeurtenisopbrengsten.
Histogrammen en Statistiek: Het vullen van histogrammen vanuit TTree-branches, het berekenen van integralen, gemiddelden en RMS, en het berekenen van significantie ( $S/\sqrt{S+B}$ ).
Visualisatie: Het genereren van 1D- en 2D-plots, het overlappen van distributies en het toepassen van logaritmische schalen.
Fitten: Het uitvoeren van Gaussische, exponentiële of polynoomfits aan distributies.
Optimalisatie: Het scannen van cut-drempelwaarden om significantie te maximaliseren.
Export: Het converteren van TTree-branches naar CSV-bestanden.

Het systeem is ontworpen voor iteratief redeneren, waardoor de agent tools meerdere keren kan aanroepen om resultaten te verfijnen of fouten te corrigeren (bijvoorbeeld door boomnamen te verduidelijken of plotbereiken aan te passen).

Belangrijkste bijdragen

Gefuseerde Interface: RooAgent biedt een consistente set analysetools die via natuurlijke taal toegankelijk zijn over verschillende LLM-backends (OpenAI, Ollama, Anthropic) zonder wijzigingen in de onderliggende analysecode.
Tool-register: Het pakket blootlegt een uitgebreide bibliotheek van PyROOT-omhulde functies die specifiek zijn afgestemd op HEP-workflows, waaronder significantieberekening, cutflow-generatie en parametrisch fitten.
Dual-Mode Architectuur: Door zowel een LangGraph-gebaseerde agent als een MCP-server te ondersteunen, biedt het pakket flexibiliteit voor gebruikers die verschillende LLM-ecosystemen en implementatiemethoden (lokaal versus cloud) prefereren.

Resultaten
De auteurs hebben RooAgent geëvalueerd met Monte Carlo-simulaties van $pp \to ZH$ ( $Z \to \ell^+\ell^-, H \to b\bar{b}$ ) en achtergrondprocessen, evenals ATLAS open data voor het $H \to ZZ^* \to 4\ell$ -kanaal.

Benchmarks: In een reeks van 20 enkelvoudige taaktests produceerde de agent succesvol resultaten voor 19 taken. Taken omvatten bestandsinspectie, histogramplotting, gebeurtenistelling, variabele-definitie, Gaussisch fitten en significantiescanning. Eén mislukking vond plaats vanwege een probleem met hoofdlettergevoeligheid bij het opzoeken van een boomnaam, wat de agent correct identificeerde en markeerde voor verduidelijking in plaats van een vals resultaat te produceren.
Workflow met meerdere taken: Een complexe prompt die zes opeenvolgende taken vereiste (fitten, kinematische vergelijkingen, cutflow-generatie, cut-optimalisatie, massavensterscanning en cut-ranking) werd succesvol uitgevoerd in ongeveer 225 seconden zonder menselijke tussenkomst.
Statistische analyse: In een speelse statistische analyse met een rooster van massahypothesen, matchte de agent correct histogrammen, berekende waargenomen en verwachte significanties, p-waarden en $CL_s$ -waarden, en identificeerde de geïnjecteerde signaalmassa (250 GeV) als de sterkste kandidaat.
Toepassing op open data: Toegepast op ATLAS open data, verwerkte de agent succesvol meerdere ROOT-bestanden, paste sequentiële selectiecuts voor leptonen toe, genereerde cutflows en produceerde een gestapelde plot van signaal en achtergrond, overlapt met data. De resultaten waren consistent tussen GPT-4.1 en Sonnet 4.6.
Modelvariaties: Het artikel merkt op dat hoewel de kernlogica consistent blijft, verschillende LLM's (bijvoorbeeld GPT-4.1 versus DeepSeek-V3) verschillende keuzes kunnen maken wat betreft plotbereiken of normalisatie wanneer ze niet expliciet worden beperkt, wat het belang van specificiteit in prompts onderstreept.

Betekenis
Het artikel beweert dat RooAgent succesvol de kloof overbrugt tussen prompts in gewone taal en de technische vereisten van op ROOT gebaseerde HEP-analyse. Door de selectie van tools en argumenten te automatiseren, stroomlijnt het systeem routine-taken en verlaagt het de instapdrempel voor gebruikers die niet vertrouwd zijn met de subtiliteiten van de ROOT-API. De auteurs positioneren het werk als een stap naar meer toegankelijke HEP-dataanalyse, waarbij wordt aangetoond dat LLM-agenten effectief complexe workflows met meerdere stappen kunnen orchestreren die bestandsinspectie, statistische inferentie en visualisatie omvatten. Het pakket is modulair, wat toekomstige uitbreidingen mogelijk maakt, zoals de integratie van machine learning-algoritmen als aanroepbare tools of het identificeren van optimale variabelen voor gebeurtenisselectie.

\textsc{RooAgent}: An LLM Agent for \textsc{Root}-Based High Energy Physics Analysis