Agentic Diagrammatica: Towards Autonomous Symbolic… — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🚀 De Kern: Een Slimme Robot die Wiskunde Doet

Stel je voor dat je een zeer slimme robot (een AI) hebt die alles over deeltjesfysica weet. Je wilt dat deze robot een complexe berekening maakt: "Hoe vaak vervalt een bepaald deeltje in andere deeltjes?"

In het verleden was dit lastig. Als je de robot vroeg om de wiskunde zelf te schrijven, maakte hij vaak onzichtbare fouten. Het was alsof je een chef-kok vraagt om een recept te bedenken, maar hij vergeet de zout, gebruikt de verkeerde oven of verwart suiker met zout. De maaltijd ziet er misschien goed uit, maar hij smaakt niet goed. In de fysica betekent zo'n fout dat je hele berekening onjuist is, zonder dat je het direct doorhebt.

Diagrammatica is de oplossing voor dit probleem. Het is geen robot die zelf de wiskunde "schrijft", maar een robot die de juiste knoppen indrukt op een super-geavanceerde rekenmachine.

🛠️ De Analogie: De Architect en de Bouwvakker

Laten we het proces vergelijken met het bouwen van een huis:

De oude manier (Vrij schrijven):
Je vraagt de AI: "Bouw een huis." De AI begint dan zelf muren te metselen, ramen te plaatsen en het dak te timmeren. Omdat de AI niet echt een bouwkundige is, kan het gebeuren dat de muren scheef staan of dat de ramen in de verkeerde muur zitten. De AI denkt dat het klopt, maar het huis is onveilig.
De nieuwe manier (Diagrammatica):
De AI is nu de architect. Hij tekent een heel simpel, duidelijk plan op een kaartje (een "diagram"). Hij zegt alleen: "Hier is een muur, hier is een raam, en gebruik deze specifieke bouten."
De AI geeft dit kaartje door aan een super-geavanceerde bouwrobot (de "backend"). Deze bouwrobot is een onfeilbare machine die precies weet hoe je die bouten moet vastdraaien. De AI hoeft niet te weten hoe je een bout vastdraait; hij hoeft alleen te weten waar de bout moet komen.

Het grote voordeel: De AI kan geen fouten maken in het vastdraaien van de bouten, want hij doet het niet. Hij maakt alleen fouten in het tekenen van het plan. Maar omdat het plan heel simpel is (alleen knoppen indrukken in een menu), is het voor een mens heel makkelijk om te controleren of het plan klopt.

🧩 Hoe werkt het precies?

Het paper beschrijft twee manieren waarop deze robot werkt, afhankelijk van hoe nauwkeurig je wilt zijn:

1. De "Schatting" (NDA - Naive Dimensional Analysis)

Stel je voor dat je wilt weten hoeveel tijd het kost om een stad te bouwen. Je hoeft niet elke baksteen te tellen. Je zegt: "Het is een grote stad, dus het duurt ongeveer 10 jaar."

Wat doet de AI? Hij kijkt naar het deeltje en zegt: "Dit lijkt op een zwaar deeltje dat in twee lichte deeltjes breekt. De kans is ongeveer zo groot."
Waarom is dit handig? Het is supersnel. Je kunt duizenden scenario's in een seconde checken om te zien welke interessant zijn.

2. De "Exacte Berekening" (EDA - Exact Diagrammatic Analysis)

Nu wil je het exacte aantal bakstenen weten, tot op de millimeter.

Wat doet de AI? Hij tekent het plan (het diagram) en stuurt het naar de bouwrobot. De robot gebruikt een krachtig wiskundig programma (FeynCalc) om de berekening tot op de komma nauwkeurig uit te voeren.
Het resultaat: De AI krijgt een perfect antwoord, zonder dat hij zelf de moeilijke wiskunde hoeft te doen.

🧠 Waarom is dit zo belangrijk?

De auteurs ontdekten dat AI's goed zijn in het plannen (welke knoppen moet ik indrukken?), maar slecht in het uitvoeren van de details (de wiskundige regels).

Het probleem: Wiskunde heeft veel "stille regels". Bijvoorbeeld: "Gebruik dit teken voor plus, maar dat teken voor min." Als de AI één teken verkeerd zet, is het antwoord verkeerd, maar ziet het er nog steeds logisch uit.
De oplossing: Door de AI te dwingen om alleen gestructureerde opties te kiezen (zoals een meerkeuzetoets in plaats van een open vraag), verdwijnen die stille fouten. De AI kan niet kiezen voor "plus" als de machine alleen "min" toelaat.

🏆 Wat hebben ze bewezen?

De auteurs hebben hun systeem getest met twee grote uitdagingen:

De Grote Catalogus: De AI moest alle mogelijke manieren berekenen waarop één deeltje in twee andere deeltjes kan vervallen. Het systeem deed dit volledig automatisch, controleerde de resultaten met bekende data uit de natuurkunde, en maakte zelfs mooie grafieken. Het was alsof de AI in één nacht een hele nieuwe encyclopedie schreef die 100% correct was.
Het Muon Experiment: Ze keken naar een heel complex proces waarbij een muon (een deeltje) in heel veel elektronen en positronen kan vervallen. Er zijn honderdduizenden manieren waarop dit kan gebeuren. De AI kon automatisch tellen hoeveel manieren er waren, schatten hoe vaak het gebeurt, en zeggen: "Op dit moment kunnen we dit zien in experimenten, maar bij nog meer deeltjes wordt het te zeldzaam."

💡 Conclusie

Diagrammatica is een nieuwe manier om AI te gebruiken in de wetenschap. In plaats van de AI te laten "dromen" over wiskundige formules, geven we de AI een veilig speeltoestel (de gereedschapskist) waar hij alleen de juiste knoppen mag indrukken.

De AI is de strategist (hij weet wat er gedaan moet worden).
De computer is de uitvoerder (hij doet de zware wiskunde foutloos).

Dit maakt het mogelijk dat wetenschappers in de toekomst veel sneller nieuwe theorieën kunnen testen en ontdekken, zonder bang te hoeven zijn voor die vervelende, onzichtbare rekenfouten. Het is alsof je een onfeilbare rekenmachine hebt die luistert naar de slimste denker van de wereld.

Each language version is independently generated for its own context, not a direct translation.

Titel: Agentic Diagrammatica: Naar Autonome Symbolische Berekening in de Hoge-Energiefysica

Auteurs: Tony Menzo et al. (Universiteit van Alabama & Fermi National Accelerator Laboratory)
Datum: 31 maart 2026

1. Het Probleem: Betrouwbaarheid in Agente Symbolische Berekening

Hoewel Large Language Models (LLM's) indrukwekkende vaardigheden hebben in het genereren van code en het oplossen van wiskundige problemen, vormen ze een groot risico voor symbolische berekening in de hoge-energiefysica (HEP).

De "Stille Fout": In tegenstelling tot compileren van code (waar syntaxfouten direct worden opgevangen), wordt de correctheid van symbolische berekeningen bepaald door impliciete wiskundige conventies (bijv. metriek-signatuur, spinor-normalisatie, tekenconventies voor covariante afgeleiden, faseconventies in CKM-matrices).
Inconsistentie: Een LLM die vrij tekst genereert, kan plausibel ogende maar fysisch incorrecte resultaten produceren door termen te laten vallen, identiteiten verkeerd toe te passen of conventies inconsistent te hanteren binnen een multi-stap workflow.
Beperkingen van kennis-grounding: Het simpelweg toevoegen van referentiemateriaal aan de context van de LLM lost dit probleem niet volledig op, omdat de agent de juiste conventie op het juiste moment moet ophalen uit een lange context, wat leidt tot "context-onzekerheid" en fouten in kritieke token-keuzes.

2. Methodologie: Tool-Gedwongen Berekening

De auteurs introduceren Diagrammatica, een extensie op het HEPTAPOD-framework. In plaats van de LLM te vragen om de berekening zelf te genereren (vrij-vorm code), wordt de actie-ruimte van de agent beperkt tot schema-gelardeerde tool-aanroepen.

Kernarchitectuur:

Gedeelde Diagramspecificatie: De agent genereert geen code, maar een gestructureerd JSON-objekt dat een Feynman-diagram beschrijft (deeltjes, spins, vertex-types, koppelingen). Dit object dient als de "enige bron van waarheid" voor alle volgende stappen.
Tool-Gedwongen Semantiek: De tool-schema's coderen de fysische conventies. De agent kiest alleen uit een beperkt, gedefinieerd vocabulaire (bijv. "vector-axial", "scalar", "left-handed"). De daadwerkelijke algebraïsche manipulatie wordt uitgevoerd door een betrouwbaar backend-systeem (FeynCalc/WolframScript), wat de uitvoeringsonzekerheid ( $\Delta E$ ) structureel naar nul dringt.
Multi-Fidelity Paden: Het systeem biedt twee rekenpaden die dezelfde specificatie gebruiken:
- NDA (Naive Dimensional Analysis): Snel, orde-van-grootte schattingen van vervalbreedtes en cross-sections op basis van dimensie-analyse, fase-ruimte en koppelingskracht. Geen externe software vereist.
- EDA (Exact Diagrammatic Analysis): Volledige, exacte boom-niveau (tree-level) symbolische berekeningen via geautomatiseerde FeynCalc-codegeneratie.

Ondersteunende Componenten:

FeynGraph: Een engine (geschreven in Rust) voor het automatisch enumereren en rangschikken van Feynman-diagrammen op basis van zware propagatoren.
Theory Knowledge Base: Een "skills graph" die de agent op verzoek specifieke theoretische documenten en code-voorbeelden toont op het moment van een kritieke beslissing, in plaats van bulk-documentatie te laden.

3. Belangrijkste Bijdragen

Architectuur voor Betrouwbare Agente Berekening: Een bewijs dat het beperken van de actie-ruimte van een LLM tot schema-gelardeerde tool-aanroepen (in plaats van vrije codegeneratie) de betrouwbaarheid van symbolische berekening drastisch verhoogt door conventies "by construction" te fixeren.
Diagrammatica Toolkit: Een volledig werkend systeem dat LLM-agenten in staat stelt om multi-stap theoretische berekeningen te plannen en uit te voeren, inclusief diagramenumeratie, symbolische afleiding en numerieke validatie.
Gedeelde Specificatie: Een LLM-vriendelijk JSON-formaat dat zowel voor ruwe schattingen (NDA) als voor exacte berekeningen (EDA) kan worden gebruikt, wat interne consistentie garandeert.
Benchmark Validatie: Twee uitgebreide taken die het systeem autonoom uitvoeren zonder menselijke tussenkomst.

4. Resultaten en Benchmarks

Het systeem werd getest op twee complexe taken, uitgevoerd door een Claude Opus 4.6 agent:

Taak 1: Exhaustieve Catalogus van $1 \to 2$ Vervalbreedtes

Doel: Het autonoom genereren van symbolische formules voor alle boom-niveau, single-vertex vervalprocessen ( $1 \to 2$ ) voor scalar, fermion en vector ouders.
Uitvoering: De agent genereerde 19 onafhankelijke formules over 6 vertex-families.
Validatie:
- De formules werden getoetst aan bekende Standard Model (SM) waarden (bijv. $H \to b\bar{b}$ , $Z \to e^+e^-$ , $t \to Wb$ ).
- De resultaten kwamen binnen 2-4% overeen met experimentele waarden (verwacht voor boom-niveau berekeningen).
- De agent identificeerde automatisch fysische patronen, zoals de afhankelijkheid van de hoekmomentum (S-golf vs. P-golf) bij de drempelwaarde en CP-discriminatie tussen scalair en pseudoscalair.
- Foutopsporing: De agent detecteerde en corrigeerde een foutieve ladingsbehouds-toewijzing ( $t \to \bar{b}W^+$ ) dankzij de gestructureerde validatiechecks van de tools.

Taak 2: Multipliciteitsgevoeligheid van Muonverval

Doel: Bepalen van het maximale aantal $e^+e^-$ -paren ( $n$ ) in het verval $\mu^+ \to \bar{\nu}_\mu \nu_e + n(e^+e^-) + e^+$ dat nog waarneembaar is bij toekomstige experimenten (zoals Mu3e).
Uitvoering: De agent enumerateerde meer dan 150.000 boom-niveau diagrammen voor multipliciteiten $n=0$ tot $n=3$ .
Analyse:
- Gebruik van NDA voor snelle schattingen en rangschikking van diagramklassen.
- Cross-check met MadGraph voor exacte berekeningen van de dominante diagramklassen.
- De agent concludeerde dat $n=3$ (7 geladen sporen) waarneembaar is bij Mu3e Fase I, terwijl $n=4$ de grens van de waarneembaarheid vormt.
- De studie onthulde het effect van kwantuminterferentie: bij hogere multipliciteit leidt destructieve interferentie tot een onderdrukking van het verval, wat door NDA (die incoherent optelt) niet volledig wordt voorspeld, maar wel door MadGraph.

5. Betekenis en Conclusie

Dit paper markeert een verschuiving in hoe AI wordt ingezet voor wetenschappelijke berekeningen:

Van Codegeneratie naar Tool-Orkestratie: De betrouwbaarheid ligt niet in het vermogen van het model om perfecte code te schrijven, maar in de architectuur die de agent dwingt om correcte, geconstrueerde keuzes te maken via tools.
Interpreteerbaarheid: Omdat de beslissingen van de agent worden gecomprimeerd tot een klein aantal menselijk leesbare velden in een JSON-specificatie, kunnen experts de berekening in één oogopslag verifiëren, in plaats van pagina's gegenereerde code te moeten nakijken.
Toekomstperspectief: Diagrammatica legt de basis voor volledig autonome wetenschappelijke workflows die symbolische theorie, Monte Carlo-simulaties en data-analyse kunnen integreren. De auteurs pleiten voor het adopteren van "conventie-vaste" tool-ontwerpen in toekomstige agente systemen voor de wetenschap.

Kortom, Diagrammatica bewijst dat LLM-agenten, wanneer ze correct worden gestructureerd, complexe theoretische fysica-taken kunnen uitvoeren met een betrouwbaarheidsniveau dat geschikt is voor wetenschappelijk gebruik, waarbij menselijke supervisie wordt behouden via transparante, gestructureerde workflows.

Agentic Diagrammatica: Towards Autonomous Symbolic Computation in High Energy Physics