⚛️ phenomenology

CoLLM: AI engineering toolbox for end-to-end deep learning in collider analyses

CoLLM is een AI-engineering toolkit die voorgetrainde grote taalmodellen en een grafische gebruikersinterface benut om de generatie van fysiek consistente event selectiecode en deep learning-analyses te automatiseren, waardoor de programmeer- en technische barrières voor end-to-end collider-analyses worden verlaagd.

Oorspronkelijke auteurs: W. Esmail, A. Hammad, M. Nojiri

Gepubliceerd 2026-02-09

📖 4 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: W. Esmail, A. Hammad, M. Nojiri

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een meesterkok bent (een deeltjesfysicus) met een briljant idee voor een nieuw gerecht (een wetenschappelijk experiment bij de Large Hadron Collider). Je weet precies welke smaken je wilt en hoe de ingrediënten met elkaar moeten interageren. Echter, om dit gerecht daadwerkelijk te bereiden, moet je urenlang een complex, regel-voor-regel recept schrijven in een taal die alleen een computer begrijpt (Python-code). Als je een enkele typefout maakt—zoals zout voor suiker verwisselen—is het hele gerecht verpest, en je merkt het misschien pas als je het eindresultaat proeft.

CoLLM is als een superintelligente, gespecialiseerde sous-chef die zowel "Chef" (natuurkunde) als "Computer" (code) vloeiend spreekt. Het neemt jouw idee in gewone mensentaal en schrijft direct een perfect, foutloos recept voor je, en bereidt het gerecht vervolgens zelfs klaar en serveert het op.

Hier is hoe CoLLM werkt, opgedeeld in eenvoudige stappen:

1. De "Vibe Engineering" Chef-assistent

Normaal gesproken, wanneer mensen AI gebruiken om code te schrijven, vragen ze gewoon om een recept en hopen ze op het beste. Dit wordt "vibe coding" genoemd. Maar in de wetenschap kan één verkeerd ingrediënt jaren aan werk ruïneren. CoLLM gebruikt een striktere aanpak die "vibe engineering" wordt genoemd.

De Prompt (Het Regelboek): Voordat de AI een enkele regel code schrijft, krijgt deze een enorm, gedetailleerd "regelboek" (een system prompt). Dit regelboek bevat alle natuurkundige wetten, de specifieke manier waarop deeltjesdata wordt opgeslagen, en de gouden regels voor koken in een collider-laboratorium. Het vertelt de AI: "Meng deze getallen nooit" en "Meet dit ingrediënt altijd op deze manier."
De Vertaling: Je typt je experiment in gewone mensentaal: "Ik wil deeltjes vinden die er zo uitzien, negeer die andere, en meet de energie van de restjes." De AI vertaalt dit, geleid door het regelboek, naar een perfect Python-script.

2. De Zelfcorrigerende Proeverij

Zelfs de beste chefs maken fouten. Als de AI een regel code schrijft die de computer laat crashen (zoals proberen een steen te hakken in plaats van een ui), geeft CoLLM niet zomaar op.

De Loop: Het voert de code uit. Als het breekt, leest de AI de foutmelding, beseft: "O, ik ben een komma vergeten," en herstelt alleen dat specifieichte deel. Het probeert het opnieuw. Het blijft dit doen totdat de code perfect draait. Het is als een robot die constant de soep proeft en er een snufje zout aan toevoegt totdat het precies goed is, zonder dat jij een lepel hoeft op te tillen.

3. Het Automatische Proefpanel (Deep Learning)

Zodra het recept is geschreven en de ingrediënten zijn voorbereid, is de volgende stap meestal om een computer te trainen om de "smaak" van het signaal (de interessante deeltjes) te onderscheiden van de achtergrondruis (de saaie dingen).

De Magische Doos: CoLLM stopt niet bij het schrijven van het recept. Het neemt automatisch de voorbereide data en voert deze aan drie verschillende soorten "proefmachines" (Deep Learning-modellen):
- MLP: Een eenvoudige, snelle proever voor standaard data.
- GNN: Een slimme proever die begrijpt hoe deeltjes met elkaar verbonden zijn, zoals een sociaal netwerk van ingrediënten.
- Transformer: Een superproever die naar het hele plaatje tegelijk kijkt en de langetermijnrelaties tussen deeltjes begrijpt.
Het Resultaat: Het traint deze modellen, controleert hoe goed ze werken, en geeft je een rapportcijfer met grafieken die precies laten zien hoe goed het model is in het vinden van de "naald in de hooiberg."

4. De Gebruikersinterface: Twee Manieren om te Bestellen

CoLLM is ontworpen om vriendelijk te zijn voor iedereen, of je nu een tech-wizard bent of gewoon dingen wilt regelen.

De Terminal (TUI): Voor de professionals die graag commando's typen en scripts op de achtergrond draaien.
De Grafische Interface (GUI): Een kleurrijke, klikbare website waar je jouw idee kunt typen, op een knop kunt drukken en de AI in realtime kunt zien werken, waarbij de grafieken worden getekend terwijl je toekijkt.

Waarom is dit een grote zaak?

In het verleden moest een natuurkundige tegelijkertijd een meesterprogrammeur, een datawetenschapper en een deeltjesexpert zijn. Als je geweldig was in natuurkunde maar slecht in programmeren, zat je vast.

CoLLM fungeert als een universele vertaler. Het verlaagt de drempel voor instap, waardoor wetenschappers zich kunnen concentreren op de natuurkunde (het "wat" en "waarom") in plaats van op de codering (het "hoe"). Het zorgt ervoor dat de code niet alleen geschreven is, maar ook fysisch correct, reproduceerbaar (je krijgt elke keer hetzelfde resultaat) en automatisch gevalideerd.

Kortom: CoLLM is een hulpmiddel waarmee je een complex deeltjesfysica-experiment in gewone mensentaal kunt beschrijven, waarna het automatisch de code schrijft, zijn eigen fouten herstelt en een slimme AI traint om het antwoord te vinden, allemaal zonder dat je een expert in programmeren hoeft te zijn.

Technische Samenvatting: CoLLM – AI Engineering Toolbox voor End-to-End Deep Learning in Collider Analyses

1. Probleemstelling

Moderne collider-analyses bij de Large Hadron Collider (LHC) staan voor een dubbele uitdaging: toenemende datavolumes en een escalerende analytische complexiteit. Een typische analyse vereist het vertalen van hoogwaardige natuurkundige concepten (bijv. objectreconstructie, event selectie, berekening van kinematische observabelen) naar uitvoerbare code, gevolgd door de implementatie van deep learning-pipelines voor signaal-achtergrond classificatie. Dit vertaalproces is tijdrovend, gevoelig voor transcriptiefouten (zoals onjuiste identificatiecodes voor deeltjes of inconsistente kinematische cuts) en vereist expertise in zowel de deeltjesfysica als software engineering.

Hoewel Large Language Models (LLMs) veelbelovend zijn gebleken voor het versnellen van wetenschappelijke workflows, is hun directe toepassing op volledige collider-analysepipelines beperkt. Generieke LLMs missen ingebedde kennis van hoogenergetische fysica (HEP) conventies, kunnen de door hen gegenereerde code niet van nature uitvoeren of valideren, en produceren niet-deterministische outputs die reproduceerbaarheid in gevaar brengen. Bovendien is de "vibe coding"-aanpak (vertrouwen op door AI gegenereerde code zonder rigoureuze controle) riskant in de natuurkunde, waar correctheid van cruciaal belang is.

2. Methodologie: Het CoLLM-framework

CoLLM is een open-source Python-framework ontworpen om de kloof te overbruggen tussen natuurlijke taal-analyse-specificaties en getrainde deep learning-classifiers. Het werkt als een end-to-end pipeline bestaande uit twee nauw geïntegreerde componenten:

2.1 LLM-gebaseerde Codegeneratie-engine

De eerste fase vertaalt specificaties in gewone taal naar gevalideerde Python-code voor event preselectie en feature extractie.

Gestructureerde Input: Gebruikersinputs worden georganiseerd in drie semantische secties: Selection Cuts (objectveelheden, kinematische restricties), Validation Plots (diagnostische distributies) en Output Structure (observabelen voor deep learning).
Physics-Aware System Prompt: Om het gebrek aan domeinkennis in generieke modellen te mitigeren, gebruikt CoLLM een uitgebreide system prompt. Deze prompt codeert:
- De LHCO (LHC Olympics) dataformaat specificaties.
- Standaard deeltjesidentificatiecodes (bijv. type 6 voor MET).
- Kinematische formules (bijv. invariante massa, transversale massa) met expliciete waarschuwingen tegen veelvoorkomende LLM-fouten (bijv. het sommeren versus het aftrekken van 4-momenta).
- Referentie helper-functies voor het parsen en selecteren van objecten.
Deterministisch Decoderen: Om reproduceerbaarheid te garanderen, gebruikt het primaire generatiemodel een temperatuur van $T=0$ met greedy decoding, waardoor de output een deterministische functie van de input prompt wordt.
Automatische Foutcorrectie (PyFixer): Een secundaire LLM, die opereert in een exploratieve modus ( $T=0.9$ ), repareert iteratief executiefouten. Het analyseert tracebacks en wijzigt alleen de defecte codefragmenten in plaats van het gehele script te regenereren, waardoor gevalideerde logica behouden blijft.

2.2 Geautomatiseerde Deep Learning Pipeline

De tweede fase consumeert de features die zijn geëxtraheerd door de gegenereerde code om signaal-achtergrond classifiers te trainen. Het framework ondersteunt drie architecturen, configureerbaar via YAML of een Graphical User Interface (GUI):

Multi-Layer Perceptrons (MLPs): Voor vaste lengte, hoogwaardige kinematische feature vectoren.
Graph Neural Networks (GNNs): Voor variabel-veelheid deeltjensets (bijv. jets, tracks), waarbij deeltjes als nodes en relaties als edges worden behandeld. Ondersteunt Graph Convolutional Networks (GCNs), Dynamic Edge Convolution (EdgeConv) en Graph Attention Networks (GATs).
Transformer Networks: Voor deeltjeswolken-representaties met behulp van self-attention mechanismen om langetermijn-afhankelijkheden te modelleren zonder vaste topologie.

De pipeline automatiseert data loading, normalisatie, modelconstructie, training (met callbacks voor early stopping, learning rate scheduling en mixed precision) en evaluatie met behulp van standaard HEP-metrieken (bijv. AUC).

2.3 Gebruikersinterfaces

CoLLM biedt twee interfaces:

Terminal User Interface (TUI): Gebruikt YAML-configuratiefiles voor batchverwerking en reproduceerbare workflows.
Graphical User Interface (GUI): Een Streamlit-gebaseerde webinterface voor interactieve configuratie, real-time monitoring en visuele debugging.

3. Belangrijkste Bijdragen

End-to-End Automatisering: CoLLM biedt een verenigde workflow van natuurlijke taal natuurkundige specificaties tot getrainde deep learning-classifiers, wat de handmatige programmeerlast vermindert.
Physics-Aware Generatie: In tegenstelling tot generieke code generators, embedt CoLLM HEP-conventies direct in de generatiecontext via een gespecialiseerde system prompt, wat fysieke consistentie in kinematische berekeningen en objectafhandeling waarborgt.
Deterministische Reproduceerbaarheid: Door $T=0$ decoding af te dwingen voor de primaire generator en gebruik te maken van een gestructureerde foutcorrectie-loop, adresseert CoLLM de niet-determinisme die inherent is aan standaard LLM-applicaties.
Modulaire Deep Learning Integratie: Het framework integreert naadloos drie verschillende neurale netwerkfamilies (MLP, GNN, Transformer) die zijn afgestemd op verschillende collider-event representaties.
Validatie en Benchmarking: De auteurs bieden een systematische validatiestudie met vijf benchmark-processen ( $pp \to W^+W^-$ , $t\bar{t}$ , $H \to \gamma\gamma$ , $WZ$, $Hjj$) om het vermogen van het framework aan te tonen om correcte selectielogica en diagnostische plots te genereren.

4. Resultaten

Het paper valideert CoLLM met behulp van het meta-llama/Llama-3.3-70B-Instruct model op vijf benchmark-analyses.

Code Correctheid: Het framework genereerde succesvol uitvoerbare Python-scripts voor complexe semi-leptonische top-quark paarproductie en andere processen, waarbij LHCO-bestanden correct werden geparsed, selectie-cuts werden toegepast en kinematische variabelen werden berekend.
Reproduceerbaarheid: Bij herhaalde runs met identieke inputs produceerde het framework consistente cutflow-resultaten. Minimale variaties die werden waargenomen, werden toegeschreven aan ambiguïteiten in de gebruikersprompt (bijv. de definitie van "leading jets") in plaats van modelstochasticiteit, wat het belang van precieze gebruikersspecificaties benadrukt.
Fysische Validatie: Gegenereerde histogrammen (bijv. dijet invariante massa, transversale massa) vertoonden verwachte fysische kenmerken, zoals pieken nabij de $W$ -boson en top-quark massa's, en Jacobian edges voor $W \to \ell\nu$ verval.
Foutcorrectie: De PyFixer-module loste de meerderheid van de executiefouten op binnen één of twee verfijningsiteraties, wat de effectiviteit van het iteratieve reparatiemechanisme aantoont.

5. Betekenis en Claims

De auteurs positioneren CoLLM niet als een vervanging voor natuurkundige expertise, maar als een tool voor "vibe engineering"—een gedisciplineerde aanpak waarbij LLMs assisteren bij codegeneratie terwijl het framework strikte validatie en natuurkundige restricties afdwingt.

De drempel verlagen: CoLLM beoogt de technische complexiteit van collider-analyses te vereenvoudigen, waardoor geavanceerde event selecties en deep learning methoden toegankelijk worden voor natuurkundigen die mogelijk minder uitgebreide programmeerervaring hebben.
Betrouwbaarheid boven Snelheid: Het paper benadrukt dat hoewel generieke LLMs nuttig zijn voor hulptaken, ze niet voldoen aan de strikte eisen van de collider-natuurkunde vanwege een gebrek aan domeinkennis en reproduceerbaarheid. CoLLM adresseert dit door domeinspecifieke prompts en geautomatiseerde validatielussen te integreren.
Huidige Beperkingen: De auteurs erkennen bescheiden de huidige beperkingen:
- Codegeneratie is momenteel beperkt tot het LHCO tekstformaat en ondersteunt nog niet het ROOT dataformaat dat breed wordt gebruikt in experimentele analyses.
- Ambiguïteiten in natuurlijke taal-inputs kunnen nog steeds leiden tot variaties in de gegenereerde code, wat gebruikers vereist om precies te zijn in hun specificaties.
- Het framework is afhankelijk van de beschikbaarheid van specifieke LLMs en rekenbronnen (GPU's) voor lokale inferentie, hoewel het cloud API-alternatieven ondersteunt.

Concluderend vertegenwoordigt CoLLM een belangrijke stap naar de automatisering van de technische uitvoering van collider-analyses, waarbij wordt gewaarborgd dat de resulterende code niet alleen syntactisch correct, maar ook fysisch consistent en reproduceerbaar is.