How to Deep-Learn the Theory behind Quark-Gluon Tagging

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een supersterke, maar mysterieuze robot hebt die kan zien of een deeltje in een deeltjesversneller (zoals de LHC) een quark of een gluon is. Deze robot, een kunstmatige intelligentie (AI), is zo goed dat hij beter presteert dan elke menselijke natuurkundige die met de hand formules schrijft. Maar er is een groot probleem: niemand weet hoe hij dat doet. Hij is een "black box". Hij geeft een antwoord, maar je kunt niet zien waar hij zijn kennis vandaan haalt.

De auteurs van dit paper willen die zwarte doos openmaken. Ze willen niet alleen weten dat de robot goed is, maar ook waarom en hoe hij denkt. Ze noemen dit "uitlegbaar AI" (Explainable AI).

Hier is hoe ze dit doen, vertaald in alledaagse termen:

1. De Opdracht: Het Onderscheid tussen Quarks en Gluons

In deeltjesfysica zijn quarks en gluons de bouwstenen van materie. Als ze botsen, ontstaan er stralen van deeltjes, zogenaamde "jets".

Quark-jets zijn als een strakke, strakke bundel pijlen die rechtuit vliegen.
Gluon-jets zijn als een losse, wazige wolk van deeltjes die overal naartoe spatten.

De robot moet deze twee soorten wolken van elkaar kunnen onderscheiden. Dat is lastig, want de natuurkunde hier is ingewikkeld en soms vaag.

2. De Robot: Een "Neuraal Netwerk"

De robot die ze gebruiken heet ParticleNet. Hij kijkt niet naar simpele getallen, maar naar de hele "wolk" van deeltjes in de jet. Hij is getraind om patronen te zien die wij misschien missen. Maar omdat hij zo complex is, weten we niet welke regels hij volgt.

3. Stap 1: De "Samenvatting" van de Robot (Latente Kenmerken)

De robot heeft een geheugen van 64 getallen per jet. Dat is te veel om te begrijpen. De auteurs gebruiken een techniek (PCA) om deze 64 getallen te comprimeren tot de belangrijkste 3 of 4 "hoofdlijnen".

Analogie: Stel je voor dat je een heel boek wilt samenvatten. Je merkt dat de hele inhoud eigenlijk draait om drie dingen: hoeveel woorden er zijn, hoe breed de zinnen zijn, en hoe complex de zinsbouw is.
Wat ze vonden: De robot heeft zelf ontdekt dat het onderscheid vooral gaat over:
1. Aantal deeltjes: Gluons hebben meer deeltjes (zoals een grotere wolk).
2. De vorm: Hoe de energie zich verspreidt (is het een strakke pijl of een wazige bol?).
3. De verdeling: Hoe de energie over de deeltjes verdeeld is.

De robot heeft dus de basisregels van de natuurkunde zelf opnieuw ontdekt, zonder dat de auteurs hem dat hadden verteld!

4. Stap 2: De "Schuldige" Vinden (Shapley Values)

Nu willen ze weten: welk kenmerk is het belangrijkst? Ze gebruiken een wiskundige methode genaamd Shapley Values.

Analogie: Stel je hebt een team dat een prijs heeft gewonnen. Wie heeft het meeste bijgedragen? De Shapley-methode kijkt naar elke mogelijke combinatie van teamleden om te zien wie er echt het verschil maakt.
Het probleem: Soms werken de teamleden samen (ze zijn gecorreleerd). Als je alleen kijkt naar "aantal deeltjes", en dat getal verandert, verandert vaak ook "de vorm" mee. De standaard-methode denkt dan dat ze onafhankelijk zijn en geeft een verkeerd oordeel.
De oplossing: De auteurs hebben getoond dat je eerst de kenmerken moet "ontkoppelen" (zorgen dat ze niet van elkaar afhankelijk zijn) voordat je de Shapley-methode gebruikt. Anders krijg je een verwarrend en onjuist verhaal over wie de echte held is.

5. Stap 3: De "Formule" Ontdekken (Symbolische Regressie)

Dit is het meest creatieve deel. De auteurs willen de complexe robot vervangen door een simpele, begrijpbare wiskundige formule.

Analogie: Stel je hebt een supercomputer die de weersvoorspelling doet, maar niemand begrijpt de code. Ze willen een simpele regel vinden, zoals: "Als de luchtvochtigheid hoog is en de wind uit het westen komt, dan gaat het regenen."
Ze gebruikten een algoritme dat door miljoenen mogelijke formules "zoekt" (zoals een evolutionair proces) om de beste simpele vergelijking te vinden die precies hetzelfde doet als de robot.
Het resultaat: Ze vonden een compacte formule die bijna net zo goed werkt als de complexe robot. Deze formule is nu voor elke natuurkundige te lezen en te begrijpen. Het is geen "black box" meer, maar een heldere regel die we op papier kunnen schrijven.

Waarom is dit belangrijk?

Vertrouwen: Wetenschappers kunnen nu vertrouwen op de AI, omdat ze begrijpen waarom hij een oordeel velt.
Nieuwe inzichten: De AI heeft subtiele patronen gevonden die de mens misschien over het hoofd had gezien (zoals specifieke combinaties van deeltjestypes).
Snelheid: Een simpele formule is veel sneller te berekenen dan een zware computerrobot. Dit helpt bij het analyseren van enorme hoeveelheden data in de toekomst.

Kortom: De auteurs hebben een slimme, maar ondoorzichtige robot getemd. Ze hebben hem laten zien dat hij de natuurkunde begrijpt, hebben de "schuldigen" voor zijn beslissingen geïdentificeerd, en hebben uiteindelijk een simpele, menselijke formule geschreven die precies hetzelfde doet als de robot. Ze hebben de magie van AI omgezet in begrijpelijke wetenschap.

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe de theorie achter quark-gluon tagging diep te leren

Auteurs: Sophia Vent, Ramon Winterhalder en Tilman Plehn
Publicatie: SciPost Physics (ingediend 30 juli 2025)

1. Probleemstelling

In de fundamentele fysica, en specifiek bij de Large Hadron Collider (LHC), is het onderscheiden van quark-jets en gluon-jets (QG-tagging) een cruciale maar uitdagende taak. Hoewel machine learning (ML) modellen zoals ParticleNet prestaties leveren die algoritmen op basis van handgemaakte observabelen overtreffen, blijven deze modellen vaak "black boxes".

De kernvraag: Kunnen we de interne representaties van getrainde neurale netwerken interpreteren om relevante fysica te extraheren?
De uitdaging: QG-tagging is theoretisch lastig omdat de definitie van een jet als "quark" of "gluon" verder gaat dan de leidende orde (LO) en gevoelig is voor soft en collinear splitsingen, hadronisatie en detector-effecten.
Doel: Het toepassen van Explainable AI (XAI) technieken om te begrijpen welke kenmerken het netwerk leert, of deze overeenkomen met bekende fysica, en of we compacte wiskundige formules kunnen afleiden die het netwerkgedrag nabootsen.

2. Methodologie

De auteurs analyseren een getraind ParticleNet-Lite model (een grafische convolutienetwerk) dat is getraind op een dataset gegenereerd met Pythia 8.2 (en geverifieerd met Herwig 7.1). De dataset bevat licht-flavor jets (exclusief charm/bottom) met een 50:50 verdeling van quark- en gluon-jets.

De analyse verloopt in vier fasen:

Latente Ruimte Analyse (Lineair & Non-lineair):
- PCA (Principal Component Analysis): Het 64-dimensionale latent vector van het netwerk wordt gecomprimeerd. De auteurs onderzoeken hoe de belangrijkste hoofdcomponenten (PC's) correleren met bekende jet-observabelen (zoals multipliciteit, straalmomenten, en energie-correlatiefuncties).
- DLC (Disentangled Latent Classifier): Een autoencoder-achtige architectuur wordt gebruikt om de latent ruimte te comprimeren tot een lagere dimensie terwijl de classificatieprestaties behouden blijven. Een verliesfunctie straft correlaties tussen de latent variabelen af om onafhankelijke kenmerken te forceren.
Feature Importance via Shapley Waarden (SHAP):
- Er wordt gebruik gemaakt van het SHAP-framework om de bijdrage van individuele input-observabelen aan de output te kwantificeren.
- Kritiek punt: De auteurs benadrukken dat standaard SHAP aannames over onafhankelijke inputs maakt, wat kan leiden tot misleidende attributies bij sterk gecorreleerde jet-observabelen (bijv. multipliciteit en breedte). Ze tonen aan dat het gebruik van gedecorreleerde observabelen noodzakelijk is voor een correcte interpretatie.
Symbolische Regressie:
- Met het PySR-framework wordt gezocht naar compacte wiskundige formules die de output van het neurale netwerk benaderen.
- De regressie wordt uitgevoerd op verschillende niveaus:
  - 1D: Formules voor individuele observabelen.
  - 2D: Combinaties van twee observabelen.
  - Volledig: Benadering met een set van zeven leidende observabelen.
- De complexiteit van de formules wordt beperkt om fysieke interpreteerbaarheid te waarborgen.

3. Belangrijkste Bijdragen en Resultaten

A. Identificatie van Latente Fysica

De analyse toont aan dat het netwerk drie hoofdrichtingen leert die sterk correleren met bekende QCD-fysica:

PC1 (Multipliciteit & Diversiteit): Gedomineerd door het aantal deeltjes ( $n_{pf}$ ) en de entropie van de deeltjestypes ( $S_{PID}$ ). Gluon-jets hebben een hogere multipliciteit en een bredere mix van deeltjestypes.
PC2 (Radiale Energie Profiel): Correlatie met de vorm en breedte van de jet (bijv. ellipticiteit, $w_{pf}$ ). De auteurs introduceren een nieuwe, gedecorreleerde variabele $r_\lambda$ die de radiale structuur isoleert zonder afhankelijk te zijn van de multipliciteit.
PC3 (Fragmentatie & Energieverspreiding): Gerelateerd aan hoe energie over de constituenten wordt verdeeld (fragmentatie-entropie $S_{frag}$ ). Dit is onafhankelijk van multipliciteit en breedte.

B. SHAP en de Val van Correlaties

Standaard SHAP-analyses op gecorreleerde sets (zoals $n_{pf}$ en $w_{pf}$ ) leiden tot tegenintuïtieve resultaten (bijv. een negatieve bijdrage voor $w_{pf}$ bij quark-jets, terwijl het eigenlijk positief zou moeten zijn in combinatie met lage multipliciteit).
Oplossing: Door een set van gedecorreleerde observabelen te gebruiken (bijv. $\{n_{pf}, r_\lambda, A^\perp\}$ ), herstellen de SHAP-waarden de fysieke verwachtingen en tonen ze duidelijk dat multipliciteit de belangrijkste discriminator is.

C. Symbolische Regressie Resultaten

De auteurs slaagden erin om compacte formules af te leiden die de beslissingsgrenzen van het complexe ParticleNet nabootsen:

1D Regressie: Formules voor individuele variabelen (zoals $n_{pf}$ ) tonen een omgekeerde schaling ( $\sim 1/n_{pf}$ ), wat overeenkomt met de verwachting dat meer deeltjes duiden op een gluon. De beste fit gebruikt de $\tanh$ -functie.
2D Regressie: Het combineren van $n_{pf}$ met een tweede variabele (zoals $r_\lambda$ of $C_{0.2}$ ) verbetert de prestaties aanzienlijk en levert formules op die zowel nauwkeurig als interpreteerbaar zijn.
Volledige Regressie: Een formule met complexiteit 22, gebaseerd op vijf van de zeven beschikbare observabelen ( $C_{0.2}, r_\lambda, p_T D, S_{PID}, S_{frag}$ $C_{0.2}, r_{λ}, p_{T} D, S_{P I D}, S_{f r a g}$ ), bereikt een AUC van 0.871, wat bijna gelijk is aan het volledige getrainde MLP-model (AUC 0.872).
- De formule bevat een lineaire term voor $C_{0.2}$ en een complexe niet-lineaire interactie tussen de andere variabelen, verpakt in een $\tanh^3$ -functie.

4. Betekenis en Toekomstperspectief

Validatie van ML: Het onderzoek bevestigt dat moderne ML-modellen in deeltjesfysica niet alleen "zwarte dozen" zijn, maar dat ze fundamentele QCD-kenmerken (multipliciteit, straalflow, fragmentatie) herontdekken en combineren op een niet-triviale manier.
Nieuwe Observabelen: De studie introduceert en valideert nieuwe, verfijnde combinaties van kenmerken (zoals $r_\lambda$ ) die beter presteren dan traditionele handgemaakte observabelen.
Interpreteerbaarheid als Noodzaak: Het werk benadrukt dat XAI-tools zoals SHAP met voorzichtigheid moeten worden gebruikt bij gecorreleerde data; zonder gedecorrelatieerde inputs kunnen ze tot verkeerde fysieke conclusies leiden.
Praktische Toepassing: De afgeleide symbolische formules kunnen dienen als snelle surrogaten voor volledige ML-taggers in experimentele analyses. Dit biedt een compromis tussen de hoge nauwkeurigheid van deep learning en de rekenkundige snelheid en transparantie van analytische formules, wat essentieel is voor grote datasets en systematische foutenreductie.

Samenvattend toont dit artikel aan dat het combineren van deep learning met XAI-methoden (PCA, SHAP, Symbolic Regression) leidt tot een dieper theoretisch inzicht in jet-substructuur en de weg vrijmaakt voor transparante, snelle en fysiek onderbouwde analyse-tools in de deeltjesfysica.

How to Deep-Learn the Theory behind Quark-Gluon Tagging

1. De Opdracht: Het Onderscheid tussen Quarks en Gluons

2. De Robot: Een "Neuraal Netwerk"

3. Stap 1: De "Samenvatting" van de Robot (Latente Kenmerken)

4. Stap 2: De "Schuldige" Vinden (Shapley Values)

5. Stap 3: De "Formule" Ontdekken (Symbolische Regressie)

Waarom is dit belangrijk?

Titel: Hoe de theorie achter quark-gluon tagging diep te leren

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. Identificatie van Latente Fysica

B. SHAP en de Val van Correlaties

C. Symbolische Regressie Resultaten

4. Betekenis en Toekomstperspectief

Meer zoals dit

Development & Characterization of Electrodes for large-scale Xenon Time Projection Chambers

Viability of A4A_4A4​, S4S_4S4​ and A5A_5A5​ Flavour Symmetries in Light of the First JUNO Result

Search for the lepton number violating decay η→π+π+e−e−+c.c.η\to π^+π^+e^-e^- + c.c.η→π+π+e−e−+c.c. via J/ψ→ϕηJ/ψ\toϕηJ/ψ→ϕη

Afterpulse prediction for SUBMET experiment

SENSEI at SNOLAB: Single-Electron Event Rate and Implications for Dark Matter

Viability of $A_4$ , $S_4$ and $A_5$ Flavour Symmetries in Light of the First JUNO Result

Search for the lepton number violating decay $η\to π^+π^+e^-e^- + c.c.$ via $J/ψ\toϕη$