Neural Scaling Laws for Jet Generation

Oorspronkelijke auteurs: Oz Amram, Darius A. Faroughy, Tjarko Gerdes, Anna Hallin, Gregor Kasieczka, Michael Krämer, Humberto Reyes-Gonzalez, David Shih

Gepubliceerd 2026-05-29

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Oz Amram, Darius A. Faroughy, Tjarko Gerdes, Anna Hallin, Gregor Kasieczka, Michael Krämer, Humberto Reyes-Gonzalez, David Shih

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Plaatje: Een Robot Leren om Deeltjesbotsingen te "Dromen"

Stel je voor dat je een robot probeert te leren schilderen. In de wereld van Kunstmatige Intelligentie (AI) bestaat er een beroemde regel die een "Scaling Law" (schaalwet) wordt genoemd. Deze zegt in feite: Als je de robot een groter brein geeft (meer parameters), meer verfsamples (meer data), of meer tijd om te schilderen (meer rekenkracht), wordt hij op een voorspelbare, wiskundige manier beter in schilderen.

Dit artikel stelt een simpele vraag: Werkt deze regel ook voor deeltjesfysica?

Specifiek wilden de onderzoekers zien of ze een robot konden trainen om realistische deeltjesjets te "dromen" (genereren). In de deeltjesfysica, wanneer protonen op elkaar botsen, spuiten ze wolken van deeltjes uit die jets worden genoemd. Deze zijn rommelig, chaotisch en volgen de wetten van de kwantummechanica. Het team trainde een model genaamd OmniJet-α om de patronen van deze jets te leren en vervolgens nieuwe, neppe jets te genereren die er precies uitzien als het echte werk.

De Drie Ingrediënten voor Succes

Om hun theorie te testen, stelden de onderzoekers drie hoofdingredienten bij, net als een chef die een recept aanpast:

Modelgrootte (Het Brein): Ze maakten het "brein" van de AI steeds groter, van een tiny "Pico"-brein tot een massief "XXL"-brein.
Datasetgrootte (Het Leerboek): Ze voerden de AI meer en meer voorbeelden van echte jets aan, variërend van een paar miljoen tot honderden miljoenen.
Rekenkracht (De Tijd/Inspanning): Ze gaven de AI verschillende hoeveelheden rekenkracht om de data te bestuderen.

Wat Ze Vonden: Het "Eenvoudige" Deel vs. Het "Moeilijke" Deel

1. Het Brein Wordt Groter (Modelgrootte) → Succes!

Toen ze het brein van de AI groter maakten, werd hij aanzienlijk beter in zijn werk.

De Analogie: Stel je een student voor die een toets maakt. Als je hem een groter brein geeft (meer kennis), stijgt zijn toetsscore in een gladde, voorspelbare curve.
Het Resultaat: Het artikel vond hier een duidelijke wiskundige regel. Grotere modellen = betere voorspellingen.
De Bonus: Ze controleerden of de AI de toets gewoon uit het hoofd leerde of dat hij de fysica daadwerkelijk begreep. Ze maten hoe goed de "neppe" jets overeenkwamen met echte fysica-regels (met behulp van iets dat de Sliced Wasserstein Distance wordt genoemd). Ze ontdekten dat naarmate de toetsscores omhoog gingen, ook de kwaliteit van de fysica omhoog ging. De wiskunde en de fysica zaten perfect in sync.

2. Het Leerboek Wordt Groter (Datasetgrootte) → Weinig Verandering

Toen ze de AI meer data voerden, was de verbetering verrassend klein.

De Analogie: Stel je een student voor die de hele encyclopedie al heeft gelezen. Als je hem een andere encyclopedie geeft, leert hij niet veel meer omdat hij de basis al onder de knie heeft.
Het Resultaat: De AI leek zeer snel een "plafond" te bereiken. Zelfs met een kleine hoeveelheid data leerde hij bijna alles wat er te leren viel over de algemene vorm van de jets. Meer data toevoegen hielp niet veel, omdat de AI al het "eenvoudige" materiaal had geleerd.

3. Meer Tijd/Inspanning (Rekenkracht) → Vlakke Lijnen

Toen ze de AI meer rekenkracht gaven om te trainen, verbeterden de resultaten ook niet veel.

De Analogie: Stel je een student voor die een toets in 10 minuten maakt en een A haalt. Als je hem 10 uur geeft om dezelfde toets te maken, haalt hij geen A+; hij wordt gewoon saai.
Het Resultaat: De AI leerde zo snel dat zelfs kleine modellen hun maximale potentieel zeer snel bereikten. Meer tijd om te studeren geven maakte hen niet slimmer.

De Geheime Saus: Het "Leerbaar Venster"

Waarom stopte de AI zo snel met leren? De auteurs introduceerden een slim concept genaamd het "Leerbaar Venster".

Het Concept: Denk aan de totale informatie in de data als een grote kamer. Een deel van de kamer is gevuld met duidelijke, leerbare patronen (het "venster"). De rest van de kamer is gevuld met pure chaos en willekeur (ruis).
De Ontdekking: Bij taalmodellen (zoals degene die deze tekst schrijft) is het "venster" enorm. Er zit zoveel structuur in taal dat een groter brein langdurig nieuwe patronen kan blijven vinden.
De Twist: Bij deeltjesjets is het "venster" miniem. Omdat de deeltjesfysica wordt geregeerd door de kwantummechanica, is deze inherent stochastisch (willekeurig). De AI leerde snel alle voorspelbare patronen, en de rest van de data was gewoon willekeurige ruis die geen hoeveelheid breinkracht kon voorspellen.
De Metafoor: Het is alsof je probeert het exacte pad van een enkele regendruppel in een storm te voorspellen. Je kunt het algemene patroon van de storm leren (de wind, de wolken), maar het specifieke pad van één druppel is willekeurig. De AI leerde de storm snel, maar kon de willekeur van de druppel niet leren, hoe groot zijn brein ook werd.

De Conclusie

Dit artikel is het eerste dat aantoont dat neurale schaalwetten bestaan voor de deeltjesfysica, maar dat ze zich anders gedragen dan bij taal.

Goed Nieuws: Grotere modellen werken wel, en ze worden beter in fysica.
De Haken: De AI stuit zeer snel op een muur omdat de data van nature willekeurig is. Je kunt niet gewoon oneindig veel geld en data op het probleem gooien om oneindige verbeteringen te krijgen; de "willekeur" van het universum stelt een harde grens aan hoe goed de AI kan voorspellen.

Kortom: De AI is een briljante student, maar het onderwerp (kwantumfysica) is zo chaotisch dat zelfs de slimste student maar zoveel kan leren voordat hij begint met gokken.

Technische Samenvatting: Neuronale Schaalwetten voor Jet-Generatie

Probleemstelling
Neuronale schaalwetten, die de machtsverhouding beschrijven tussen modelprestaties en datasetgrootte, rekenkracht en modelparameters, zijn centraal komen te staan in de moderne kunstmatige intelligentie, met name bij grote taalmodellen (LLM's). Hun toepasbaarheid op deeltjesfysica (HEP) blijft echter een open vraag. Collider-data verschilt kwalitatief van natuurlijke taal- en visuele data: het is hoogst stochastisch door de aard van de kwantumveldtheorie (QCD-straling), maar tegelijkertijd beperkt door fysische dynamica. Bovendien zijn schaalwetten weliswaar waargenomen in toezicht op jet-classificatietaken, maar is hun gedrag in generatieve modellering – specifiek voor deeltjesjets – minder goed begrepen. Dit werk onderzoekt of empirische schaalwetten gelden voor de taak van het genereren van deeltjesjets met foundation-modellen, en of verbeteringen in het trainingsdoel (voorspelling van het volgende token) leiden tot verbeteringen in fysisch betekenisvolle observabelen.

Methodologie
De studie maakt gebruik van OmniJet-α, een autoregressief GPT-achtig transformer-model dat getraind is op getokeniseerde jet-componenten via voorspelling van het volgende token (NTP). Het model converteert jet-componenten (kinematische kenmerken zoals transversale impuls $p_T$ en relatieve hoeken) naar integer-tokens met behulp van een Vector Quantized Variational Autoencoder (VQ-VAE) met een codeboekgrootte van 32.768.

Het onderzoek is uitgevoerd op de Aspen Open Jets (AOJ)-dataset, afgeleid van CMS Open Data, met ongeveer 180 miljoen gereconstrueerde jets uit proton-protonbotsingen. Dit vertegenwoordigt het eerste onderzoek naar neuronale schaalwetten op experimenteel geregistreerde collider-data in plaats van Monte Carlo-simulaties.

De studie is verdeeld in drie fasen om schaling te analyseren met betrekking tot:

Modelgrootte ( $N$ ): Variëren van parameters van 25k tot 85 miljoen niet-embedding-parameters, terwijl datasetgrootte en rekenbudget constant worden gehouden.
Datasetgrootte ( $D$ ): Variëren van het aantal unieke trainings-tokens van $6.4 \times 10^6$ tot $8.1 \times 10^9$ met een vaste modelarchitectuur.
Rekenkracht ( $C$ ): Een isoFLOP-analyse waarbij modelgrootte en trainingsstappen worden gevarieerd voor vaste rekenbudgetten om rekenoptimaal schalen te identificeren.

Twee primaire metrieken worden geëvalueerd:

NTP-validatieverlies: Het standaard cross-entropy-verlies voor de taak van voorspelling van het volgende token.
Gesneden Wasserstein-afstand (SWD): Een statistische metriek berekend op vijf hoog-niveau jet-observabelen ( $p_T$ , massa $m$ , $\tau_{21}$ , $\tau_{32}$ , en aantal componenten $n$ ) die tijdens het trainen niet direct beschikbaar waren voor het model. Dit meet de kwaliteit van de gegenereerde jets in de fysische ruimte.

De auteurs introduceren het concept van een "leerbare venster" ( $W$ ), gedefinieerd als het gat tussen het verlies van een uniform predictor ( $\log V$ ) en de onreduceerbare entropievloer van de dataset ( $H(p)$ , geschat door het asymptotische verlies $L_\infty$ ). Deze metriek kwantificeert het fractie van het totale verliesbereik dat leerbaar is versus intrinsieke stochastiek.

Belangrijkste Resultaten

Schaalwetten voor Modelgrootte: De studie bevestigt een duidelijke machtsverhouding voor het NTP-validatieverlies als functie van de modelgrootte ( $L(N) \propto N^{-\beta_N} + L_\infty$ ). De schalingsexponent $\beta_N$ is ongeveer 0,43. Cruciaal vertoont de SWD-metriek een monotoon verband met het NTP-verlies, wat aangeeft dat verbeteringen in het trainingsdoel direct leiden tot betere modellering van fysische observabelen. De SWD-waarden naderen de intrinsieke statistische vloer die samenhangt met vergelijkingen van reële data met een eindige steekproefgrootte.
Schaalwetten voor Dataset en Rekenkracht: Schaling met datasetgrootte en rekenkracht levert aanzienlijk zwakkere signalen op. Hoewel de data compatibel is met interpretaties op basis van machtsverhoudingen, is het dynamische bereik klein en zijn de statistische onzekerheden groot. De modellen lijken snel te verzadigen; zelfs de kleinste modellen vangen een overweldigend deel van de leerbare structuur op.
Het Leerbare Venster: Een opvallende bevinding is de kleine omvang van het leerbare venster voor jet-generatie in vergelijking met taalmodellering. Voor OmniJet-α is het leerbare venster $W$ ongeveer 3,2 nat, vergeleken met ~8,7 nat in vergelijkbare studies met taalmodellen. Bijgevolg is de effectieve perplexiteit ( $e^{L_\infty}$ ) 1330, aanzienlijk hoger dan de ~5,4 die bij taalmodellen wordt waargenomen. Dit suggereert dat de dominante structuren in de jet-verdeling worden geleerd met relatief bescheiden middelen, en dat het resterende verlies wordt gedomineerd door intrinsieke stochastiek in plaats van reduceerbare fouten.
IsoFLOP-curve: De isoFLOP-curve (verlies versus modelgrootte voor vaste rekenkracht) is ongewoon vlak, zonder de duidelijke "U-vorm" met een scherpe linkerkant die bij taalmodellen wordt waargenomen. Dit maakt het afleiden van een rekenoptimale modelgrootte zeer onzeker, hoewel een paraboolpassing suggereert dat de optimale schalingsexponent $a \approx 0,92$ is voor modelgrootte versus rekenkracht.

Betekenis en Beweringen
Het artikel beweert de eerste te zijn die systematisch neuronale schaalwetten voor generatieve jet-modellen op echte collider-data onderzoekt. De primaire bijdragen zijn:

Validatie van Schaalwetten: Het toont aan dat logaritmische schaalwetten voor modelgrootte bestaan in jet-generatie en dat het NTP-verlies een betrouwbare proxy is voor fysieke prestaties (SWD).
Snelle Verzadiging: Het identificeert dat autoregressieve jet-generatie veel sneller verzadigt dan taalmodellering, waarschijnlijk vanwege de stochastische aard van QCD-straling en de dominantie van "kenmerkloze" QCD-jets in de dataset.
Concept van het Leerbare Venster: Door het concept van het leerbare venster in te voeren, bieden de auteurs een kader om te verklaren waarom schalingswinsten in dit domein zwak zijn: het "leerbare" deel van de data-verdeling is klein in verhouding tot de totale entropie.
Domeinspecificiteit: De resultaten suggereren dat schalingsgedrag in HEP gevoelig is voor de taakstructuur. Waar toezicht op jet-classificatie een voortdurende schaling over grote bereiken toont, nadert generatieve modellering van generieke QCD-jets vroeg verzadiging. Dit impliceert dat pre-trainingsstrategieën die succesvol zijn in taal, domeinspecifieke aanpassingen vereisen voor deeltjesfysica, met name met betrekking tot codeboekresolutie en de volgorde van componenten.

De auteurs concluderen dat hoewel schaalwetten aanwezig zijn, de afnemende meeropbrengsten en snelle verzadiging die in deze studie worden waargenomen, de unieke uitdagingen benadrukken van onbewaakt pre-trainen op data uit de deeltjesfysica, waarbij de onderliggende fysica een hoge mate van onreduceerbare stochastiek oplegt.