Neural Scaling Laws for Jet Generation

Ursprüngliche Autoren: Oz Amram, Darius A. Faroughy, Tjarko Gerdes, Anna Hallin, Gregor Kasieczka, Michael Krämer, Humberto Reyes-Gonzalez, David Shih

Veröffentlicht 2026-05-29

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

CC BY 4.0

Ursprüngliche Autoren: Oz Amram, Darius A. Faroughy, Tjarko Gerdes, Anna Hallin, Gregor Kasieczka, Michael Krämer, Humberto Reyes-Gonzalez, David Shih

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das große Ganze: Einen Roboter beibringen, Teilchenkollisionen zu „träumen"

Stellen Sie sich vor, Sie versuchen, einem Roboter das Malen beizubringen. In der Welt der Künstlichen Intelligenz (KI) gibt es eine berühmte Regel, die als „Scaling Law" (Skalierungsgesetz) bezeichnet wird. Sie besagt im Wesentlichen: Wenn Sie dem Roboter ein größeres Gehirn (mehr Parameter), mehr Farbmuster (mehr Daten) oder mehr Zeit zum Malen (mehr Rechenleistung) geben, wird er auf eine vorhersehbare, mathematische Weise besser im Malen.

Dieses Papier stellt eine einfache Frage: Gilt diese Regel auch für die Teilchenphysik?

Spezifisch wollten die Forscher herausfinden, ob sie einen Roboter trainieren können, realistische Teilchenjets zu „erfinden" (zu generieren). In der Teilchenphysik sprühen, wenn Protonen aufeinanderprallen, Wolken aus Teilchen aus, die als Jets bezeichnet werden. Diese sind chaotisch, unordentlich und folgen den Gesetzen der Quantenmechanik. Das Team trainierte ein Modell namens OmniJet-α, um die Muster dieser Jets zu erlernen und dann neue, künstliche zu generieren, die genau wie die echten aussehen.

Die drei Zutaten für den Erfolg

Um ihre Theorie zu testen, veränderten die Forscher drei Hauptzutaten, genau wie ein Koch ein Rezept anpasst:

Modellgröße (Das Gehirn): Sie machten das „Gehirn" der KI immer größer, von einem winzigen „Pico"-Gehirn bis zu einem massiven „XXL"-Gehirn.
Datensatzgröße (Das Lehrbuch): Sie fütterten die KI mit immer mehr Beispielen echter Jets, von einigen Millionen bis zu Hunderten von Millionen.
Rechenleistung (Die Zeit/Anstrengung): Sie gaben der KI unterschiedliche Mengen an Rechenleistung, um die Daten zu studieren.

Was sie fanden: Der „einfache" Teil vs. der „schwere" Teil

1. Das Gehirn wird größer (Modellgröße) → Erfolg!

Als sie das Gehirn der KI größer machten, wurde sie bei ihrer Aufgabe deutlich besser.

Die Analogie: Stellen Sie sich einen Schüler vor, der eine Prüfung schreibt. Wenn Sie ihm ein größeres Gehirn (mehr Wissen) geben, steigt seine Punktzahl in einer glatten, vorhersehbaren Kurve.
Das Ergebnis: Das Papier fand hier eine klare mathematische Regel. Größere Modelle = bessere Vorhersagen.
Der Bonus: Sie überprüften, ob die KI nur die Prüfung auswendig lernte oder tatsächlich die Physik verstand. Sie maßen, wie gut die „künstlichen" Jets mit echten physikalischen Regeln übereinstimmten (unter Verwendung einer Methode namens Sliced Wasserstein Distance). Sie fanden heraus, dass, wenn die Prüfungsergebnisse stiegen, auch die physikalische Qualität stieg. Die Mathematik und die Physik waren perfekt synchronisiert.

2. Das Lehrbuch wird größer (Datensatzgröße) → Kaum eine Veränderung

Als sie der KI mehr Daten gaben, war die Verbesserung überraschend gering.

Die Analogie: Stellen Sie sich einen Schüler vor, der bereits die gesamte Enzyklopädie gelesen hat. Wenn Sie ihm eine weitere Enzyklopädie geben, lernt er nicht viel mehr, weil er die Grundlagen bereits gemeistert hat.
Das Ergebnis: Die KI schien sehr schnell an eine „Decke" zu stoßen. Selbst mit einer kleinen Datenmenge lernte sie fast alles über die allgemeine Form der Jets, was möglich war. Mehr Daten hinzuzufügen half nicht viel, weil die KI bereits die „einfachen" Dinge gelernt hatte.

3. Mehr Zeit/Anstrengung (Rechenleistung) → Flache Linien

Als sie der KI mehr Rechenleistung zum Trainieren gaben, verbesserten sich die Ergebnisse auch nicht nennenswert.

Die Analogie: Stellen Sie sich einen Schüler vor, der eine Prüfung in 10 Minuten beendet und eine Eins bekommt. Wenn Sie ihm 10 Stunden geben, dieselbe Prüfung zu schreiben, wird er keine Plus-Eins bekommen; er wird sich nur langweilen.
Das Ergebnis: Die KI lernte so schnell, dass selbst kleine Modelle ihr maximales Potenzial sehr schnell erreichten. Ihnen mehr Zeit zum Studieren zu geben, machte sie nicht schlauer.

Das Geheimrezept: Das „lernbare Fenster"

Warum hörte die KI so schnell auf zu lernen? Die Autoren führten ein cleveres Konzept ein, das „lernbare Fenster" (Learnable Window) genannt wird.

Das Konzept: Stellen Sie sich die gesamten Informationen in den Daten als einen großen Raum vor. Ein Teil des Raums ist mit klaren, lernbaren Mustern gefüllt (das „Fenster"). Der Rest des Raums ist mit purem Chaos und Zufall gefüllt (Rauschen).
Die Entdeckung: Bei Sprachmodellen (wie denen, die diesen Text schreiben) ist das „Fenster" riesig. Es gibt so viel Struktur in der Sprache, dass ein größeres Gehirn lange Zeit neue Muster finden kann.
Die Wendung: Bei Teilchenjets ist das „Fenster" winzig. Da die Teilchenphysik durch die Quantenmechanik bestimmt wird, ist sie inhärent stochastisch (zufällig). Die KI lernte schnell alle vorhersehbaren Muster, und der Rest der Daten war nur zufälliges Rauschen, das keine Menge an Intelligenz vorhersagen konnte.
Die Metapher: Es ist wie der Versuch, den genauen Pfad eines einzelnen Regentropfens in einem Sturm vorherzusagen. Man kann das allgemeine Muster des Sturms lernen (den Wind, die Wolken), aber der spezifische Pfad eines Tropfens ist zufällig. Die KI lernte den Sturm schnell, aber sie konnte die Zufälligkeit des Tropfens nicht lernen, egal wie groß ihr Gehirn wurde.

Das Fazit

Dieses Papier zeigt zum ersten Mal, dass neuronale Skalierungsgesetze für die Teilchenphysik existieren, aber sie verhalten sich anders als bei der Sprache.

Gute Nachricht: Größere Modelle funktionieren, und sie werden besser in der Physik.
Der Haken: Die KI stößt sehr schnell an eine Wand, weil die Daten natürlich zufällig sind. Man kann nicht einfach unendliches Geld und unendliche Daten auf das Problem werfen, um unendliche Verbesserungen zu erzielen; die „Zufälligkeit" des Universums setzt eine harte Grenze dafür, wie gut die KI vorhersagen kann.

Kurz gesagt: Die KI ist ein brillanter Schüler, aber das Lernfach (Quantenphysik) ist so chaotisch, dass selbst der klügste Schüler nur so viel lernen kann, bevor er zu raten beginnt.

Technische Zusammenfassung: Neuronale Skalierungsgesetze für die Jet-Generierung

Problemstellung
Neuronale Skalierungsgesetze, die die Potenzgesetz-Beziehung zwischen Modellleistung und Datensatzgröße, Rechenleistung sowie Modellparametern beschreiben, sind zu einem zentralen Element der modernen künstlichen Intelligenz geworden, insbesondere bei Large Language Models (LLMs). Ihre Anwendbarkeit auf die Hochenergiephysik (HEP) bleibt jedoch eine offene Frage. Kollidierdaten unterscheiden sich qualitativ von natürlichen Sprach- und Bilddaten: Sie sind aufgrund der Natur der Quantenfeldtheorie (QCD-Strahlung) hochgradig stochastisch, gleichzeitig aber durch physikalische Dynamiken eingeschränkt. Zudem wurden Skalierungsgesetze zwar bei überwachten Jet-Klassifizierungsaufgaben beobachtet, ihr Verhalten im generativen Modellieren – speziell für Partikeljets – ist jedoch weniger gut verstanden. Diese Arbeit untersucht, ob empirische Skalierungsgesetze für die Aufgabe der Generierung von Partikeljets mittels Foundation-Modellen gelten und ob Verbesserungen des Trainingsziels (Next-Token-Vorhersage) zu Verbesserungen physikalisch bedeutsamer Observablen führen.

Methodik
Die Studie nutzt OmniJet-α, einen autoregressiven GPT-artigen Transformer, der über Next-Token-Vorhersage (NTP) auf tokenisierte Jet-Konstituenten trainiert wurde. Das Modell wandelt Jet-Konstituenten (kinematische Merkmale wie transversaler Impuls $p_T$ und relative Winkel) mittels eines Vektor-quantisierten Variational Autoencoders (VQ-VAE) mit einer Codebuchgröße von 32.768 in ganzzahlige Tokens um.

Die Forschung basiert auf dem Aspen Open Jets (AOJ)-Datensatz, der aus CMS Open Data abgeleitet wurde und etwa 180 Millionen rekonstruierte Jets aus Proton-Proton-Kollisionen enthält. Dies stellt die erste Untersuchung neuronaler Skalierungsgesetze an experimentell aufgezeichneten Kollidierdaten dar, anstatt an Monte-Carlo-Simulationen.

Die Studie ist in drei Phasen unterteilt, um die Skalierung bezüglich folgender Faktoren zu analysieren:

Modellgröße ( $N$ ): Variation der Parameter von 25.000 bis 85 Millionen Nicht-Einbettungs-Parametern bei fester Datensatzgröße und festem Rechenbudget.
Datensatzgröße ( $D$ ): Variation der Anzahl eindeutiger Trainings-Tokens von $6,4 \times 10^6$ bis $8,1 \times 10^9$ bei fester Modellarchitektur.
Rechenleistung ( $C$ ): Eine IsoFLOP-Analyse, die Modellgröße und Trainings-Schritte bei festen Rechenbudgets variiert, um eine rechenoptimierte Skalierung zu identifizieren.

Zwei primäre Metriken werden bewertet:

NTP-Validierungsverlust: Der Standard-Cross-Entropy-Verlust für die Next-Token-Vorhersage-Aufgabe.
Sliced Wasserstein Distance (SWD): Eine statistische Metrik, die auf fünf hochrangigen Jet-Observablen ( $p_T$ , Masse $m$ , $\tau_{21}$ , $\tau_{32}$ und Anzahl der Konstituenten $n$ ) berechnet wird, die dem Modell während des Trainings nicht direkt zur Verfügung standen. Dies misst die Qualität der generierten Jets im physikalischen Raum.

Die Autoren führen das Konzept eines „lernbaren Fensters" ( $W$ ) ein, definiert als die Lücke zwischen dem Verlust eines uniformen Prädiktors ( $\log V$ ) und dem irreduziblen Entropie-Boden des Datensatzes ( $H(p)$ , geschätzt durch den asymptotischen Verlust $L_\infty$ ). Diese Metrik quantifiziert den Anteil des gesamten Verlustbereichs, der lernbar ist, im Vergleich zur intrinsischen Stochastizität.

Hauptergebnisse

Skalierung der Modellgröße: Die Studie bestätigt ein klares Potenzgesetz-Verhalten für den NTP-Validierungsverlust als Funktion der Modellgröße ( $L(N) \propto N^{-\beta_N} + L_\infty$ ). Der Skalierungsexponent $\beta_N$ beträgt ungefähr 0,43. Entscheidend ist, dass die SWD-Metrik eine monotone Korrelation mit dem NTP-Verlust aufweist, was darauf hindeutet, dass Verbesserungen des Trainingsziels direkt zu einer besseren Modellierung physikalischer Observablen führen. Die SWD-Werte nähern sich dem intrinsischen statistischen Boden an, der mit Vergleichen realer Daten endlicher Stichprobengröße verbunden ist.
Skalierung nach Datensatz und Rechenleistung: Die Skalierung nach Datensatzgröße und Rechenleistung ergibt deutlich schwächere Signale. Obwohl die Daten mit Potenzgesetz-Interpretationen vereinbar sind, ist der dynamische Bereich gering und die statistischen Unsicherheiten groß. Die Modelle scheinen sich rasch zu sättigen; selbst die kleinsten Modelle erfassen eine enorme Mehrheit der lernbaren Struktur.
Das lernbare Fenster: Ein auffälliges Ergebnis ist die geringe Größe des lernbaren Fensters für die Jet-Generierung im Vergleich zum Sprachmodellieren. Für OmniJet-α beträgt das lernbare Fenster $W$ ungefähr 3,2 Nats, verglichen mit ~8,7 Nats in vergleichbaren Studien zu Sprachmodellen. Folglich beträgt die effektive Perplexität ( $e^{L_\infty}$ ) 1330, was signifikant höher ist als die ~5,4, die bei Sprachmodellen beobachtet werden. Dies legt nahe, dass die dominanten Strukturen in der Jet-Verteilung mit relativ bescheidenen Ressourcen gelernt werden und der verbleibende Verlust durch intrinsische Stochastizität dominiert wird, nicht durch reduzierbaren Fehler.
IsoFLOP-Kurven: Die IsoFLOP-Kurven (Verlust gegen Modellgröße bei fester Rechenleistung) sind ungewöhnlich flach und weisen den bei Sprachmodellen zu sehenden ausgeprägten „U-förmigen" Verlauf mit einer klaren linken Flanke nicht auf. Dies macht die Extraktion einer rechenoptimalen Modellgröße höchst unsicher, obwohl eine parabolische Anpassung einen optimalen Skalierungsexponenten $a \approx 0,92$ für Modellgröße versus Rechenleistung nahelegt.

Bedeutung und Behauptungen
Die Arbeit beansprucht, die erste zu sein, die systematisch neuronale Skalierungsgesetze für Jet-generierende Modelle auf echten Kollidierdaten untersucht. Ihre Hauptbeiträge sind:

Validierung von Skalierungsgesetzen: Sie zeigt, dass logarithmische Skalierungsgesetze für die Modellgröße bei der Jet-Generierung existieren und dass der NTP-Verlust ein zuverlässiger Proxy für die physikalische Leistung (SWD) ist.
Schnelle Sättigung: Sie identifiziert, dass die autoregressive Jet-Generierung viel schneller sättigt als das Sprachmodellieren, wahrscheinlich aufgrund der stochastischen Natur der QCD-Strahlung und der Dominanz „strukturloser" QCD-Jets im Datensatz.
Konzept des lernbaren Fensters: Durch die Einführung des lernbaren Fensters bieten die Autoren einen Rahmen, um zu erklären, warum Skalierungsgewinne in diesem Bereich schwach sind: Der „lernbare" Anteil der Datenverteilung ist klein im Verhältnis zur gesamten Entropie.
Domänenspezifität: Die Ergebnisse deuten darauf hin, dass Skalierungsverhalten in der HEP empfindlich auf die Aufgabenstruktur reagieren. Während überwachtes Jet-Klassifizieren über große Bereiche hinweg eine fortgesetzte Skalierung zeigt, nähert sich das generative Modellieren generischer QCD-Jets früh einer Sättigung. Dies impliziert, dass Pre-Training-Strategien, die im Sprachbereich erfolgreich sind, domänenspezifische Anpassungen für die Teilchenphysik erfordern, insbesondere hinsichtlich der Codebuchauflösung und der Reihenfolge der Konstituenten.

Die Autoren schließen, dass zwar Skalierungsgesetze vorhanden sind, die in dieser Studie beobachteten abnehmenden Grenzerträge und die schnelle Sättigung jedoch die einzigartigen Herausforderungen des unüberwachten Pre-Trainings auf Teilchenphysik-Daten unterstreichen, wobei die zugrundeliegende Physik ein hohes Maß an irreduzibler Stochastizität auferlegt.