Ursprüngliche Autoren: Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm

Veröffentlicht 2026-06-01

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das große Ganze: Warum größere Modelle besser lernen

Stellen Sie sich vor, Sie versuchen, eine neue Sprache zu lernen.

Kleine Modelle sind wie Schüler, die nur die offensichtlichsten, gängigsten Wörter lernen (wie „Hallo“, „Katze“, „laufen“). Sobald sie diese kennen, hören sie auf, sich zu verbessern, weil sie die komplexe Grammatik oder seltene Redewendungen nicht verstehen können.
Große Modelle sind wie Schüler, die nicht nur die gängigen Wörter kennen, sondern auch immer tiefer graben, um obskures Vokabular, komplexe Satzstrukturen und subtile Nuancen zu lernen.

Dieses Paper stellt die Frage: Warum lernen größere Modelle weiter, während kleinere aufhören?

Die Autoren haben entdeckt, dass größere Modelle eine besondere Fähigkeit besitzen, die sie „Spectral Reach“ (Spektrale Reichweite) nennen. Es ist wie das Besitzen einer längeren Leiter. Während kleine Modelle nur die oberen Sprossen erreichen können (die einfachen, offensichtlichen Muster), können große Modelle die Leiter bis ganz nach unten zu den untersten Sprossen (den winzigen, verborgenen, schwierigen Mustern) hinabsteigen, um sich ständig zu verbessern.

Das Kernkonzept: Der „Spectral Tail“ (Spektraler Schwanz)

Um dies zu verstehen, stellen Sie sich den Lernprozess als eine riesige Bibliothek von Büchern vor, wobei jedes Buch ein anderes Muster in den Daten repräsentiert.

Die Bestseller (Der Kopf/The Head): Dies sind die populären, leicht zu lernenden Muster. Sie sind laut, klar und deutlich hörbar. Jedes Modell, egal ob groß oder klein, lernt diese zuerst.
Die obskuren Archive (Der Schwanz/The Tail): Dies sind die leisen, schwachen und schwierigen Muster. Sie sind tief in der Bibliothek vergraben.

Das Problem: Während ein Modell trainiert, hat es die „Bestseller“ zuerst fertig gelesen. Soblich es damit fertig ist, muss es in die „Archive“ vordringen, um sich weiter zu verbessern.

Kleine Modelle stoßen an eine Wand. Ihnen geht die „Gehirnleistung“ aus, um die schwachen Bücher in den Archiven zu lesen. Sie bleiben stecken.
Große Modelle besitzen ein „Super-Ohr“. Sie können das leise Flüstern in den Archiven hören. Sie lesen weiter und lernen die subtilen Details, die andere übersehen. Diese Fähigkeit, tief in den „spektralen Schwanz“ vorzudringen, ist die Spectral Reach.

Das neue Werkzeug: Der „Spectral Position“-Meter

Die Autoren haben ein neues Werkzeug erfunden, das Spectral Position (oder $\chi_{pos}$ ) heißt. Betrachten Sie dies als einen GPS-Tracker für die Lernreise des Modells.

Hoher GPS-Wert (Nahe bei 1): Das Modell liest gerade die „Bestseller“. Es lernt die großen, einfachen Muster.
Niedriger GPS-Wert (Nahe bei 0): Das Modell ist tief in die „Archive“ vorgedrungen. Es lernt nun die winzigen, schwierigen Muster.

Was sie herausgefunden haben:

Zeitreise: Während des Trainings sinkt der GPS-Wert. Das Modell bewegt sich natürlich von einfachen Mustern zu schwierigen Mustern.
Der Größenunterschied: Größere Modelle senken ihren GPS-Wert viel tiefer als kleinere Modelle. Sie gehen tiefer in die Archive vor. Dies erklärt, warum sie am Ende geringere Fehler (bessere Leistung) aufweisen – sie haben schlichtweg mehr der verborgenen Details gelernt.

Die geheime Zutat: Feature Learning (Merkmalslernen)

Sie fragen sich vielleicht: „Warum können große Modelle das leise Flüstern hören?“

Die Autoren testeten dies, indem sie das „Gehirn“ eines Modells einfroren (verhinderten, dass es seine internen Merkmale ändert) und nur die letzte Schicht lernen ließen.

Eingefrorene Modelle: Diese Modelle hörten früh auf zu lernen. Sie konnten die tiefen Archive nicht erreichen.
Aktive Modelle: Diese Modelle veränderten ihre internen „Features“ (wie sie die Welt sehen) weiterhin.

Die Analogie: Stellen Sie sich vor, Sie versuchen, einem schwachen Radiosender zuzuhören.

Ein eingefrorenes Modell ist wie ein Radio mit einer kaputten Antenne. Egal wie sehr Sie die Lautstärke aufdrehen, Sie können den schwachen Sender nicht hören.
Ein lernendes Modell ist wie ein Radio, das während des Zuhörens eine bessere Antenne baut. Während es lernt, formt es seine interne Struktur um, um diese schwachen Signale zu verstärken. Dieses „Antennenbauen“ (Feature Learning) ermöglicht es dem Modell, seinen Fortschritt aufrechtzuerhalten, selbst wenn die Signale sehr schwach werden.

Die „LNP“-Zerlegung: Die Mathematik aufschlüsseln

Die Autoren haben eine Formel entwickelt, um dies zu messen, ohne unmögliche Berechnungen durchführen zu müssen. Sie haben den Lernprozess in drei Teile zerlegt, wie ein Rezept:

Loss Scale ( $\chi_{loss}$ ): Wie „laut“ ist der Fehler gerade? (Wenn das Modell falsch liegt, ist dieser Wert hoch).
Network Scale ( $\chi_{net}$ ): Wie empfindlich reagiert das Modell auf Veränderungen? (Große Modelle können hier stärkere „Antennen“ bauen).
Spectral Position ( $\chi_{pos}$ ): Der GPS-Wert. Wo in der Bibliothek liest das Modell gerade?

Die Magie: Sie fanden heraus, dass während das Modell tiefer in die „Archive“ vordringt (der Spectral Position sinkt), die „Network Scale“ (die Antennenstärke) in großen Modellen tatsächlich zunimmt. Diese zusätzliche Stärke kompensiert die Schwäche der Signale und ermöglicht es dem Modell, weiterzulernen. Kleine Modelle erhalten diesen Boost nicht und geben deshalb auf.

Zusammenfassung der Ergebnisse

Lernen ist eine Reise: Modelle beginnen mit einfachen Mustern und bewegen sich langsam zu harten, feingliedrigen Details.
Größe spielt eine Rolle: Größere Modelle können weiter in die „harten Details“ (den spektralen Schwanz) vordringen als kleinere Modelle.
Anpassungsfähigkeit ist der Schlüssel: Diese Fähigkeit besteht nicht nur darin, mehr Speicher zu haben; es geht darum, dass das Modell sich aktiv selbst umgestaltet (Feature Learning), um schwache Signale zu verstärken.
Die Metrik: Das neue „Spectral Position“-Werkzeug ermöglicht es Wissenschaftlern, diese Reise in Echtzeit zu beobachten, selbst bei massiven Modellen, ohne Supercomputer für unmögliche Berechnungen zu benötigen.

Kurz gesagt: Größere Modelle gewinnen, weil sie nicht aufhören zu lernen, wenn das Einfache erledigt ist; sie besitzen die „Reichweite“, um tiefer nach den verborgenen Schätzen zu graben, die kleinere Modelle nicht finden können.

Technisches Resümee: Spectral Reach: Verständnis der neuronalen Skalierung als Fortschritt in den spektralen Ausläufer

Problemstellung

Neuronale Skalierungsgesetze beschreiben vorhersagbare Potenzgesetz-Beziehungen zwischen Modellgröße, Datensatzgröße, Rechenleistung und Performance, was sie zu einem Eckpfeiler für die Entwicklung moderner Foundation-Modelle macht. Die Mechanismen, die diesen Skalierungsgesetzen zugrunde liegen, sind jedoch noch immer unzureichend verstanden. Bestehende theoretische Erklärungen stützen sich oft auf idealisierte Annahmen (z. B. Random-Feature-Modelle mit fixierten Repräsentationen) oder erfordern Kernel-Berechnungen, die bei den Skalen, in denen Skalierungsgesetze beobachtet werden, nicht durchführbar sind. Folglich mangelt es an skalierbaren Analysewerkzeugen, um die zugrunde liegende spektrale Dynamik des groß angelegten Trainings zu offenlegen, wodurch die Frage offen bleibt, wie Skalierungsgesetze in praktischen Deep-Learning-Szenarien entstehen.

Methodik

Um den Messengpass zu adressieren, führen die Autoren eine Loss-Network-Position (LNP)-Zerlegung ein. Dieses Framework faktorisiert die instantane (linearisierte) Verluständerung in drei interpretierbare Komponenten:

Netzwerk-Skala ( $\chi_{net}$ ): Die Frobenius-Norm des Jacobis der Netzwerkausgaben bezüglich der Parameter ( $\|\nabla_\theta f\|_F^2$ ), äquivalent zur Spur des empirischen Neural Tangent Kernels (eNTK). Sie erfasst die Sensitivität des Netzwerks gegenüber Parameteraktualisierungen.
Verlust-Skala ( $\chi_{loss}$ ): Die quadrierte euklidische Norm des Verlustgradienten bezüglich der Netzwerkausgaben ( $\|\nabla_f L\|_2^2$ ), welche die Magnitude der Vorhersagefehler widerspiegelt.
Spektrale Position ( $\chi_{pos}$ ): Eine skalenfreie Größe im Bereich $[0, 1]$ , die angibt, welche Eigenwerte des eNTK derzeit die Verlustreduktion vorantreiben. Sie ist definiert als der gewichtete Durchschnitt normalisierter Eigenwerte, wobei die Gewichte durch die Projektion des Verlustgradienten auf die eNTK-Eigenmodi bestimmt werden.

Kernelement der Innovation: Während die Berechnung von $\chi_{pos}$ traditionell eine teure vollständige Konstruktion des eNTK erfordert, ermöglicht die LNP-Zerlegung die indirekte Berechnung über das Verhältnis $\chi_{pos} = \delta L / (\chi_{net} \cdot \chi_{loss})$ , wobei $\delta L$ die linearisierte Verluständerung ist. Dies ermöglicht die Messung parallel zum Training mit minimalem Rechenaufwand (weniger als das 2-fache) unter Verwendung von Gradienten-Magnituden pro Sample, wodurch eine explizite Kernel-Konstruktion vermieden wird.

Die Autoren validieren dieses Framework an kontrollierten Random Feature Modellen (RFMs) mit Potenzgesetz-Daten-Spektren, bei denen theoretische Vorhersagen mit empirischen Messungen übereinstimmen. Anschließend wenden sie das Diagnosewerkzeug auf Skalierungsexperimente mit Llama 2 Sprachmodellen auf SimpleStories und CIFAR-5M sowie auf Vision Transformer auf CIFAR-5M an.

Zentrale Beiträge und Ergebnisse

1. Die spektrale Position nimmt während des Trainings ab

Die Autoren beobachten, dass die spektrale Position $\chi_{pos}$ im Verlauf des Trainings um Größenordnungen sinkt. Dies deutet auf eine systematische Verschiebung der Lernmechanik hin: Das Modell lernt anfangs aus dominanten, hochfrequenten Eigenwert-Modi (grobe Muster) und verlagert seinen Fokus progressiv auf den spektralen Ausläufer (feingliedrige Details), während die dominanten Modi konvergieren und keinen Beitrag mehr zum Verlustgradienten leisten.

2. Definition von „Spectral Reach“

Das Paper führt Spectral Reach als die Kapazität eines Modells ein, aus progressiv kleiner werdenden Eigenwert-Modi des eNTK-Spektrums zu lernen.

Beobachtung: Größere Modelle erreichen niedrigere Endwerte von $\chi_{pos}$ als kleinere Modelle.
Interpretation: Kleinere Modelle „flachen ab“, indem sie eine Kapazitätsgrenze erreichen, an der sie keine feineren spektralen Modi mehr erfassen können. Größere Modelle halten die Abwärtsbewegung aufrecht und greifen auf schwache spektrale Signale zu, die für kleinere Modelle unzugänglich sind. Dies legt nahe, dass größere Modelle einen geringeren Verlust erzielen, da sie feingliedrige Details kontinuierlich verfeinern können, die kleinere Modelle nicht auflösen können.

3. Die Rolle des Feature-Learnings

Durch Linear-Probing-Experimente (Vergleich von vortrainierten Backbones gegen zufällige, fixierte Backbones) identifizieren die Autoren Feature-Learning als einen entscheidenden Ermöglicher der Spectral Reach.

Mechanismus: In Modellen mit fixierten Repräsentationen (Random Backbones) bleibt $\chi_{net}$ konstant und die spektrale Position stagniert. Im Gegensatz dazu zeigen Modelle mit Feature-Learning einen adaptiven Anstieg von $\chi_{net}$ (Gradienten-Magnituden), während das Training fortschreitet.
Kompensation: Dieser Anstieg in $\chi_{net}$ wirkt als Gegengewicht zum sinkenden $\chi_{pos}$ . Während $\chi_{pos}$ fällt (was auf das Lernen aus schwächeren Signalen hindeutet), verstärkt das wachsende $\chi_{net}$ die Gradienten-Magnituden und hält den Lernfortschritt dort aufrecht, wo fixierte Repräsentationen stagnieren würden. Dies zeigt, dass gelernte Repräsentationen den eNTK-Spektrum umgestalten, um einen kontinuierlichen Abstieg in den spektralen Ausläufer zu unterstützen.

4. Validierung über Architekturen und Parameterisierungen hinweg

Die Ergebnisse generalisieren über Sprachmodelle (Llama 2) und Vision-Modelle (Vision Transformer) hinweg. Entscheidend ist, dass die Autoren die Experimente unter maximal-update parameterization (muP) replizieren, welche die Intensität des Feature-Learnings über verschiedene Breiten hinweg konstant hält. Die Beständigkeit der Spectral-Reach-Rangfolge unter muP bestätigt, dass das Phänomen durch die Modellkapazität getrieben wird und nicht durch eine breitenabhängige Intensität des Feature-Learnings.

Bedeutung und Ansprüche

Das Paper beansprucht, ein skalierbares Diagnosewerkzeug bereitzustellen, das die Lücke zwischen theoretischen spektralen Erklärungen von Skalierungsgesetzen und praktischem Deep Learning schließt. Durch den Nachweis, dass größere Modelle durch Feature-Learning einen geringeren Verlust erzielen, indem sie das Lernen an schwachen spektralen Signalen aufrechterhalten, bietet die Arbeit eine mechanistische Erklärung für neuronale Skalierung.

Die Autoren positionieren ihre Ergebnisse als eine Neuausrichtung der Optimierungsfrage: Anstatt lediglich zu fragen „Wie reduzieren wir den Verlust?“, verschiebt sich der Fokus auf „Wie verbessern wir die Spectral Reach?“. Diese Perspektive legt konkrete Interventionsmöglichkeiten nahe, wie etwa:

Beschleunigung des spektralen Abstiegs: Durch Optimizer-Design (z. B. gezielte Lernraten, Gradienten-Skalierung).
Umgestaltung des Spektrums: Durch architektonische Entscheidungen oder Initialisierungsschemata (z. B. muP, He, Xavier), um untergeordnete Modi zugänglicher zu machen.

Das Paper schließt bescheiden mit dem Hinweis, dass die LNP-Zerlegung zwar erste Ordnungseffekte und exakte instantane Eigenschaften erfasst, die nicht-linearen Korrekturterme jedoch noch ungeklärt bleiben. Zudem bleiben, obwohl die Ergebnisse die spektrale Position mit Skalierung und Performance verknüpfen, die kausalen Mechanismen, wie genau das Feature-Learning den eNTK-Spektrum umgestaltet, Gegenstand weiterer kontrollierter Interventionen. Die Arbeit dient als Fundament für zukünftige Modus-basierte Analysen der semantischen Struktur und der Paradigmenwechsel während des Trainings.

Spectral Reach: Understanding Neural Scaling as Progress into the Spectral Tail