Predicting kernel regression learning curves from only raw data statistics

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, das Wetter vorherzusagen. Normalerweise brauchst du riesige Datenmengen: Temperatur, Luftdruck, Windgeschwindigkeit, Feuchtigkeit an tausenden Orten. Aber was, wenn du sagen könntest: „Ich brauche gar nicht so viel Detailwissen. Wenn ich nur weiß, wie die Luft im Durchschnitt strömt und wie sich die Wolken grob bewegen, kann ich das Wetter ziemlich genau vorhersagen"?

Genau das ist die Idee hinter diesem Forschungsartikel, der auf der großen KI-Konferenz ICLR 2026 vorgestellt wurde. Die Forscher haben einen Weg gefunden, um vorherzusagen, wie gut eine künstliche Intelligenz lernt, ohne sie tatsächlich trainieren zu müssen.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der riesige Datensatz

Stell dir vor, du hast einen Haufen Bilder (wie Katzen, Autos oder Gesichter). Eine KI soll lernen, diese zu erkennen. Normalerweise ist das wie das Versuch, einen riesigen, chaotischen Ozean zu verstehen. Man weiß nicht genau, welche Welle (Datenpunkt) als nächstes kommt. Um zu wissen, wie schnell die KI lernt (wie viele Bilder sie braucht, um gut zu werden), müsste man normalerweise den gesamten Ozean durchmessen – das ist rechnerisch extrem teuer und langsam.

2. Die Lösung: Der „Hermite-Eigenstruktur-Ansatz" (HEA)

Die Forscher sagen: „Halt! Wir müssen nicht den ganzen Ozean vermessen."

Statt jedes einzelne Bild zu analysieren, schauen sie sich nur zwei Dinge an:

Die Grundstruktur der Daten: Wie verteilen sich die Bilder im Durchschnitt? (Das nennen sie die „Kovarianz"). Stell dir das vor wie die durchschnittliche Form der Wellen im Ozean.
Die Aufgabe: Was genau soll die KI lernen? Ist es einfach (z. B. „Ist das ein Tier?") oder komplex (z. B. „Ist das ein rotes Auto mit blauen Rädern")?

Mit diesen zwei Informationen bauen sie eine Art mathematische Landkarte. Diese Landkarte sagt ihnen vorher, wie sich die KI verhalten wird.

3. Die Magie: Die „Hermite-Polynome" als Bausteine

Das ist der coolste Teil. Die Forscher haben herausgefunden, dass sich fast jede komplexe Aufgabe (wie das Erkennen von Katzen) in einfache mathematische Bausteine zerlegen lässt. Sie nennen diese Bausteine Hermite-Polynome.

Die Analogie: Stell dir vor, du willst ein riesiges Gemälde (die Aufgabe) malen. Normalerweise würdest du jeden Pinselstrich einzeln planen. Die Forscher sagen aber: „Nein, jedes Gemälde besteht eigentlich nur aus einer Mischung aus einfachen Grundmustern: Horizontale Linien, vertikale Linien, Kreise, Wellen."
Die KI lernt diese Grundmuster in einer bestimmten Reihenfolge. Zuerst die einfachen (wie „gibt es überhaupt ein Tier?"), dann die etwas komplexeren (wie „hat es Ohren?"), und zuletzt die ganz feinen Details.

Die Forscher haben eine Formel entwickelt, die genau vorhersagt, in welcher Reihenfolge und wie schnell die KI diese Bausteine lernt.

4. Warum funktioniert das bei echten Bildern?

Man könnte denken: „Echte Fotos sind doch chaotisch! Wie kann das mit einer einfachen Formel funktionieren?"

Die Forscher sagen: „Eigentlich sind Bilder gar nicht so chaotisch, wie sie aussehen." Wenn man sie genau genug betrachtet, verhalten sie sich mathematisch fast so, als wären sie aus einem glatten, perfekten Zufallsprozess entstanden (wie eine Gauß-Verteilung).

Die Analogie: Stell dir vor, du wirfst viele Würfel. Ein einzelner Wurf ist zufällig. Aber wenn du 10.000 Würfel wirfst, ergibt die Summe eine sehr vorhersehbare Glockenkurve. Echte Bilder sind wie diese 10.000 Würfel: Sie sehen wild aus, folgen aber im Großen und Ganzen einer einfachen Regel.

5. Das Ergebnis: Vorhersage ohne Training

Das Wichtigste an der Arbeit ist: Man muss die KI nicht trainieren, um zu wissen, wie gut sie wird.

Früher: Man musste die KI mit 1.000 Bildern trainieren, dann mit 2.000, dann mit 5.000, um zu sehen, wann sie gut wird. Das kostet Zeit und Rechenleistung.
Jetzt: Man nimmt die Daten, misst die zwei einfachen Werte (Struktur und Aufgabe), steckt sie in die Formel, und Zack! – man hat eine Kurve, die genau zeigt: „Wenn du 1.000 Bilder hast, machst du diesen Fehler. Bei 10.000 Bildern machst du diesen Fehler."

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass man das Lernen einer KI auf echten Bildern so gut wie mit einer einfachen Landkarte vorhersagen kann, die nur die grobe Form der Daten und die Art der Aufgabe kennt, indem sie die komplexen Bilder in einfache mathematische Bausteine zerlegen.

Das ist ein riesiger Schritt, weil es zeigt, dass wir KI-Systeme theoretisch verstehen und planen können, ohne sie jedes Mal blind durchprobieren zu müssen. Es ist, als hätten wir endlich eine Wettervorhersage für das Lernen von Computern entwickelt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Predicting Kernel Regression Learning Curves from Only Raw Data Statistics" (veröffentlicht als Konferenzbeitrag bei ICLR 2026) auf Deutsch.

1. Problemstellung und Motivation

Das zentrale Ziel des Papers ist die Entwicklung einer theoretischen Grundlage, die das Lernverhalten von Machine-Learning-Modellen auf realen Datensätzen vorhersagen und erklären kann. Bisherige Theorien zur Generalisierung und zum Training von neuronalen Netzen (insbesondere im Kontext des Neural Tangent Kernel, NTK) stützen sich oft stark auf vereinfachte Datenmodelle (z. B. isotrope Gaußsche Verteilungen oder sphärische Symmetrie).

Die Herausforderung besteht darin, eine analytische Theorie zu entwickeln, die die komplexe Struktur realer Daten (wie Bilder von CIFAR-5m, SVHN oder ImageNet) berücksichtigt, ohne dabei auf numerische Methoden wie das Diagonalisieren riesiger Kernel-Matrizen angewiesen zu sein. Die Autoren fragen: Kann man die Lernkurven (Testrisiko in Abhängigkeit von der Stichprobengröße) allein aus wenigen, einfachen Statistiken der Daten und der Zielfunktion vorhersagen?

2. Methodik: Der Hermite-Eigenstruktur-Ansatz (HEA)

Die Autoren schlagen einen neuen theoretischen Rahmen vor, der als Hermite Eigenstructure Ansatz (HEA) bezeichnet wird. Dieser Ansatz ermöglicht es, die Eigenstruktur (Eigenwerte und Eigenfunktionen) eines Rotations-invarianten Kernels bezüglich einer anisotropen Datenverteilung analytisch zu approximieren.

Kernidee:
Anstatt die exakte Kernel-Matrix zu berechnen, wird die Eigenstruktur des Kernels durch Hermite-Polynome der Daten approximiert. Die Annahme ist, dass die Eigenfunktionen des Kernels bezüglich einer realen Datenverteilung $\mu$ stark den Hermite-Polynomen ähneln, die bezüglich einer Gaußschen Verteilung mit derselben Kovarianzmatrix $\Sigma$ definiert sind.

Die zwei notwendigen Eingangsgrößen:
Um die Lernkurve vorherzusagen, benötigt der HEA nur zwei Messgrößen aus den Rohdaten:

Die empirische Kovarianzmatrix der Daten: $\Sigma := \mathbb{E}[xx^\top]$ .
Eine polynomiale Zerlegung (Hermite-Zerlegung) der Zielfunktion $f^*$ .

Theoretische Herleitung:

Gaußsche Näherung: Die Autoren zeigen, dass für Gaußsche Daten und breite Kernel (oder schnell abklingende Koeffizienten) die Eigenfunktionen exakt den Hermite-Polynomen entsprechen.
Anisotropie: Für Daten mit Kovarianz $\Sigma = U \Gamma U^\top$ werden die Eigenfunktionen als Produkte von eindimensionalen Hermite-Polynomen entlang der Hauptachsen (Eigenvektoren von $\Sigma$ ) konstruiert.
Eigenwerte: Die Eigenwerte $\lambda_\alpha$ für einen Multi-Index $\alpha$ werden als Monome der Eigenwerte von $\Sigma$ ( $\gamma_i$ ) skaliert mit den Level-Koeffizienten $c_{|\alpha|}$ des Kernels berechnet:
$\lambda_\alpha = c_{|\alpha|} \cdot \prod_{i=1}^d \gamma_i^{\alpha_i}$
wobei $c_\ell$ die Taylor-Koeffizienten des Kernels auf einer Kugel mit Radius $r = \sqrt{\text{Tr}(\Sigma)}$ sind.

Vorhersage der Lernkurven:
Sobald die Eigenstruktur (Eigenwerte und Eigenfunktionen) durch den HEA geschätzt ist, wird sie in bestehende Gleichungen für das Kernel-Ridge-Regression (KRR) Risiko (basierend auf Arbeiten von Bordelon et al., Simon et al.) eingesetzt. Dies ermöglicht die Berechnung von Testfehlern und Sample-Komplexität ohne numerische Diagonalisierung.

3. Wichtige Beiträge

Formulierung des HEA: Einführung einer geschlossenen Formel für das Eigen-System von Rotations-invarianten Kernels auf realen Datensätzen, die nur von der zweiten Statistik (Kovarianz) und der Kernel-Form abhängt.
Theoretische Beweise:
- Beweis, dass der HEA für Gaußsche Daten im Grenzfall eines sehr breiten Gaußschen Kernels exakt gilt (Theorem 1).
- Beweis für dot-product Kernels mit schnell abklingenden Level-Koeffizienten auf Gaußschen Daten (Theorem 2).
Empirische Validierung auf Real-Daten: Demonstration, dass der HEA auch auf komplexen Bilddatensätzen (CIFAR-5m, SVHN, ImageNet) hervorragend funktioniert, obwohl diese nicht perfekt gaußsch sind.
Vorhersage von Lernkurven: Erfolgreiche Vorhersage von Testfehlern und Sample-Komplexität für verschiedene Kernel (Gauß, Laplace, ReLU NTK) und verschiedene Aufgaben (Synthetische Polynome, binäre Klassifikation) basierend ausschließlich auf der Kovarianzmatrix und der Zielzerlegung.
Verbindung zu MLPs: Empirischer Nachweis, dass Multi-Layer Perceptrons (MLPs) im Feature-Learning-Regime Hermite-Polynome in derselben Reihenfolge lernen, die der HEA für KRR vorhersagt.

4. Ergebnisse

Genauigkeit der Eigenstruktur: In Abbildung 2 wird gezeigt, dass der HEA die Eigenwerte und Eigenfunktionen (bzw. deren Überlappung) für verschiedene Kernel-Datensatz-Kombinationen präzise vorhersagt. Die theoretischen Eigenwerte korrelieren stark mit den empirisch berechneten Werten.
Lernkurven-Vorhersage: Abbildung 3 zeigt, dass die mittels HEA vorhergesagten Lernkurven (Test-MSE vs. Anzahl der Trainingsproben) die empirischen Kurven auf CIFAR-5m, SVHN und ImageNet sehr genau abbilden. Dies gilt sowohl für synthetische Ziel-Funktionen als auch für reale binäre Klassifikationsaufgaben.
Sample-Komplexität: Der Ansatz kann nicht nur die Form der Kurve, sondern auch die konstanten Vorfaktoren der Sample-Komplexität (wie viele Datenpunkte benötigt werden, um einen bestimmten Fehler zu erreichen) korrekt vorhersagen.
MLP-Lernordnung: Abbildung 4 zeigt, dass die Zeit, die MLPs benötigen, um bestimmte Polynome zu lernen, invers proportional zur Quadratwurzel der HEA-Eigenwerte ist. Dies bestätigt, dass die durch den HEA vorhergesagte Hierarchie der Lernschwierigkeiten auch für tiefes Lernen gilt.

5. Bedingungen und Grenzen

Der HEA funktioniert unter folgenden Bedingungen gut:

Schnelles Abklingen der Level-Koeffizienten: Die Koeffizienten $c_\ell$ des Kernels müssen schnell genug abfallen, damit die Störungstheorie funktioniert.
Hohe effektive Dimension: Für nicht-analytische Kernel (wie Laplace oder ReLU) ist eine hohe effektive Dimension der Daten ( $d_{eff} = \text{Tr}(\Sigma)^2 / \text{Tr}(\Sigma^2)$ ) notwendig, damit die Daten auf einer Kugel konzentriert sind.
„Gaußsch genug": Die Datenverteilung muss in ihren Randverteilungen (Marginalen) annähernd gaußsch sein. Komplexe Bilddatensätze erfüllen dies überraschend gut, während einfachere Datensätze (wie MNIST oder tabellarische Daten) schlechtere Ergebnisse liefern, da sie weniger „Gaußsch" sind.

6. Bedeutung und Fazit

Dieses Paper stellt einen Proof of Concept für eine end-zu-end-Theorie des Lernens dar. Es zeigt, dass es möglich ist, die Leistung von nicht-trivialen Lernalgorithmen (KRR und MLPs) auf realen, hochdimensionalen Datensätzen vorherzusagen, ohne die gesamte Datenverteilung modellieren zu müssen.

Reduktion der Komplexität: Statt die gesamte Datenverteilung zu kennen, reicht die Kenntnis der Kovarianzmatrix und einer funktionalen Zerlegung der Zielfunktion aus.
Brücke zwischen Theorie und Praxis: Der Ansatz überbrückt die Lücke zwischen den vereinfachten analytischen Modellen der theoretischen ML-Forschung und der komplexen Realität von Bilddaten.
Einheitliches Verständnis: Die Entdeckung, dass sowohl KRR als auch feature-lernende MLPs eine Hierarchie von Hermite-Polynomen lernen, deutet auf ein fundamentales Prinzip hin, wie neuronale Netze strukturierte Daten verarbeiten.

Zusammenfassend bietet das Paper einen mächtigen analytischen Werkzeugkasten, um zu verstehen, warum und wie schnell Modelle auf bestimmten Daten lernen, basierend auf den fundamentalen geometrischen Eigenschaften dieser Daten.

Predicting kernel regression learning curves from only raw data statistics

1. Das Problem: Der riesige Datensatz

2. Die Lösung: Der „Hermite-Eigenstruktur-Ansatz" (HEA)

3. Die Magie: Die „Hermite-Polynome" als Bausteine

4. Warum funktioniert das bei echten Bildern?

5. Das Ergebnis: Vorhersage ohne Training

Zusammenfassung in einem Satz

1. Problemstellung und Motivation

2. Methodik: Der Hermite-Eigenstruktur-Ansatz (HEA)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedingungen und Grenzen

6. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers