A universal compression theory for lottery ticket hypothesis and neural scaling laws

Diese Arbeit beweist, dass generische Funktionen von dd Objekten asymptotisch auf eine Größe von polylogd\operatorname{polylog} d komprimiert werden können, was konstruktiv zeigt, dass sowohl große neuronale Netze als auch große Datensätze stark reduziert werden können, ohne die Lern dynamik oder die Verlustlandschaft zu verändern, und somit die dynamische Lotterieticket-Hypothese bestätigt sowie neuronale Skalierungsgesetze fundamental verbessert.

Hong-Yi Wang, Di Luo, Tomaso Poggio, Isaac L. Chuang, Liu Ziyin

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein riesiges, komplexes Puzzle zu lösen. Normalerweise denken wir: „Je mehr Puzzleteile ich habe, desto besser wird das Bild." In der Welt der künstlichen Intelligenz (KI) gilt das Gleiche: Je mehr Daten und je größer das neuronale Netzwerk (das „Gehirn" der KI), desto besser funktioniert es. Aber das hat einen riesigen Haken: Es kostet eine Unmenge an Energie, Zeit und Geld.

Dieser neue Forschungsartikel von Wissenschaftlern der Princeton University, MIT und anderen Institutionen stellt diese Regel auf den Kopf. Sie haben eine Art „magischen Trick" entdeckt, der es erlaubt, riesige KI-Modelle und gigantische Datensätze extrem zu verkleinern – ohne dass die Leistung leidet.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der überfüllte Saal

Stellen Sie sich einen riesigen Ballsaal vor, in dem sich 100.000 Menschen (die Datenpunkte oder Neuronen) befinden. Alle tragen ein Schild mit einer Zahl darauf.

  • Die aktuelle KI-Logik: Um die Stimmung im Raum zu verstehen, müssen wir jeden einzelnen Menschen zählen und seine Zahl notieren. Das ist langsam und ineffizient.
  • Das Problem: Wenn der Saal noch voller wird, brauchen wir noch mehr Zeit. Die KI-Entwickler sagen bisher: „Wir brauchen einfach mehr Rechenleistung und mehr Daten."

2. Die Entdeckung: Der „Zaubertrick" der Symmetrie

Die Forscher haben bemerkt, dass in diesen Ballsälen eine besondere Regel herrscht: Die Reihenfolge ist egal.
Wenn Person A und Person B ihre Plätze tauschen, ändert sich die Gesamtstimmung des Raumes nicht. Das nennt man „Permutationssymmetrie".

Die Forscher haben nun bewiesen, dass man diese 100.000 Menschen nicht einzeln zählen muss. Man kann sie in kleine Gruppen einteilen und für jede Gruppe nur einen „Repräsentanten" mit einem Gewicht (einer Zahl) nehmen.

  • Die Analogie: Statt 100.000 einzelne Menschen zu zählen, sagen wir: „In der Ecke links stehen 500 Leute mit einem Durchschnittswert von 5. In der Mitte stehen 300 Leute mit einem Wert von 8."
  • Das Ergebnis: Man braucht nur noch ein paar Dutzend dieser Repräsentanten, um das exakte Ergebnis zu erhalten, das man vorher mit 100.000 Menschen bekommen hätte.

3. Die zwei großen Wunder

Diese Theorie führt zu zwei revolutionären Ideen:

A. Das „Lottery Ticket"-Phänomen (Der winzige Gewinner)

Bisher dachte man, man müsse ein riesiges Netzwerk trainieren und dann hoffen, dass darin ein kleines, perfektes „Lotterieticket" (ein kleiner Teil des Netzes) versteckt ist.

  • Die neue Erkenntnis: Man kann das ganze riesige Netzwerk sofort in ein winziges, aber extrem effizientes Netzwerk verwandeln.
  • Der Vergleich: Stellen Sie sich vor, Sie haben einen riesigen Orchesterchor mit 10.000 Sängern. Die alte Methode sagte: „Wir brauchen alle, damit es gut klingt." Die neue Methode sagt: „Nein, wir können die 10.000 Sänger durch nur 50 gut gewählte Solisten ersetzen, die mit der richtigen Lautstärke singen. Das Ergebnis ist genau dasselbe, aber viel schneller und billiger."
  • Der Clou: Das kleine Netzwerk lernt genau so schnell und genau wie das große. Es ist kein Kompromiss, es ist eine perfekte Verdichtung.

B. Der Datensatz-Verkleinerer (Die Essenz extrahieren)

Normalerweise trainiert man KIs mit Billionen von Texten (wie bei ChatGPT).

  • Die neue Erkenntnis: Man kann diese Billionen von Texten auf eine winzige, aber „gewichtete" Auswahl reduzieren.
  • Der Vergleich: Stellen Sie sich vor, Sie wollen die Geschichte der Menschheit lernen. Statt 10.000 Bücher zu lesen, lesen Sie nur 100 Seiten, die aber so clever ausgewählt und gewichtet sind, dass sie den gesamten Inhalt der 10.000 Bücher enthalten.
  • Die Folge: Die KI lernt viel schneller, braucht weniger Speicherplatz und erreicht trotzdem das gleiche Niveau.

4. Warum ist das so wichtig?

Aktuell wachsen KI-Modelle wie Unkraut. Um sie ein bisschen besser zu machen, müssen wir die Datenmenge oft verzehnfachen. Das ist nicht nachhaltig.

Diese Theorie zeigt uns einen Weg, wie wir die Gesetze des Wachstums brechen können. Anstatt linear (oder schlechter) zu skalieren, können wir exponentiell effizienter werden.

  • Vorher: Um die Leistung zu verdoppeln, brauchen wir 1000-mal mehr Daten.
  • Nachher (mit diesem Trick): Wir könnten die gleiche Leistung mit einem Bruchteil der Daten erreichen.

Zusammenfassung

Die Wissenschaftler haben bewiesen, dass die Natur der KI-Daten und -Modelle eine große Verschwendung ist. Wir haben bisher zu viele redundante (überflüssige) Informationen verarbeitet. Mit ihrer neuen Methode können wir diese Informationen wie einen hochkomprimierten ZIP-Ordner zusammenfassen.

Das Versprechen: In Zukunft könnten wir KI-Modelle bauen, die so leistungsfähig sind wie die heutigen Giganten, aber so klein sind, dass sie auf einem normalen Laptop oder sogar einem Smartphone laufen – und das Training dauert nur einen Bruchteil der Zeit. Es ist, als würde man aus einem riesigen Elefanten einen kleinen, aber genauso starken Mäuse-Elefanten zaubern.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →