Scaling Laws and Symmetry, Evidence from Neural… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Khang Ngo, Siamak Ravanbakhsh

Veröffentlicht 2026-05-06

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Khang Ngo, Siamak Ravanbakhsh

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, einem Roboter beizubringen, vorherzusagen, wie sich Atome in einem Molekül bewegen und interagieren. Das ist ein bisschen wie einem Kind beizubringen, zu verstehen, wie eine komplexe Lego-Struktur zusammenhält. Sie können dem Roboter zwei verschiedene Arten von Bedienungsanleitungen geben:

Das „Blinde" Handbuch: Sie zeigen dem Roboter einfach Millionen von Bildern von Lego-Strukturen und sagen: „Finden Sie die Regeln selbst heraus." Der Roboter muss alles von Grund auf lernen, einschließlich der Tatsache, dass sich die Physik nicht ändert, wenn Sie die gesamte Struktur drehen.
Das „Symmetrie"-Handbuch: Sie geben dem Roboter eine Anleitung, die ausdrücklich besagt: „Hey, denken Sie daran: Wenn Sie diese Struktur drehen, ist es immer noch dieselbe Struktur. Wenn Sie sie umdrehen, bleiben die Regeln gleich." Sie backen die Gesetze der Physik (Symmetrie) direkt in das Gehirn des Roboters ein.

Lange Zeit glaubten viele Forscher an den „Blinden" Ansatz. Sie dachten, wenn man dem Roboter nur genügend Daten und genügend Rechenleistung (ein „größeres Gehirn") gebe, würde er die Symmetrieregeln schließlich selbst herausfinden. Sie glaubten, dass das explizite Lehren der Regeln unnötig sei und dass ein einfaches, flexibles Modell schließlich aufholen würde.

Dieses Papier sagt: „Eigentlich nein. Das 'Symmetrie'-Handbuch ist viel besser, und die Lücke wird größer, je größer man wird."

Hier ist die Aufschlüsselung ihrer Erkenntnisse mit einfachen Analogien:

1. Das Rennen: Geschwindigkeit vs. Effizienz

Die Forscher ließen verschiedene Arten von Roboterhirnen (Architekturen) ein Rennen laufen, um zu sehen, wie schnell sie lernen konnten, atomare Kräfte vorherzusagen.

Die „Blinden" Roboter (Unbeschränkt): Diese sind flexibel, aber ineffizient. Sie müssen jedes Mal, wenn sie ein Molekül sehen, „von neuem lernen", dass ein gedrehtes Molekül dasselbe Molekül ist.
Die „Symmetrie"-Roboter (Äquivariant): Diese haben die Regeln für Rotation und Translation eingebaut. Sie verschwenden keine Energie damit, grundlegende Physik neu zu lernen.

Die Erkenntnis: Als die Roboter klein waren, war der Unterschied nicht riesig. Aber als die Forscher die Roboter massiv machten (Skalierung der Daten und Rechenleistung), blieben die „Symmetrie"-Roboter nicht nur vorne; sie zogen dramatisch davon. Die „Blinden" Roboter stießen an eine Wand, wo mehr Daten ihnen nicht mehr viel halfen, während die „Symmetrie"-Roboter immer schlauer wurden.

2. Der „Grad" der Symmetrie ist entscheidend

Nicht alle „Symmetrie"-Roboter sind gleich. Manche verstehen nur einfache Rotationen (wie eine flache Münze), während andere komplexe 3D-Rotationen verstehen (wie ein sich drehender Globus).

Symmetrie niedriger Ordnung: Versteht grundlegende Regeln.
Symmetrie hoher Ordnung: Versteht sehr komplexe, detaillierte Regeln darüber, wie Formen im 3D-Raum interagieren.

Die Erkenntnis: Je komplexer die in den Roboter eingebauten Symmetrieregeln sind, desto schneller lernt er. Ein Roboter mit „Symmetrie hoher Ordnung" lernte so viel schneller, dass die Lücke zu dem „Blinden" Roboter zu einem Canyon wurde. Es ist wie der Vergleich zwischen einem Schüler, der das Alphabet kennt, und einem Schüler, der bereits Grammatik und Wortschatz der Sprache beherrscht; je dicker das Buch wird, desto mehr lässt der zweite Schüler den ersten im Staub zurück.

3. Die „Bittere Lektion" vs. Realität

Es gibt eine berühmte Idee in der KI, die „Bittere Lektion", die besagt, dass wir aufhören sollten, menschliches Wissen (wie Symmetrie) hart in KI zu codieren, und stattdessen die KI einfach aus Rohdaten lernen lassen sollten, weil dies günstiger ist und besser skaliert.

Dieses Papier argumentiert: In der Welt der Atome und Moleküle ist die „Bittere Lektion" falsch. Wenn Sie versuchen, ein Modell die Symmetrie selbst entdecken zu lassen, ist es so, als würde man einen Schüler bitten, die Schwerkraft neu zu entdecken. Es ist möglich, aber es ist unglaublich ineffizient. Bis der Schüler herausgefunden hat, wie es geht, fliegt der Schüler, dem die Schwerkraft beigebracht wurde, bereits.

4. Das „Goldlöckchen"-Gleichgewicht

Das Papier untersuchte auch, wie man Geld (Rechenleistung) am effizientesten ausgibt.

Der alte Weg: Vielleicht sollten Sie ein größeres Gehirn kaufen (mehr Parameter) oder mehr Lehrbücher besorgen (mehr Daten).
Die neue Erkenntnis: Es stellt sich heraus, dass Sie beides gleichzeitig kaufen müssen. Wenn Sie Ihre Daten verdoppeln, sollten Sie auch Ihre Modellgröße verdoppeln. Diese „parallele Skalierung" funktioniert am besten für alle Arten von Robotern, aber die „Symmetrie"-Roboter nutzen diese kombinierte Kraft einfach viel effizienter.

5. Was ist mit „Betrug" durch Verlustfunktionen?

Einige Forscher versuchten, die „Blinden" Roboter zu täuschen, indem sie eine Strafpunktzahl hinzufügten, wenn sie einen Fehler bezüglich der Symmetrie machten (z. B.: „Wenn Sie sagen, ein gedrehtes Molekül sei anders, bekommen Sie eine schlechte Note").

Die Erkenntnis: Das funktionierte nicht gut. Es ist wie einem Schüler zu sagen: „Vergessen Sie die Regeln nicht", aber ihm die Regeln nicht wirklich beizubringen. Der Roboter musste sich immer noch abmühen, das Muster zu lernen. Es war viel besser, die Regel von Anfang an in das Gehirn des Roboters einzubauen.

Das Fazit

Wenn Sie eine superintelligente KI bauen wollen, um Moleküle zu verstehen, werfen Sie nicht einfach mehr Daten auf ein einfaches, flexibles Modell und hoffen, dass es die Gesetze der Physik herausfindet. Bauen Sie die Gesetze der Physik direkt in das Design des Modells ein.

Wenn Sie auf massive Größen skalieren, werden die Modelle, die die fundamentalen Symmetrien des Universums respektieren (Rotation, Translation), nicht nur ein wenig besser sein; sie werden exponentiell mächtiger sein als diejenigen, die versuchen, diese Regeln von Grund auf zu lernen. Der „Symmetrie"-Ansatz verändert die Natur der Lernkurve selbst, macht die Aufgabe einfacher und die Ergebnisse besser.

Problemstellung
Der Beitrag behandelt das Skalierungsverhalten von Neural Network Interatomic Potentials (NNIPs), also Deep-Learning-Modellen, die darauf ausgelegt sind, quantenmechanische Eigenschaften (insbesondere potentielle Energie und atomare Kräfte) atomarer Systeme vorherzusagen. Während neuere Literatur im Bereich natürlicher Sprache und visueller Wahrnehmung nahelegt, dass Skalierungsgesetze (Potenzgesetze zwischen Leistung und Daten/Parametern/Rechenleistung) weitgehend architekturunabhängig sind – was impliziert, dass Modelle notwendige induktive Verzerrungen wie Symmetrie beim Skalieren selbst erlernen können –, wird diese Sichtweise in geometrischen Domänen bestritten. Die Autoren untersuchen, ob eine explizite architektonische Äquivarianz (Durchsetzung von Rotations- und Permutationssymmetrien) einen deutlichen Vorteil bei den Skalierungsgesetzen für NNIPs bietet oder ob einfachere, nicht-äquivariante Modelle bei ausreichender Rechenleistung vergleichbare Leistungen erzielen können.

Methodik
Die Autoren führen eine umfassende empirische Studie am OpenMol-Datensatz neutraler Moleküle durch (ca. 34 Millionen Trainingsproben, ~9,2 × 10⁸ Tokens). Sie vergleichen vier verschiedene Architekturfamilien, die unterschiedliche Grade von Symmetriebedingungen repräsentieren:

Unbeschränktes MPNN: Ein herkömmliches Message Passing Neural Network, das geometrische Merkmale (relative Positionen) ohne Symmetriebedingungen verarbeitet.
Invariante Skalare (GemNet-OC): Verwendet invariante Merkmale (Abstände, Winkel, Torsionswinkel), approximiert jedoch äquivariante Funktionen über kantenbasierte Nachrichtenweitergabe; klassifiziert als 4-Körper-Architektur mit Tensorordnung $\ell=0$ .
Kartesische Vektoren (EGNN): Ein $E(n)$ -äquivariantes GNN, das Vektorkanäle (Tensorordnung $\ell=1$ ) verwendet.
Hochordentliche sphärische Tensoren (eSEN): Ein äquivariantes Netzwerk, das höherordentliche irreduzible Darstellungen der Rotationsgruppe ( $\ell \ge 2$ ) nutzt und Rahmenausrichtung zur Verdünnung von Tensorprodukten einsetzt.

Die Studie verwendet ein Trainingsregime mit einem einzigen Epoche, um mit der theoretischen Literatur zu Skalierungsgesetzen übereinzustimmen, und nutzt scheduler-freie AdamW-Optimierer, um Artefakte durch Lernratenpläne zu minimieren. Skalierungsgesetze werden anhand dreier Metriken angepasst:

Rechenleistung: Sowohl theoretische FLOPs ( $C$ ) als auch Wanduhrzeit für das Training (GPU-Stunden, $H$ ).
Daten: Anzahl der Trainings-Tokens ( $D$ ).
Parameter: Modellgröße ( $N$ ).

Die Autoren untersuchen zudem die Effekte der Regularisierung durch Symmetrieverlust (Bestrafung von Abweichungen von der Äquivarianz in nicht-äquivarianten Modellen), Multi-Epoch-Training mit Daten-Augmentierung und Gruppenmittelung zur Testzeit.

Hauptbeiträge

Architekturabhängige Skalierungsexponenten: Der Beitrag zeigt, dass Skalierungsexponenten nicht über alle Architekturen hinweg konstant sind. Mit zunehmendem „Grad" der Äquivarianz (von unbeschränkt über niedrigordentlich zu hochordentlich) steigen die Potenzgesetz-Exponenten für Daten ( $\beta$ ) und Parameter ( $\alpha$ ) signifikant an.
Überlegenes Skalierungsverhalten äquivarianter Modelle: Äquivariante Architekturen, insbesondere solche mit höherordentlichen Tensorrepräsentationen (eSEN), weisen steilere Skalierungskurven auf. Dies impliziert, dass sich die Leistungslücke zwischen äquivarianten und nicht-äquivarianten Modellen mit zunehmender Rechenleistung und Datenmenge vergrößert, was der Vorstellung widerspricht, Modelle könnten Symmetrie einfach später „erlernen".
Rechenleistungsoptimale Allokation: Die Studie stellt fest, dass für rechenleistungsoptimales Training die Modellgröße ( $N$ ) und die Datengröße ( $D$ ) über alle Architekturen hinweg parallel skalieren sollten ( $N \propto D$ ), was Befunde im Sprachmodellieren (Chinchilla-Skalierung) widerspiegelt. Der Proportionalitätsfaktor und die resultierende Verlustreduktion unterscheiden sich jedoch je nach dem Symmetrievorurteil der Architektur.
Ineffektivität des Symmetrieverlusts: Die Durchsetzung von Symmetrie durch einen Verlustterm (Regularisierung) in unbeschränkten Modellen bringt nicht dieselben Skalierungsvorteile wie die Einbettung von Äquivarianz in die Architektur. Zwar verbessert es die Dateneffizienz leicht, erreicht jedoch nicht die Skalierungsexponenten nativer äquivarianter Modelle.
Erkenntnisse zu Multi-Epoch und Augmentierung: In Szenarien mit geringen Daten und mehreren Epochen ist Daten-Augmentierung für unbeschränkte Modelle erforderlich, um Overfitting zu verhindern und Potenzgesetz-Skalierung wiederherzustellen. Selbst mit Augmentierung erreichen unbeschränkte Modelle jedoch nicht die Skalierungsexponenten äquivarianter Modelle.

Ergebnisse

Skalierungsgesetze: Der Validierungsverlust folgt einem Potenzgesetz $L \propto C^{-\gamma}$ $L \propto C^{- γ}$ . Der Exponent $\gamma$ $γ$ nimmt mit der architektonischen Komplexität zu:
- Unbeschränktes MPNN: $\gamma \approx 0,14$
- EGNN: $\gamma \approx 0,17$
- GemNet-OC: $\gamma \approx 0,25$
- eSEN (Hochordentlich): $\gamma \approx 0,40$
Daten- und Parameterskalierung:
- Die Skalierungsexponenten für Daten ( $\beta$ ) reichen von 0,31 (Unbeschränkt) bis 0,75 (eSEN).
- Die Skalierungsexponenten für Parameter ( $\alpha$ ) reichen von 0,28 (Unbeschränkt) bis 0,82 (eSEN).
Symmetrieverlust: Das Hinzufügen eines Symmetrieverlustterms zu einem unbeschränkten Modell erhöht den Datenexponenten ( $\beta$ ) leicht, verringert jedoch den Parameterexponenten ( $\alpha$ ), was im Vergleich zur unbeschränkten Basislinie zu keinem Nettozuwachs der Steigung der rechenleistungsoptimalen Frontier führt.
Tiefe: Für äquivariante Modelle nimmt die optimale Netzwerktiefe mit dem Grad der Rotationsdarstellung zu, während unbeschränkte Modelle bei höheren Tiefen unter Over-Smoothing leiden.

Bedeutung und Behauptungen
Der Beitrag argumentiert, dass im Gegensatz zur Hypothese der „bitteren Lektion" (die besagt, Modelle sollten induktive Verzerrungen aus Daten erlernen), eine explizite architektonische Symmetrie für das Skalieren in geometrischen Aufgaben entscheidend ist. Die Autoren behaupten, dass Symmetrie nicht lediglich eine Technik zur Datenreduktion ist, sondern die inhärente Schwierigkeit der Aufgabe und ihre Skalierungsgesetze grundlegend verändert.

Die primäre Bedeutung liegt in der Erkenntnis, dass höherordentliche äquivariante Repräsentationen zu besseren Skalierungsexponenten führen. Dies legt nahe, dass für großskalige NNIPs die Investition in komplexe, symmetriebewusste Architekturen (wie eSEN) effektiver ist als das Hochskalieren einfacherer, nicht-äquivarianter Modelle. Die Autoren schließen, dass fundamentale induktive Verzerrungen wie Symmetrie in der Architektur kodiert werden sollten, anstatt sie dem Modell zur Entdeckung zu überlassen, da sie die Skalierungstrajektorie selbst verändern.

Der Beitrag bleibt hinsichtlich seines Umfangs bescheiden und weist auf Einschränkungen hin, wie den Fokus auf Training mit einer einzigen Epoche, den verwendeten spezifischen Datensatz (neutrale Moleküle) und den Ausschluss von Denoising-Vortrainingsstrategien, die in anderen neueren Arbeiten verwendet werden. Er fordert zukünftige theoretische Arbeiten auf, zu erklären, warum Symmetrie Skalierungsexponenten verändert, und schlägt vor, diese Studien auf diversere Molekültypen und Multi-Epoch-Regime auszudehnen.

Scaling Laws and Symmetry, Evidence from Neural Force Fields