Scaling Laws and Symmetry, Evidence from Neural Force Fields

Oorspronkelijke auteurs: Khang Ngo, Siamak Ravanbakhsh

Gepubliceerd 2026-05-06

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Khang Ngo, Siamak Ravanbakhsh

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je probeert een robot te leren hoe atomen in een molecuul zich zullen bewegen en met elkaar zullen interageren. Dit is een beetje als het leren aan een kind hoe een complexe Lego-constructie in elkaar zit. Je kunt de robot twee verschillende soorten instructiehandleidingen geven:

De "Blinde" Handleiding: Je laat de robot gewoon miljoenen foto's van Lego-constructies zien en zegt: "Bedenk de regels zelf." De robot moet alles vanaf nul leren, inclusief het feit dat als je de hele constructie roteert, de natuurkunde niet verandert.
De "Symmetrie"-Handleiding: Je geeft de robot een handleiding waarin expliciet staat: "Hé, vergeet niet, als je deze constructie draait, is het nog steeds dezelfde constructie. Als je hem omdraait, blijven de regels hetzelfde." Je bak de wetten van de natuurkunde (symmetrie) direct in het brein van de robot.

Lange tijd geloofden veel onderzoekers in de "Blinde" aanpak. Ze dachten dat als je de robot gewoon genoeg data en genoeg rekenkracht gaf (een "groter brein"), hij uiteindelijk de symmetrieregels zelf zou ontdekken. Ze geloofden dat het expliciet leren van de regels onnodig was en dat een eenvoudig, flexibel model er uiteindelijk wel zou inhalen.

Dit artikel zegt: "Eigenlijk niet. De 'Symmetrie'-handleiding is veel beter, en het gat wordt groter naarmate je groter wordt."

Hier is de uiteenzetting van hun bevindingen met behulp van eenvoudige analogieën:

1. De Race: Snelheid versus Efficiëntie

De onderzoekers hielden een race tussen verschillende soorten robotbreinen (architecturen) om te zien hoe snel ze konden leren om atomaire krachten te voorspellen.

De "Blinde" Robots (Onbeperkt): Deze zijn flexibel maar inefficiënt. Ze moeten elke keer weer "opnieuw leren" dat een geroteerd molecuul hetzelfde molecuul is, telkens als ze het zien.
De "Symmetrie"-Robots (Equivariant): Deze hebben de regels voor rotatie en translatie ingebouwd. Ze verspillen geen energie aan het opnieuw leren van basisnatuurkunde.

De Bevinding: Toen de robots klein waren, was het verschil niet groot. Maar toen de onderzoekers de robots massief maakten (schalen van data en rekenkracht), bleven de "Symmetrie"-robots niet alleen vooroplopen; ze trokken dramatisch weg. De "Blinde" robots botsten tegen een muur waar meer data toevoegen hen niet veel meer hielp, terwijl de "Symmetrie"-robots steeds slimmer en slimmer bleven worden.

2. De "Graad" van Symmetrie is Belangrijk

Niet alle "Symmetrie"-robots zijn gelijk. Sommigen begrijpen alleen eenvoudige rotaties (zoals een platte munt), terwijl anderen complexe 3D-rotaties begrijpen (zoals een draaiende wereldbol).

Symmetrie van lage orde: Begrijpt basisregels.
Symmetrie van hoge orde: Begrijpt zeer complexe, gedetailleerde regels over hoe vormen in de 3D-ruimte met elkaar interageren.

De Bevinding: Hoe complexer de symmetrieregels die in de robot zijn gebakken, hoe sneller hij leerde. Een robot met "Symmetrie van hoge orde" leerde zo veel sneller dat het gat tussen hem en de "Blinde" robot een kloof werd. Het is als het vergelijken van een student die het alfabet kent met een student die al de grammatica en woordenschat van de taal kent; naarmate het boek dikker wordt, laat de tweede student de eerste in het stof achter.

3. De "Bittere Les" versus Realiteit

Er is een bekend idee in AI genaamd de "Bittere Les", dat suggereert dat we moeten stoppen met het hard-coden van menselijke kennis (zoals symmetrie) in AI en AI gewoon uit ruwe data moeten laten leren, omdat dat goedkoper is en beter schaalt.

Dit artikel betoogt: In de wereld van atomen en moleculen is de "Bittere Les" verkeerd. Als je probeert een model symmetrie zelf te laten ontdekken, is het als een student vragen om zwaartekracht opnieuw uit te vinden. Het is mogelijk, maar het is ongelooflijk inefficiënt. Tegen de tijd dat de student het uitvindt, vliegt de student die zwaartekracht werd geleerd al.

4. Het "Goudlokje"-Evenwicht

Het artikel keek ook naar hoe men geld (rekenkracht) het meest efficiënt kan besteden.

De Oude Manier: Misschien moet je een groter brein kopen (meer parameters) of meer leerboeken krijgen (meer data).
De Nieuwe Bevinding: Het blijkt dat je beide tegelijk moet kopen. Als je je data verdubbelt, moet je ook je modelgrootte verdubbelen. Deze "tandemschaling" werkt het beste voor alle soorten robots, maar de "Symmetrie"-robots zijn gewoon veel efficiënter in het gebruik van die gecombineerde kracht.

5. Wat is er met "Vals Spelen" met Verliesfuncties?

Sommige onderzoekers probeerden de "Blinde" robots te bedriegen door een strafscore toe te voegen als ze een fout maakten over symmetrie (bijvoorbeeld: "Als je zegt dat een geroteerd molecuul anders is, krijg je een slechte cijfer").

De Bevinding: Dit werkte niet goed. Het is als een student vertellen: "Vergeet de regels niet", maar ze de regels niet echt te leren. De robot moest nog steeds worstelen om het patroon te leren. Het was veel beter om de regel vanaf het begin in het brein van de robot te bouwen.

De Conclusie

Als je een superintelligente AI wilt bouwen om moleculen te begrijpen, gooi dan niet gewoon meer data op een eenvoudig, flexibel model en hoop dat het de wetten van de natuurkunde uitvindt. Bouw de wetten van de natuurkunde direct in het ontwerp van het model.

Naarmate je opschaalt naar enorme maten, zullen de modellen die de fundamentele symmetrieën van het universum respecteren (rotatie, translatie) niet alleen een beetje beter zijn; ze zullen exponentieel krachtiger zijn dan diegene die proberen deze regels vanaf nul te leren. De "Symmetrie"-aanpak verandert de aard van de leercurve zelf, waardoor de taak makkelijker wordt en de resultaten beter.

Probleemstelling
Het artikel behandelt het schaalgedrag van Neural Network Interatomic Potentials (NNIPs), die deep learning-modellen zijn ontworpen om kwantummechanische eigenschappen (specifiek potentiële energie en atomaire krachten) van atomaire systemen te voorspellen. Hoewel recente literatuur op het gebied van natuurlijke taal en visie suggereert dat schaalwetten (krachtwetrelaties tussen prestaties en data/parameters/rekenkracht) grotendeels architectuuronafhankelijk zijn – wat impliceert dat modellen de benodigde inductieve bias, zoals symmetrie, zelf kunnen leren naarmate ze schalen – wordt dit standpunt betwist in geometrische domeinen. De auteurs onderzoeken of expliciete architecturale equivariantie (het afdwingen van rotatie- en permutatiesymmetrieën) een duidelijk voordeel biedt in de schaalwetten voor NNIPs, of dat eenvoudigere, niet-equivariante modellen vergelijkbare prestaties kunnen behalen bij voldoende rekenkracht.

Methodologie
De auteurs voeren een uitgebreide empirische studie uit op het OpenMol-dataset voor neutrale moleculen (ongeveer 34 miljoen trainingsstalen, ~9,2 × 10⁸ tokens). Ze vergelijken vier verschillende architectonische families die variërende graden van symmetriebeperkingen vertegenwoordigen:

Onbeperkte MPNN: Een standaard Message Passing Neural Network dat geometrische kenmerken (relatieve posities) verwerkt zonder symmetriebeperkingen.
Invariant scalaren (GemNet-OC): Gebruikt invariante kenmerken (afstanden, hoeken, dihedrale hoeken) maar benadert equivariante functies via randgebaseerde berichtoverdracht; geclassificeerd als een 4-lichaamsarchitectuur met tensororde $\ell=0$ .
Cartesiaanse vectoren (EGNN): Een $E(n)$ -equivariante GNN die vectorkanalen gebruikt (tensororde $\ell=1$ ).
Hoge-orde sferische tensoren (eSEN): Een equivariante netwerk dat hogere-orde irreducibele representaties van de rotatiegroep gebruikt ( $\ell \ge 2$ ), waarbij frame-alignatie wordt toegepast om tensorproducten te verspillen.

De studie maakt gebruik van een trainingsregime met één epoch om overeen te komen met de theoretische schaalwetliteratuur, waarbij scheduler-vrije AdamW-optimizers worden gebruikt om artefacten van leerplannen te mitigeren. Schaalwetten worden gefit tegen drie metrieken:

Rekenkracht: Zowel theoretische FLOPs ( $C$ ) als wandkloktijd voor training (GPU-uren, $H$ ).
Data: Aantal trainings tokens ( $D$ ).
Parameters: Modelgrootte ( $N$ ).

De auteurs onderzoeken ook de effecten van regularisatie voor symmetrieverlies (het straffen van afwijkingen van equivariantie in niet-equivariante modellen), training met meerdere epochs met data-augmentatie, en groepegemiddelde op het testmoment.

Belangrijkste bijdragen

Architectuurafhankelijke schaalexponenten: Het artikel toont aan dat schaalexponenten niet constant zijn over architecturen heen. Naarmate de "graad" van equivariantie toeneemt (van onbeperkt naar laag-orde naar hoog-orde), nemen de krachtwetexponenten voor data ( $\beta$ ) en parameters ( $\alpha$ ) significant toe.
Superieur schaalgedrag van equivariante modellen: Equivariante architecturen, met name die met hogere-orde tensorrepresentaties (eSEN), vertonen steilere schaalcurves. Dit impliceert dat de prestatiekloof tussen equivariante en niet-equivariante modellen groter wordt naarmate rekenkracht en data schalen, wat het idee weerlegt dat modellen symmetrie simpelweg later kunnen "leren".
Rekenoptimaal toewijzen: De studie vindt dat voor rekenoptimaal trainen, de modelgrootte ( $N$ ) en datasetgrootte ( $D$ ) in tandem moeten schalen ( $N \propto D$ ) over alle architecturen heen, wat de bevindingen in taalmodelleren (Chinchilla-schaling) weerspiegelt. De evenredigheidsconstante en de resulterende verliesreductie verschillen echter op basis van de symmetriebias van de architectuur.
Ondoeltreffendheid van symmetrieverlies: Het afdwingen van symmetrie via een verliesterm (regularisatie) in onbeperkte modellen levert niet dezelfde schaalvoordelen op als het inbouwen van equivariantie in de architectuur. Hoewel dit de data-efficiëntie enigszins verbetert, slaagt het er niet in de schaalexponenten van native equivariante modellen te evenaren.
Inzichten over meerdere epochs en augmentatie: In settings met weinig data en meerdere epochs is data-augmentatie vereist voor onbeperkte modellen om overfitting te voorkomen en krachtwetschaling te herstellen. Zelfs met augmentatie halen onbeperkte modellen echter de schaalexponenten van equivariante modellen niet.

Resultaten

Schaalwetten: Het validatieverlies volgt een krachtwet $L \propto C^{-\gamma}$ $L \propto C^{- γ}$ . De exponent $\gamma$ $γ$ neemt toe met architecturale complexiteit:
- Onbeperkte MPNN: $\gamma \approx 0,14$
- EGNN: $\gamma \approx 0,17$
- GemNet-OC: $\gamma \approx 0,25$
- eSEN (Hoog-orde): $\gamma \approx 0,40$
Data- en parameterschaling:
- Data-schaalexponenten ( $\beta$ ) variëren van 0,31 (Onbeperkt) tot 0,75 (eSEN).
- Parameterschaalexponenten ( $\alpha$ ) variëren van 0,28 (Onbeperkt) tot 0,82 (eSEN).
Symmetrieverlies: Het toevoegen van een symmetrieverliesterm aan een onbeperkt model verhoogt de data-exponent ( $\beta$ ) licht maar verlaagt de parameter-exponent ( $\alpha$ ), wat resulteert in geen netto winst in de helling van de rekenoptimale frontier vergeleken met de onbeperkte baseline.
Diepte: Voor equivariante modellen neemt de optimale netwerkdiepte toe met de orde van de rotatierepresentatie, terwijl onbeperkte modellen lijden aan overgladmaking bij hogere dieptes.

Betekenis en claims
Het artikel betoogt dat, in tegenstelling tot de "bitter lesson"-hypothese (die suggereert dat modellen inductieve bias uit data moeten leren), expliciete architecturale symmetrie cruciaal is voor schaling in geometrische taken. De auteurs claimen dat symmetrie niet slechts een techniek voor datareductie is, maar fundamenteel de inherente moeilijkheid van de taak en de bijbehorende schaalwetten verandert.

De primaire betekenis ligt in de bevinding dat hogere-orde equivariante representaties leiden tot betere schaalexponenten. Dit suggereert dat voor grootschalige NNIPs het investeren in complexe, symmetrie-bewuste architecturen (zoals eSEN) effectiever is dan het opschalen van eenvoudigere, niet-equivariante modellen. De auteurs concluderen dat fundamentele inductieve bias zoals symmetrie in de architectuur moet worden gecodeerd in plaats van aan het model te worden overgelaten om te ontdekken, aangezien ze de schaaltraject zelf veranderen.

Het artikel blijft bescheiden wat betreft de reikwijdte, met beperkingen zoals de focus op training met één epoch, het specifieke dataset dat wordt gebruikt (neutrale moleculen), en de uitsluiting van strategieën voor pretraining met denoising die in ander recent werk worden gebruikt. Het roept op tot toekomstig theoretisch werk om uit te leggen waarom symmetrie schaalexponenten verandert en suggereert deze studies uit te breiden naar diverseere molecuulsoorten en regimes met meerdere epochs.