Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

Each language version is independently generated for its own context, not a direct translation.

Titel: LoRA-Pre: De Slimme Verkeersregelaar voor AI

Stel je voor dat je een gigantische stad bouwt. Deze stad is een Groot Taalmodel (LLM), zoals de slimme AI's die we vandaag de dag gebruiken. Om deze stad te bouwen, moet je miljoenen straten aanleggen, gebouwen neerzetten en verkeer regelen. Dit proces heet "trainen".

Het probleem? De bouwvakkers (de computer) hebben een enorm probleem: ze vergeten constant waar ze waren. Ze moeten een gigantisch notitieboekje bijhouden met elke stap die ze hebben genomen, elke fout die ze maakten en elke richting die ze probeerden. Dit notitieboekje wordt steeds groter en groter, tot het zo zwaar wordt dat de bouwvakkers vastlopen in hun eigen rommel. Ze kunnen de stad niet meer snel genoeg bouwen.

Dit is precies het probleem dat dit nieuwe onderzoek, LoRA-Pre, oplost.

1. Het Probleem: De Zware Rugzak

Normaal gesproken gebruiken slimme algoritmen (zoals Adam) een trucje: ze onthouden niet alleen de huidige stap, maar ook een "momentum" (een soort draagkracht) van alle vorige stappen. Ze zeggen: "We gaan in die richting, want we zijn daar al een beetje mee bezig."

Maar om dit momentum te onthouden, moeten ze een enorme "ruggzak" dragen die even groot is als het hele model. Bij een groot model is die rugzak zo zwaar dat je er nauwelijks mee kunt lopen. Je moet dus een zware truck huren (veel dure computergeheugen), wat het proces extreem duur en traag maakt.

2. De Geniale Inzage: Momentum is een Voorspeller

De auteurs van dit paper hebben iets heel slim bedacht. Ze keken naar die zware "momentum-rugzak" en zeiden: "Wacht even. Dit is eigenlijk gewoon een wiskundig voorspeller."

Stel je voor dat je probeert het weer te voorspellen. Je kijkt naar de afgelopen dagen (de gradiënten) en probeert een lijn te trekken om te zien waar het morgen naartoe gaat.

De oude manier: Je schrijft elke enkele temperatuur, elke windstoot en elke regenbui op in een gigantisch dagboek (de volle rugzak).
De nieuwe manier (LoRA-Pre): Je realiseert je dat je niet alles hoeft op te schrijven. Je kunt een simpel, compact modelletje bouwen dat de trend voorspelt. Je hebt geen dagboek nodig; je hebt alleen een klein notitieblokje nodig met de belangrijkste lijnen.

De auteurs bewijzen wiskundig dat het "momentum" van de AI precies hetzelfde is als het trainen van zo'n simpel voorspeller-modelletje.

3. De Oplossing: De "LoRA-Pre" Methode

In plaats van de hele zware rugzak mee te nemen, gebruiken ze een techniek die ze LoRA-Pre noemen.

De Analogie van de Origami: Stel je voor dat je momentum een enorme, zware stenen muur is. Dat is te zwaar om te dragen. LoRA-Pre vouwt die muur echter in tot een klein, strak pakje (een laag-rang benadering). Het pakje is veel lichter, maar als je het weer uitvouwt, zie je nog steeds dezelfde muur.
Hoe werkt het? Ze splitsen die enorme "momentum-muur" op in twee kleinere, dunne platen die samenwerken. In plaats van miljoenen getallen op te slaan, slaan ze maar een paar duizend getallen op die de essentie van de richting vastleggen.
Het resultaat: De computer hoeft niet meer die zware truck te huren. Hij kan nu met een kleine fiets (weinig geheugen) dezelfde route afleggen.

4. Waarom is dit zo geweldig?

De onderzoekers hebben dit getest op verschillende maten van AI-modellen (van klein tot gigantisch).

Snelheid en Kosten: Omdat ze minder geheugen nodig hebben, kunnen ze veel grotere modellen trainen op dezelfde hardware. Het is alsof je met een kleine auto een vrachtwagenlading kunt vervoeren.
Beter dan de rest: Ze hebben getest of hun "compacte pakje" nog steeds goed werkt. Het bleek dat ze zelfs met 1/8e van de grootte van de oude methodes, net zo goed of zelfs beter presteerden.
Flexibel: Het werkt niet alleen bij het bouwen van de stad van scratch (pre-training), maar ook bij het aanpassen van een bestaande stad voor een specifiek doel (fine-tuning). Of je nu een klein dorpje of een metropool aan het bouwen bent, LoRA-Pre werkt perfect.

Samenvattend

Dit paper zegt eigenlijk: "Je hoeft niet alles te onthouden om slim te zijn. Je hoeft alleen maar de belangrijkste patronen te begrijpen."

Door de zware geheugentaken van AI te vervangen door slimme, compacte voorspellers, maken ze het mogelijk om in de toekomst nog grotere en slimmere AI's te bouwen zonder dat we miljarden dollars aan computerhardware nodig hebben. Het is een stap in de richting van een toekomst waar AI voor iedereen toegankelijk is, niet alleen voor de rijkste bedrijven.

Each language version is independently generated for its own context, not a direct translation.

Titel: Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

Publicatie: ICLR 2026 (voorbereid)
Auteurs: Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan.

1. Het Probleem

Moderne Large Language Models (LLMs) zoals Adam en Muon zijn essentieel voor training, maar ze introduceren aanzienlijke geheugenoverhead. Dit komt door de noodzaak om niet alleen de modelgewichten, maar ook de momentum-statistieken (eerste- en tweede-orde momenten van de gradiënten) op te slaan.

Geheugenbottleneck: Voor optimizers zoals Adam verdrievoudigt het bijhouden van deze momenten het geheugengebruik, wat de schaalbaarheid beperkt en de computerefficiëntie verlaagt.
Bestaande oplossingen: Er zijn methoden ontwikkeld die gradiënten projecteren op een laag-rang deelruimte (bijv. GaLore, Fira). Deze gebruiken echter vaak periodieke updates van de deelruimte (via SVD of willekeurige projecties). Dit leidt tot vertraging in aanpassing, accumulatie van fouten en suboptimale prestaties omdat de deelruimte niet direct reageert op veranderende gradiëntstructuren.

2. Methodologie: LoRA-Pre

De auteurs introduceren LoRA-Pre, een nieuwe low-rank optimizer die het geheugengebruik drastisch vermindert door momentum-statistieken te comprimeren, gebaseerd op een fundamenteel wiskundig inzicht.

Kerninzicht: Momentum als Online Lineaire Regressor

De paper onthult een wiskundige equivalentie tussen de Exponential Moving Average (EMA) update voor momentum en het trainen van een online lineaire regressor via gradiëntstroom.

De standaard EMA-update: $m_{t+1} = \beta \cdot m_t + (1-\beta) \cdot g_t$
Dit is wiskundig equivalent aan het minimaliseren van de verliesfunctie $L(m; g) = \frac{1}{2} \|m - g\|_F^2$ met gradiëntafdaalstapgrootte $(1-\beta)$ .
Conclusie: Momentum accumulatie kan worden gezien als het aanpassen van de gewichten van een lineair model om de geschiedenis van gradiënten te benaderen.

De LoRA-Pre Algoritme

Gebaseerd op dit inzicht, comprimeren de auteurs het volledige momentum-matrix $m$ (grootte $p \times q$ ) in twee lage-rang matrices $m_B$ ( $p \times r$ ) en $m_A$ ( $r \times q$ ), waarbij $r \ll \min(p, q)$ .

Factorisatie: In plaats van $m$ op te slaan, wordt $m \approx m_B \cdot m_A$ gebruikt.
Update Regels: De auteurs leiden gesloten-formule update-regels af (via Newton's methode) voor $m_B$ $m_{B}$ en $m_A$ $m_{A}$ die de EMA-dynamiek behouden zonder backpropagation nodig te hebben.
- Voor de eerste orde: $m_B \leftarrow (1-\gamma_1)m_B + \gamma_1 \cdot g m_A^T (m_A m_A^T)^{-1}$
- Voor de tweede orde (variatie): Er wordt een herparameterisatie gebruikt ( $v = (v_B v_A)^{\circ 2}$ ) om te garanderen dat de elementen positief blijven (nodig voor de wortel in Adam).
Toepasbaarheid: De methode is generiek en werkt met momentum-gebaseerde optimizers zoals Adam en Muon.

3. Belangrijkste Bijdragen

Theoretische Connectie: Eerste bewijs dat EMA-momentum updates wiskundig equivalent zijn aan het trainen van een online lineaire regressor via gradiëntstroom.
LoRA-Pre Ontwerp: Een geheugenefficiënte optimizer die momentum comprimeert via lage-rang factorisatie, met afgeleide update-regels voor zowel Adam als Muon.
Continue Aanpassing: In tegenstelling tot methoden met periodieke subspace-updates (zoals GaLore), past LoRA-Pre de subspace continu aan elke stap aan, wat foutaccumulatie elimineert.
Uitgebreide Validatie: Experimenten op pre-training en fine-tuning taken, met varianten voor verschillende modelgroottes.

4. Experimentele Resultaten

De auteurs hebben LoRA-Pre getest op de Llama-architectuur (van 60M tot 1B parameters) voor pre-training en op Llama-2-7B en Llama-3.1-8B voor fine-tuning.

Pre-training (C4 Dataset):
- LoRA-Pre behaalde de hoogste prestaties (laagste perplexiteit) over alle modelgroottes, zowel met Adam als Muon als basis.
- Het presteerde significant beter dan bestaande low-rank methoden zoals GaLore, Fira, en LoRA (vanaf scratch).
- Voor het 1B model was LoRA-Pre Adam 1.6 perplexiteit-punten beter dan de vorige beste efficiënte baseline.
Fine-tuning (MetaMathQA, GSM8K, MATH-500):
- LoRA-Pre overtrof consistent alle efficiënte fine-tuning baselines (LoRA, rsLoRA, DoRA, GaLore).
- Verbetering: T.o.v. standaard LoRA boekte LoRA-Pre een verbetering van 3.14 punten op Llama-3.1-8B en 6.17 punten op Llama-2-7B.
Rank-efficiëntie:
- LoRA-Pre is opmerkelijk rank-efficiënt. Het bereikte vergelijkbare of betere resultaten met slechts 1/8e van de rank die nodig was voor baselines (bijv. LoRA-Pre met rank 16 presteerde even goed als GaLore met rank 128).
- Dit komt door het vermogen om de subspace continu aan te passen, waardoor kleinere subspaces effectief kunnen worden gebruikt zonder foutaccumulatie.

5. Betekenis en Conclusie

LoRA-Pre vertegenwoordigt een paradigmaverschuiving in het optimaliseren van LLMs. Door momentum niet langer als statische statistieken te zien, maar als een dynamisch lineair regressiemodel, kunnen de auteurs de geheugenoverhead van optimizers drastisch reduceren zonder in te leveren op convergentie of prestaties.

Schaalbaarheid: De methode maakt het mogelijk om grotere modellen te trainen op beperkter hardware door de overhead van optimizer-states te elimineren.
Robuustheid: De methode is robuust tegen keuze van de rank en werkt naadloos samen met geavanceerde optimizers zoals Muon.
Toekomst: Dit biedt een nieuwe richting voor "memory-efficient" training, waarbij de focus ligt op het dynamisch aanpassen van de optimizer-statistieken in plaats van het projecteren van gradiënten op statische deelruimtes.

De code is openbaar beschikbaar, wat de adoptie en verdere onderzoek in dit domein faciliteert.