POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek wilt bouwen met miljarden boeken (dit is je Groot Taalmodel of LLM). Om deze bibliotheek te bouwen, moet je elke pagina van elke handtekening van elke auteur in je hoofd onthouden en constant herschrijven.

Het probleem? De bibliotheek is zo groot dat je hoofd (de computergeheugen) er niet genoeg ruimte voor heeft, en het schrijven gaat zo langzaam dat je nooit klaar komt.

Dit is precies het probleem dat het nieuwe onderzoek POET-X oplost. Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het Oude Probleem: De "Zware" Methode

Vroeger (en bij de vorige versie, genaamd POET) was de manier om deze bibliotheek te bouwen als volgt:
Je had een enorme, zware kist met alle boeken erin. Om een boek te verbeteren, moest je de hele kist openmaken, alle boeken eruit halen, ze één voor één herschrijven, en ze dan weer terugzetten.

Het nadeel: Je had een enorm groot magazijn nodig om die kist in te houden (veel geheugen). En het slepen van die kist kostte ontzettend veel tijd (veel rekenkracht).
Resultaat: Je computer "springt" (crasht) omdat het te vol is, of het duurt eeuwen.

2. De Oplossing: POET-X (De "Slimme" Methode)

POET-X is een slimme truc die zegt: "Waarom dragen we die zware kist als we alleen maar de inhoud hoeven te veranderen?"

In plaats van de hele kist te verplaatsen, gebruiken we een magische spiegel en een rooster.

Analogie 1: De Magische Spiegels (Orthogonale Transformatie)

Stel je voor dat je een foto hebt (de data). In plaats van de foto zelf te knippen en plakken (wat veel ruimte kost), draai je de foto gewoon een beetje in de lucht.

POET-X gebruikt wiskundige "spiegels" (orthogonale matrices) om de foto te draaien.
De truc: Je hoeft de foto niet op te slaan terwijl je draait. Je draait alleen de kijkhoek. Dit bespaart enorm veel ruimte in je hoofd.
POET-X maakt deze draai-truc nog slimmer door te zeggen: "We hoeven niet de hele foto tegelijk te draaien, maar alleen in kleine blokjes."

Analogie 2: De Blokkenpuzzel (Block-Sparse)

Stel je voor dat je een enorme muur moet schilderen.

De oude manier: Je schildert de hele muur in één keer, met een gigantische roller. Je hebt een enorm emmerrek nodig.
POET-X: Je gebruikt een kleine roller en schildert de muur in kleine, losse blokjes. Je hoeft nooit de hele muur tegelijk vast te houden. Je pakt één blokje, schildert het, en legt het weer neer.
Dit betekent dat je computer maar een klein stukje van de muur tegelijk in het geheugen hoeft te hebben.

Analogie 3: De "Geheugen-Reset" (Checkpointing)

Soms moet je tijdens het schilderen terugkijken naar hoe het eruit zag om de volgende streep te zetten.

Normaal: Je slaat een foto van elke stap op in je geheugen. Dat vult je hoofd snel op.
POET-X (Mem-versie): Je slaat geen foto's op. Als je terugkijkt, schilder je de stap even snel opnieuw.
Waarom is dit slim? Schilderen (rekenen) is snel. Foto's maken en opslaan (geheugen) is duur. POET-X kiest voor het snelle schilderen om ruimte te besparen.

3. Wat levert dit op? (De Resultaten)

De onderzoekers hebben dit getest op een superkrachtige computer (een Nvidia H100 GPU).

Vroeger: Om een groot model (zoals Llama-8B) te trainen, had je een hele serverruimte nodig, of je computer crashte omdat het geheugen vol zat.
Nu met POET-X: Je kunt dit enorme model trainen op één enkele computer.
- Het geheugenverbruik is 3 keer lager.
- Het gaat 8 keer sneller.
- Het resultaat is net zo goed (of zelfs beter) dan de standaard methoden.

Samenvatting in één zin

POET-X is als het vervangen van een zware, onhandige vrachtwagen (de oude methode) door een slimme, elektrische fiets met een aanhanger (de nieuwe methode): je kunt net zo veel vervoeren, maar je hebt veel minder ruimte nodig en je bent veel sneller onderweg.

Dit betekent dat onderzoekers en bedrijven in de toekomst veel grotere en slimmere AI-modellen kunnen bouwen zonder dat ze miljarden euro's hoeven uit te geven aan dure computerzalen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het trainen van grote taalmodellen (LLMs) blijft een grote uitdaging vanwege de enorme rekenkracht en het geheugengebruik dat vereist is. Bestaande methoden zoals AdamW zijn stabiel maar zeer geheugenisintensief, terwijl recente efficiënte methoden vaak inleveren op stabiliteit of generalisatie.

Een eerdere methode, POET (Reparameterized Orthogonal Equivalence Training), bood een oplossing door gewichtsmatrices te optimaliseren via orthogonale equivalentietransformaties. Dit behoudt het spectrum van de matrices, wat zorgt voor uitstekende trainingsstabiliteit. Echter, de oorspronkelijke implementatie van POET had twee ernstige nadelen:

Hoog geheugengebruik: Het vereiste het opslaan van grote tussenliggende activaties en volledige gewichtsmatrices, wat leidde tot "Out of Memory" (OOM) fouten zelfs op krachtige GPU's (zoals de NVIDIA H100) bij het trainen van modellen van enkele miljarden parameters.
Rekenkundige inefficiëntie: De intensieve matrixvermenigvuldigingen maakten het trainen trager dan AdamW.

Dit beperkte de praktische toepasbaarheid van POET voor het pre-trainen van grote LLMs.

Methodologie: POET-X

POET-X is een schaalbare en geheugenefficiënte variant van POET die de orthogonale equivalentietransformatie (OET) behoudt, maar de implementatie volledig herontwerpt om de kosten drastisch te verlagen. De kern van de methode is het transformeren van een "gewicht-gecentreerde" aanpak naar een "input-gecentreerde" aanpak, ondersteund door diverse optimalisaties:

Input-gecentreerde Implementatie:
- In plaats van de gewichtsmatrix $W$ direct te updaten ( $W \leftarrow R_i W P_i$ ), wat grote matrix-matrix vermenigvuldigingen vereist, wordt de update herschreven als een reeks lineaire afbeeldingen op de input.
- Dit elimineert de noodzaak om tussenliggende activaties gerelateerd aan de gewichtsmatrices op te slaan, wat de geheugenvraag aanzienlijk verlaagt.
Permutatie-versnelling en -reductie:
- POET maakt gebruik van permutatiematrices. In plaats van deze expliciet te construeren (wat veel geheugen kost), worden ze geïmplementeerd via aangepaste CUDA-kernen die index-mapping gebruiken.
- De auteurs identificeren dat twee van de vier benodigde permutaties in de forward pass vooraf kunnen worden samengevoegd met de gewichtsmatrix, waardoor de runtime wordt verkort.
Batch-parallelle berekening voor blok-diagonale matrices:
- De orthogonale matrices in POET hebben een blok-diagonale structuur. In plaats van de volledige grote, maar schaarse, matrices te construeren, worden de blokken als onafhankelijke matrices behandeld en parallel verwerkt. Dit bespaart zowel geheugen als rekentijd.
Efficiënte Cayley-Neumann Parameterisatie (CNP):
- Om orthogonaliteit te garanderen, gebruikt POET de Cayley-Neumann parameterisatie. POET-X optimaliseert dit door:
  - Alleen de bovenste driehoekige delen van de schuif-symmetrische matrices op te slaan (halvering van de parametergrootte).
  - Het gebruik van kernel fusion (via Triton) om hogere-orde termen ( $Q^3, Q^4$ ) in één enkele GPU-kern te berekenen, wat data-overdracht en kernel-launch overhead minimaliseert.
Gradient Checkpointing en Quantisatie:
- POET-Xmem: Gebruikt gradient checkpointing om tussenliggende activaties opnieuw te berekenen in plaats van op te slaan, wat de geheugenvraag minimaliseert.
- POET-XQ: Ondersteunt kwantiseren (bijv. INT8) door de basisgewichten gekwantiseerd op te slaan en ze "on-the-fly" te dekwantiseren. Omdat POET-X geen hoge precisie gewichten hoeft op te slaan voor backpropagatie, is dit mogelijk zonder geheugenverlies.

Belangrijkste Bijdragen

Schaalbaarheid: POET-X maakt het mogelijk om LLMs met miljarden parameters (bijv. Llama-8B en Llama-13B) te pre-trainen op één enkele NVIDIA H100 GPU.
Geheugenreductie: In vergelijking met de originele POET wordt het GPU-gebruik met 3x verlaagd. Het geheugengebruik is vergelijkbaar met parameter-efficiënte finetuning-methoden zoals LoRA, maar dan voor pre-training.
Snelheid: POET-X is 8x sneller dan de originele POET en bereikt een doorvoersnelheid (throughput) die vergelijkbaar is met AdamW, terwijl het de stabiliteitsvoordelen behoudt.
Kwantisatie-ondersteuning: De methode ondersteunt naadloos kwantiseren (POET-XQ), wat nog meer geheugen bespaart zonder in te leveren op prestaties.

Resultaten

De auteurs hebben POET-X uitgebreid getest op verschillende Llama-varianten (3B, 8B, 13B) met verschillende sequentielengtes:

Geheugen: Bij het trainen van Llama-8B op één H100 GPU, loopt standaard AdamW vast op geheugen (OOM). POET-Xmem gebruikt slechts 27.87 GB geheugen, terwijl AdamW meer dan 76 GB zou nodig hebben.
Prestaties (Perplexity): POET-X presteert consistent beter dan AdamW en andere geheugenefficiënte methoden zoals GaLore en APOLLO. Bijvoorbeeld, voor Llama-8B behaalde POET-X (b=512) een validatie perplexiteit van 12.05, vergeleken met 12.69 voor AdamW.
Schaalbaarheid: In gedistribueerde omgevingen (tot 64 GPU's) schaalt POET-X bijna lineair. In tegenstelling tot AdamW, dat last heeft van communicatie-overhead bij het synchroniseren van volledige gradiënten, gebruikt POET-X Data Parallelism (DDP) zonder dat het hele model over de GPU's hoeft te worden verdeeld, wat leidt tot een hogere doorvoersnelheid.
Kwantisatie: POET-XQ (gekwantiseerd) presteert beter dan gekwantiseerde versies van GaLore en APOLLO, met een lagere geheugenvraag.

Betekenis

POET-X is een doorbraak in de efficiënte training van grote taalmodellen. Het overbrugt de kloof tussen parameter-efficiëntie (zoals bij LoRA) en trainingsstabiliteit (zoals bij AdamW), terwijl het de geheugenefficiëntie van beide combineert.

De belangrijkste implicaties zijn:

Democratisering van LLM-training: Onderzoekers en bedrijven kunnen nu grote modellen pre-trainen op beperkte hardware (één enkele high-end GPU), wat de toegang tot state-of-the-art AI aanzienlijk vergroot.
Stabiliteit en Snelheid: Het bewijst dat het behoud van het spectrum van gewichtsmatrices (via orthogonale transformaties) niet alleen leidt tot betere stabiliteit, maar ook tot snellere convergentie als de implementatie optimaal is.
Toekomstgerichte Architectuur: De technieken die in POET-X zijn ontwikkeld (zoals input-gecentreerde berekening en geavanceerde kernel-fusie voor orthogonale matrices) bieden waardevolle inzichten voor het optimaliseren van andere beperkte trainingsproblemen in de toekomst.

Kortom, POET-X maakt het mogelijk om de "grote modellen" van vandaag te trainen met de middelen van morgen, zonder in te leveren op kwaliteit of stabiliteit.

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

1. Het Oude Probleem: De "Zware" Methode

2. De Oplossing: POET-X (De "Slimme" Methode)

Analogie 1: De Magische Spiegels (Orthogonale Transformatie)

Analogie 2: De Blokkenpuzzel (Block-Sparse)

Analogie 3: De "Geheugen-Reset" (Checkpointing)

3. Wat levert dit op? (De Resultaten)

Samenvatting in één zin

Probleemstelling

Methodologie: POET-X

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models

A Survey of Mamba

A Guide to Bayesian Networks Software Packages for Structure and Parameter Learning -- 2025 Edition

AI Literacy for Legal AI Systems: A practical approach

Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics