Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs

Deze paper introduceert een trainingsmethode die MXFP4-activaties en expert-parallelle communicatie mogelijk maakt voor grote MoE-modellen op Hopper-GPU's zonder native FP4-ondersteuning, waardoor het piekgeheugengebruik met 14,8% en de doorvoer met 12,5% verbetert ten opzichte van FP8-baselines.

Wuyue Zhang, Chongdong Huang, Chunbo You, Cheng Gu, Fengjuan Wang, Mou Sun

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek bouwt, niet met boeken, maar met kennis. Deze bibliotheek is zo groot dat hij 671 miljard "woorden" (parameters) bevat. Dit is een Groot Taalmodel (LLM), en het is een van de slimste kunstmatige intelligenties die we hebben.

Het probleem? Om deze bibliotheek te bouwen, heb je een enorm magazijn nodig (het geheugen van je computer) en een super-snelle vrachtwagen om de boeken heen en weer te rijden (de communicatie tussen de chips). Helaas is dit magazijn vol en de vrachtwagens steken vast in de file.

Deze paper vertelt het verhaal van een slimme oplossing die dit probleem oplost, zelfs zonder de allernieuwste, duurste vrachtwagens.

Het Probleem: De "Te Zware" Lading

Om zo'n enorme bibliotheek te trainen, gebruiken computers meestal een zware, nauwkeurige meeteenheid (noem het BF16 of FP8). Het is alsof je elke pagina van je boek in een zware, beschermde koffer verpakt voordat je hem op de vrachtwagen laadt.

  • Nadeel: De vrachtwagens (de GPU's) worden snel overbelast. Ze kunnen niet genoeg boeken tegelijk vervoeren, en het magazijn raakt vol.
  • De droom: Iedereen wil de "FP4"-stand gebruiken. Dit is alsof je de boeken in ultra-lichte, dunne plastic zakjes stopt. Je kunt er twee keer zoveel in een vrachtwagen proppen en het magazijn wordt half zo groot.
  • Het obstakel: De huidige vrachtwagens (de Hopper-chips van NVIDIA) zijn niet gebouwd om die lichte zakjes direct te verwerken. Ze kunnen alleen de zware koffers aan. Als je de lichte zakjes probeert te gebruiken, moet je ze eerst weer in zware koffers verpakken, vervoeren, en weer uitpakken. Dat kost meer tijd dan het besparen!

De Oplossing: De Slimme "Tussenpersoon"

De auteurs van dit paper hebben een slimme truc bedacht. Ze hebben een software-gebaseerde vertaler gemaakt die werkt op de bestaande vrachtwagens, zonder dat je nieuwe hardware hoeft te kopen.

Hier is hoe het werkt, in drie simpele stappen:

1. De "Verpakking" (Quantisatie)

In plaats van de zware koffers te gebruiken, verpakken ze de boeken direct in die lichte FP4-zakjes.

  • De truc: Ze doen dit heel slim. Ze gebruiken een speciale "verpakkingsmachine" (een computerprogramma) die de boeken direct in de lichte zakjes stopt, zonder eerst naar een zware koffer te gaan.
  • Het resultaat: De vrachtwagens (de communicatie tussen de chips) zijn nu half zo zwaar. Ze kunnen veel sneller rijden.

2. De "Werkplek" vs. Het "Magazijn"

Dit is het meest creatieve deel.

  • Op de werkplek (Berekening): Wanneer de vrachtwagen daadwerkelijk aan het werk is (rekenen), gebruiken ze nog steeds de zware koffers (FP8). Waarom? Omdat de rekenkracht van de machine daar het beste mee werkt.
  • In het magazijn (Opslag): Zodra de boeken klaar zijn om opgeslagen te worden, verpakken ze ze direct in de lichte FP4-zakjes.
  • De analogie: Stel je voor dat je een kok bent. Je kookt met zware, dure pannen (FP8) omdat dat het beste resultaat geeft. Maar zodra je het eten in de koelkast zet, doe je het in heel kleine, lichte plastic bakjes (FP4). Je hoeft niet met de zware pannen door de gang te lopen; je draagt alleen de lichte bakjes. Zo bespaar je ruimte en energie, zonder dat het eten (de kwaliteit) minder wordt.

3. De "Directe Vertaling" (Bit-voor-Bit)

Omdat de oude machines de lichte zakjes niet direct kunnen lezen, moesten ze een nieuwe vertaalcode schrijven.

  • In plaats van: Lichte zakje -> Zware koffer -> Lichte zakje (wat traag is), hebben ze een code gemaakt die direct van Lichte zakje -> Zware koffer gaat.
  • Ze hebben de "schalen" (de maten) van de lichte zakjes direct omgezet naar de maten van de zware koffers, zonder tussenstappen. Dit is alsof je een meetlat direct omzet van centimeters naar inches, zonder eerst naar meters te gaan.

Wat is het Resultaat?

Toen ze dit testten op hun gigantische bibliotheek (671 miljard parameters):

  1. Ruimtebesparing: Ze hadden 15% minder ruimte nodig in het magazijn. Dit klinkt klein, maar bij zo'n groot systeem betekent dit dat ze veel meer boeken tegelijk kunnen verwerken.
  2. Snelheid: Omdat de vrachtwagens minder zwaar hoefden te dragen, konden ze 12,5% sneller werken. In plaats van 1157 woorden per seconde, konden ze nu 1302 woorden per seconde verwerken.
  3. Geen kwaliteitsverlies: De boeken werden niet beschadigd. De bibliotheek leerde net zo goed als met de oude, zware methode.

Conclusie

Deze paper laat zien dat je niet altijd de allernieuwste, duurste hardware nodig hebt om super-snel te zijn. Met een slimme software-uitvinding (een soort "tussenpersoon" die de lichte zakjes slim verpakt en vertaalt), kun je de bestaande machines veel efficiënter laten werken.

Het is alsof je een oude, zware vrachtwagen hebt, maar door slimme verpakkingstechnieken toch net zo snel en efficiënt bent als met een nieuwe, dure vrachtwagen. Dit maakt het trainen van de slimste AI's van de wereld veel goedkoper en sneller.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →