A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in simpel Nederlands, met behulp van alledaagse vergelijkingen.

De Probleemstelling: De "Vergeten" Notitieblok

Stel je voor dat je een zeer slimme robot hebt (een AI) die verhalen schrijft of vragen beantwoordt. Om een zin te maken, moet deze robot elke nieuwe woord kiezen op basis van alle woorden die hij al heeft geschreven.

De oude manier (Transformatoren): De robot houdt een gigantisch notitieblok bij waar hij alles opschrijft wat hij ooit heeft gezegd. Elke keer als hij een nieuw woord bedenkt, moet hij naar dat enorme notitieblok rennen, de hele lijst doorzoeken, en dan terugrennen om het nieuwe woord op te schrijven.
- Het probleem: Hoe langer het gesprek duurt, hoe dikker het notitieblok wordt. De robot besteedt 99% van zijn tijd aan het rennen naar het notitieblok en slechts 1% aan het denken. Dit noemen we een "geheugenprobleem".
De nieuwe manier (Gated DeltaNet): Om dit op te lossen, hebben onderzoekers een nieuwe robotontwerp bedacht (zoals in de Qwen3-Next AI). In plaats van een dik notitieblok, heeft deze robot een klein, vast notitieblok (ongeveer 2 MB groot) dat hij altijd bij zich draagt. Hij hoeft niet naar een archief te rennen; hij houdt gewoon zijn huidige gedachte in zijn hoofd en werkt die elke seconde een beetje bij.
- Het nieuwe probleem: Hoewel het notitieblok klein is, moet de robot het elke seconde volledig uit zijn hoofd halen, iets berekenen en er weer in terugzetten. Op de huidige supercomputers (zoals de NVIDIA H100 GPU) is dit nog steeds te traag, omdat de computer te veel tijd kwijt is aan het heen-en-weer slepen van die data.

De Oplossing: De "Werkbank" in het Huis

De onderzoekers van de USC (University of Southern California) dachten: "Waarom slepen we die data heen en weer als we het gewoon in huis kunnen houden?"

Ze bouwden een speciale versneller op een FPGA (een programmeerbare chip die je kunt zien als een lego-bord voor elektronica).

De creatieve analogie:
Stel je voor dat de AI een kok is die een gerecht bereidt.

De GPU (Huidige situatie): De kok staat in een keuken, maar de ingrediënten (het geheugen) liggen in een kelder. Voor elke snelle beweging moet hij de trap af, de ingrediënten pakken, de trap op, snijden, en dan weer de trap af om de pan te vullen. Hij is moe van het lopen, niet van het koken.
De FPGA (Deze oplossing): De onderzoekers hebben een speciale werkbank gebouwd direct naast de pan. Ze hebben alle ingrediënten die nodig zijn (het geheugen van 2 MB) direct op die werkbank gelegd. De kok hoeft nooit meer de trap af. Hij kan direct snijden, mengen en serveren.

Hoe hebben ze dit gedaan? (De 3 Magische Trucs)

Alles in het Huis houden (Persistent State):
De chip heeft genoeg interne ruimte (BRAM) om het volledige "gedachteblok" van de AI permanent vast te houden. Geen enkele data hoeft de chip te verlaten. Dit elimineert de "trap" volledig.
Slimme Berekening (Fused Pipeline):
Normaal moet de robot drie keer door zijn geheugen bladeren om één woord te maken. De onderzoekers hebben de berekening herschreven (een wiskundige truc). Nu hoeft de robot maar twee keer door zijn geheugen te kijken: één keer om te lezen en één keer om te schrijven. Het is alsof je een recept niet drie keer leest, maar in één keer alles doet.
De Assemblagelijn (Dataflow Pipelining):
Ze hebben de chip zo ontworpen dat het werk als een fabrieksband werkt. Terwijl de ene groep berekeningen wordt uitgevoerd, wordt de volgende groep al voorbereid en wordt de vorige groep al verpakt. Alles gebeurt tegelijkertijd, zonder wachttijden.

De Resultaten: Sneller en zuiniger

Ze hebben hun chip getest op een AMD Alveo U55C en vergeleken met de krachtigste GPU ter wereld (de NVIDIA H100).

Snelheid: Hun chip is 4,5 keer sneller in het genereren van één woord dan de beste GPU.
Energie: Dit is misschien wel het belangrijkste: De GPU verbruikt veel stroom (350 Watt) om dit te doen. Hun chip doet het met slechts 10 Watt.
- Vergelijking: Het is alsof de GPU een grote gasbrander is en hun chip een kleine, efficiënte elektrisch verwarmingsspiraal. Per woord dat wordt gegenereerd, is hun oplossing 60 keer energiezuiniger.

Waarom is dit belangrijk?

Voor AI-bedrijven is stroom en snelheid geld. Als je een AI wilt laten praten met duizenden mensen tegelijk, kost de huidige technologie (GPU's) veel geld en stroom.

Deze nieuwe chip laat zien dat we AI niet hoeven te laten "rennen" naar het geheugen, maar dat we het geheugen naar de rekenkracht kunnen halen. Dit maakt het mogelijk om slimme AI's in de toekomst veel goedkoper, sneller en groener te laten draaien, zelfs op kleinere apparaten.

Kortom: Ze hebben de "trap" verwijderd, de "werkbank" naar de "pan" verplaatst, en de "kok" een slimme truc geleerd. Het resultaat is een AI die sneller en zuiniger werkt dan ooit tevoren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA" in het Nederlands.

Titel

Een Persistent-State Dataflow Accelerator voor Geheugen-Gebonden Lineaire Attention Decode op FPGA

1. Het Probleem: De Geheugenbottleneck bij LLM-decode

Grote Taalmodellen (LLM's) zoals de nieuwe hybride architectuur Qwen3-Next gebruiken steeds vaker Gated DeltaNet (GDN). GDN vervangt de groeiende Key-Value (KV) cache van traditionele Transformers door een vaste, recurrente staat van vaste grootte. Hoewel dit de geheugenschaalbaarheid verbetert (van $O(n)$ naar $O(1)$ ), introduceert het een nieuw probleem bij het decode-fase (token-per-token generatie):

Geheugen-gebonden workload: Bij batch-1 (één token per keer) moet de volledige recurrente staat (voor GDN ongeveer 2 MB) bij elk token worden gelezen en geschreven.
GPU-beperkingen: Op GPU's (zoals de NVIDIA H100) moet deze 2 MB staat via het langzame HBM-geheugen (High Bandwidth Memory) worden gehaald en teruggestuurd. De rekenintensiteit is extreem laag (ongeveer 0,87 FLOP/Byte), wat ver onder het "ridge point" van de GPU ligt. Dit betekent dat de prestaties worden beperkt door de geheugenbandbreedte, niet door de rekenkracht.
Consequentie: Zelfs geoptimaliseerde softwarekernels kunnen deze fundamentele "round-trip" naar het externe geheugen niet elimineren, wat leidt tot hoge latentie.

2. Methodologie en Architectuur

De auteurs stellen een FPGA-accelerator voor die dit bottleneck oplost door de volledige recurrente staat persistent op het chip (on-chip BRAM) te houden.

Kerncomponenten van het ontwerp:

Persistent On-Chip State:
- De totale staat van 2 MB (32 matrices van $128 \times 128$ FP32-waarden) past volledig in het BRAM (Block RAM) van de AMD Alveo U55C FPGA (17,6 MB beschikbaar).
- In tegenstelling tot GPU's, waar de staat elke keer uit HBM moet worden geladen, blijft deze op de FPGA. Dit elimineert de I/O-kost voor de staat volledig, waardoor de workload van geheugen-gebonden naar reken-gebonden verschuift.
Gefuseerde Vijf-Fase Datapad:
- Een naïeve implementatie vereist drie passes over de staat per token (retrieval, update, output).
- De auteurs herschikken de algebraïsche berekening (zie vergelijking 13 in het paper) om de output-berekening te fuseren met de retrieval.
- Dit reduceert het aantal passes over de staatmatrix van drie naar twee (één leespass en één schrijvpass) per token.
- Dit vermindert de cyclustijd per iteratie van ~3.072 naar ~2.106 cycli.
Grouped Value Attention (GVA) Parallelisme:
- GDN gebruikt een 2:1 GVA-structuur (twee value-heads delen één query/key-paar).
- Het ontwerp benut dit door beide value-heads van een GVA-paar parallel te verwerken. De query- en key-vector worden uitgezonden (broadcast), terwijl elke head zijn eigen staat en accumulatie behoudt.
- Dit verdubbelt de reken-efficiëntie zonder extra I/O voor query/key.
Dataflow Pipelining:
- De verwerking van de 32 value-heads wordt opgesplitst in groepen ( $H_{iter}$ ) die per iteratie worden verwerkt.
- Drie stadia worden overlapt via dataflow-pipelining: Voorbereiden (gates berekenen), Berekenen (de vijf-fase pipeline uitvoeren) en Opslaan (output naar extern geheugen).
- Hierdoor kunnen voorbereiding en opslag van de volgende iteratie gelijktijdig plaatsvinden met de berekening van de huidige iteratie.

3. Belangrijkste Bijdragen

Eerste FPGA-accelerator voor GDN: Het is de eerste implementatie die de autoregressive decode van Gated DeltaNet op een FPGA versnelt, met een persistent 2 MB staat in BRAM.
Eliminatie van Off-Chip I/O: Door de staat op-chip te houden, wordt de geheugenbandbreedte-bottleneck volledig verwijderd, wat de werklast transformeert naar een reken-gebonden probleem.
Algebraïsche Optimalisatie: Een herschikking van de recurrente vergelijkingen die het aantal lees/schrijf-passes over de staatmatrix halveert.
GVA-Aware Parallelisme: Een ontwerp dat de specifieke 2:1 structuur van Grouped Value Attention gebruikt om parallelisme te verhogen zonder extra datapad- overhead.

4. Resultaten

De evaluatie is uitgevoerd op een AMD Alveo U55C FPGA en vergeleken met een NVIDIA H100 PCIe GPU.

Latentie (Snelheid):
- De optimale configuratie ( $H_{iter} = 8$ , wat betekent dat 8 value-heads per iteratie worden verwerkt) bereikt een latentie van 63 µs per token.
- Dit is 4,5x sneller dan de GPU-baseline (285 µs).
- Configuraties met meer parallelisme ( $H_{iter}=16$ ) presteren slechter vanwege "pipeline inflation" (de initiële interval neemt toe door routing-druk), wat aantoont dat er een optimaal punt is.
Energie-efficiëntie:
- De FPGA verbruikt slechts 9,96 W (on-chip vermogen) voor de implementatie.
- Dit resulteert in een energie-efficiëntie van 60x hoger per gedecodeerd token vergeleken met de GPU (die het volledige board-vermogen van ~350W verbruikt, zelfs bij lage belasting).
- Zelfs als men het volledige board-vermogen van de FPGA (150W) als bovengrens neemt, is de efficiëntie nog steeds 7,6x tot 10,5x beter.
Resource Gebruik:
- De optimale configuratie ( $H_{iter}=8$ ) gebruikt ongeveer 25% van de beschikbare BRAM, DSP, FF en LUT resources op de FPGA.
- Hogere parallelismen ( $H_{iter}=16$ ) leiden tot routing-fouten en congestie, wat de haalbaarheid op dit specifieke apparaat beperkt.

5. Betekenis en Toekomstperspectief

Dit paper demonstreert dat de prestatie-beperkingen van moderne sub-kwadratische LLM-architecturen (zoals GDN en Mamba) vaak architectonisch zijn (gebaseerd op geheugenbandbreedte) en niet algoritmisch.

Paradigmaverschuiving: Het bewijst dat door het persistent houden van de staat op-chip (wat mogelijk is op FPGA's maar niet op GPU's met hun cache-hiërarchie), de fundamentele bottleneck van deze modellen kan worden opgelost.
Efficiëntie: Het biedt een route naar extreem energie-efficiënte inferentie voor productie-LLM's, wat cruciaal is voor schaalbaarheid en kostenreductie.
Toekomst: De auteurs plannen om deze persistent-state datapath uit te breiden naar het prefill-fase, kwantisatie (lagere precisie), en ondersteuning voor de resterende softmax-attention lagen, om volledige hybride LLM-inferentie op één datacenter-FPGA mogelijk te maken.

Samenvattend toont dit werk aan dat FPGA's, dankzij hun vermogen om grote hoeveelheden data persistent op-chip te houden en dataflow-architecturen te gebruiken, een superieure platform kunnen zijn voor het versnellen van de decode-fase van de nieuwste generatie lineaire attention-modellen.

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

De Probleemstelling: De "Vergeten" Notitieblok

De Oplossing: De "Werkbank" in het Huis

Hoe hebben ze dit gedaan? (De 3 Magische Trucs)

De Resultaten: Sneller en zuiniger

Waarom is dit belangrijk?

Titel

1. Het Probleem: De Geheugenbottleneck bij LLM-decode

2. Methodologie en Architectuur

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models