RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

Dit paper introduceert RACE Attention, een strikt lineaire alternatieve mechanisme voor Softmax Attention dat de kwadratische complexiteit elimineert en het trainen van modellen op uitzonderlijk lange sequenties tot 75 miljoen tokens mogelijk maakt op bestaande hardware.

Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala, Ekam Singh, Evan Tu, Anshumali Shrivastava

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met miljoenen boeken, en je moet op elk moment in een verhaal precies weten welke woorden eerder zijn gebruikt om de betekenis van de huidige zin te begrijpen. Dit is wat een computer doet als hij een taalmodel (zoals een slimme chatbot) laat werken.

De huidige technologie, genaamd Softmax Attention, werkt als een zeer perfectionistische bibliothecaris. Als je een nieuwe zin schrijft, loopt deze bibliothecaris door alle vorige woorden in het boek, vergelijkt hij elk woord met elk ander woord, en berekent hij een "belangrijkheidscore".

Het probleem:
Hoe langer het verhaal, hoe meer werk dit wordt. Als je 10 woorden hebt, zijn er 100 vergelijkingen. Maar als je 1 miljoen woorden hebt, moet hij 1 biljoen vergelijkingen maken! Dit is als proberen elke persoon in een stad van 10 miljoen mensen hand in hand te schudden met elke andere persoon. Het kost zoveel tijd en energie dat zelfs de snelste computers (zoals de krachtigste GPUs) er vastlopen als het verhaal te lang wordt. Ze kunnen gewoonweg niet verder dan ongeveer 4 miljoen woorden voordat ze "opbranden".

De oplossing: RACE Attention
De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd RACE Attention. In plaats van een perfectionistische bibliothecaris die alles één voor één checkt, hebben ze een slimme, snelle schattingstechniek bedacht.

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. De "LSH" (Locality-Sensitive Hashing) - De Postbode

Stel je voor dat je in plaats van elke persoon in de stad te zoeken, je een slimme postbode hebt. Deze postbode heeft een lijst met buurten. Als twee woorden (of mensen) op elkaar lijken, stuurt hij ze naar hetzelfde "brievenbusje" (een bucket).

  • Huidige methode: Iedereen loopt naar iedereen toe om te kijken of ze vrienden zijn.
  • RACE-methode: De postbode gooit iedereen in een brievenbusje op basis van hun uiterlijk. Als twee mensen er heel erg op lijken, belanden ze in hetzelfde busje. Je hoeft niet met iedereen te praten, je praat alleen met de mensen in dat specifieke busje.

2. De "Zachte" Sortering - Geen harde grenzen

Eerdere methoden probeerden mensen in harde groepen te stoppen (ja of nee). Dat werkt niet goed voor taal, omdat woorden vaak een beetje op elkaar lijken, maar niet 100%.
RACE gebruikt een "zachte" sortering. Stel je voor dat je een groep mensen niet in strikte kamers stopt, maar dat ze een beetje in de gangen hangen. Als iemand een beetje op een ander lijkt, krijgt hij een klein beetje "aandacht" van die andere persoon. Dit maakt het berekenen veel sneller en zorgt ervoor dat de computer nog steeds slim blijft, zonder de tijd te verliezen.

3. De "Schets" in plaats van het "Volledige Schilderij"

Normaal gesproken maakt de computer een gigantisch schilderij van alle mogelijke relaties tussen woorden (een matrix van N×NN \times N). Dit schilderij is zo groot dat het de geheugenruimte van de computer vult.
RACE maakt in plaats daarvan een snel schetsje. Het berekent alleen de statistieken van de brievenbusjes. Het is alsof je in plaats van elke boom in een bos te tellen, gewoon telt hoeveel groepen bomen er zijn en hoe groot die groepen gemiddeld zijn. Je krijgt een heel nauwkeurig beeld van het bos, maar het kost je een fractie van de tijd.

Waarom is dit een doorbraak?

  • Schaalbaarheid: Waar de oude methoden vastliepen bij 4 miljoen woorden, kan RACE op een gewone computer (CPU) tot 75 miljoen woorden verwerken en op een supercomputer (GPU) tot 12 miljoen woorden. Dat is alsof je een heel boek in één keer kunt lezen zonder je hoofd te breken.
  • Snelheid: Het is niet alleen sneller, het is lineair sneller. Als je het verhaal verdubbelt, verdubbelt de tijd. Bij de oude methode zou de tijd vier keer zo lang duren.
  • Toekomst: Dit betekent dat we binnenkort AI-modellen kunnen trainen die hele boeken, lange video's of jaren aan gesprekken in één keer kunnen begrijpen, zonder dat de computer het opgeeft.

Kort samengevat:
RACE Attention is als het vervangen van een trage, perfectionistische bibliothecaris die alles handmatig checkt, door een slimme, snelle robot die slimme groepen maakt en alleen de relevante informatie pakt. Hierdoor kunnen we AI veel langer en slimmer laten denken, zelfs op hardware die we vandaag al hebben.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →