Data-Aware Random Feature Kernel for Transformers

DARKFormer introduceert een data-bewuste random-feature kernel die door het aanpassen van de projectiecovariantie aan de inputgeometrie de Monte Carlo-variatie verlaagt en zo de prestaties van lineaire attention-mechanismen dichter bij die van exacte softmax-attention brengt, vooral bij het finetunen van anisotrope modellen.

Amirhossein Farzam, Hossein Mobahi, Nolan Andrew Miller, Luke Sernau

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De "Slimme Kompas" voor AI: Een Simpele Uitleg van DARKFormer

Stel je voor dat een moderne AI (zoals een chatbot) een enorme bibliotheek is met miljarden boeken. Om een vraag te beantwoorden, moet deze AI snel bladeren door al die boeken om de meest relevante stukjes tekst te vinden. Dit proces heet "aandacht" (attention).

Het probleem? De huidige manier waarop AI dit doet, is als een detective die elk boek in de bibliotheek één voor één openleest, van begin tot eind, voordat hij een conclusie trekt. Als de bibliotheek heel groot is (lange zinnen of documenten), kost dit enorm veel tijd en energie. Het is alsof je een hele stad moet doorzoeken om een specifieke straatnaam te vinden, terwijl je eigenlijk alleen naar de noordoosthoek hoeft te kijken.

Het Oude Probleem: De "Willekeurige" Zoektocht

Om dit sneller te maken, hebben wetenschappers een truc bedacht (zoals in het model Performer). In plaats van elk boek te lezen, gooien ze een paar willekeurige pijlen de bibliotheek in. Waar de pijlen landen, daar kijken ze.

  • De truc: Als de pijlen willekeurig genoeg zijn, vinden ze gemiddeld wel de goede plek.
  • Het nadeel: In de echte wereld zijn boeken niet willekeurig verspreid. Ze liggen in specifieke schappen (bijvoorbeeld: alle kookboeken bij elkaar, alle sci-fi bij elkaar). Als je willekeurige pijlen gooit, land je vaak in lege gangen of op plekken waar geen interessante boeken staan. Je moet dus veel meer pijlen gooien om zeker te zijn dat je de goede plek vindt. Dat kost weer veel tijd.

In de taal van AI: de "vragen" (queries) en "antwoorden" (keys) van de AI zijn vaak niet willekeurig verdeeld, maar geconcentreerd in bepaalde richtingen. Willekeurig zoeken werkt dan slecht.

De Oplossing: DARKFormer (De Data-Aware Kompas)

De onderzoekers van Google DeepMind hebben een nieuwe methode bedacht: DARKFormer.

Stel je voor dat je in plaats van willekeurige pijlen te gooien, een slim kompas hebt dat de bibliotheek al kent.

  1. Het leert de indeling: De AI kijkt eerst even naar de boekenplanken en leert: "Ah, hier zitten de kookboeken, daar de sci-fi."
  2. Het past de zoekrichting aan: In plaats van pijlen willekeurig te gooien, gooit de AI zijn pijlen slimmer. Hij gooit meer pijlen naar de volle schappen (waar de interessante boeken zitten) en minder naar de lege gangen.
  3. Het resultaat: Je vindt de juiste informatie met veel minder pijlen. Je hebt minder rekenkracht nodig, maar je krijgt net zo goede (of zelfs betere) resultaten.

Hoe werkt het precies? (Met een Metafoor)

In de wiskunde van de AI gebruiken ze een truc genaamd "Mahalanobis-afstand". Laten we dit vergelijken met het rekenen in een verstoord landschap:

  • Normale AI: Stel je voor dat je loopt in een landschap waar de grond overal even hard is. Je loopt 10 stappen en denkt dat je 10 meter vooruit bent. Maar in werkelijkheid is de grond in sommige richtingen modderig (je zakt in) en in andere richtingen glad (je glijdt weg). De AI denkt dat 10 stappen altijd 10 meter is, maar dat klopt niet.
  • DARKFormer: Deze AI heeft een GPS die de modder en het gladde ijs herkent. Hij zegt: "In deze modderige richting moet ik 20 stappen doen om 10 meter vooruit te komen, maar in die gladde richting volstaan 5 stappen."
  • Het effect: Door deze "GPS" (die ze een leerbare covariantiematrix noemen) aan te passen, kan de AI de afstand tussen woorden veel nauwkeuriger meten, zelfs als de data (de woorden) scheef of ongelijkmatig verdeeld zijn.

Waarom is dit zo belangrijk?

  1. Snelheid en Kosten: Omdat je minder "pijlen" (rekenstappen) nodig hebt, werkt de AI sneller en goedkoper. Dit is cruciaal voor het verwerken van hele lange documenten of video's.
  2. Finetuning (Aanpassen): Vaak hebben mensen een AI die al is getraind (een "pre-trained" model) en willen ze die alleen nog maar aanpassen voor een specifieke taak. Normaal gesproken moet je dan heel veel rekenkracht gebruiken om de AI weer "in evenwicht" te krijgen. DARKFormer past zich automatisch aan de bestaande onbalans aan. Het is alsof je een auto niet hoeft te herbouwen, maar alleen de wielen een beetje bijstelt om beter over de modder te rijden.
  3. Stabiliteit: De AI wordt rustiger. Hij maakt minder "paniekreacties" tijdens het leren, wat betekent dat hij makkelijker en betrouwbaarder te trainen is.

Samenvattend

DARKFormer is als het verschil tussen een detective die blindelings de hele stad doorloopt, en een detective die een slimme kaart heeft die precies aangeeft waar de dader waarschijnlijk zit.

  • Oude manier: Veel werk, veel tijd, veel fouten als de stad groot is.
  • DARKFormer: Slimme aanpassing, minder werk, sneller resultaat, en het werkt zelfs als je de detective niet van scratch hoeft op te leiden.

Dit maakt het mogelijk om krachtige AI's te gebruiken op apparaten met minder rekenkracht (zoals je telefoon) of voor taken die tot nu toe te duur of te traag waren, zoals het analyseren van urenlange video's of medische dossiers.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →