Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Dit paper introduceert een efficiëntere Transformer-architectuur die de dichte output-projectie in multi-head attention vervangt door een vaste Walsh-Hadamard-transformatie gecombineerd met een lichte affiene herschaling, wat resulteert in een aanzienlijke vermindering van parameters, geheugengebruik en inferentiekosten zonder in te leveren op prestaties.

Shubham Aggarwal, Lokendra Kumar

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een slimme chatbot) een enorme bibliotheek is met miljoenen boeken. Om een vraag te beantwoorden, moet deze bibliotheek snel bladeren door duizenden pagina's, informatie uit verschillende boeken halen en die informatie samenvoegen tot één duidelijk antwoord.

In de wereld van AI heet dit proces "Multi-Head Attention". Het is alsof de AI duizenden kleine detectives (de "heads") heeft die elk een stukje van het verhaal onderzoeken. Aan het einde moeten al deze detectives hun bevindingen samenvoegen.

Het probleem: De "Dure Samenvoeger"
In de huidige AI-modellen is er een speciale kamer waar al deze detectives hun notities inleveren. Daar staat een enorme, zware machine (een "dichte projectie") die alles samenvoegt.

  • Het nadeel: Deze machine is gigantisch. Hij heeft duizenden knoppen en schakelaars (parameters) nodig om te werken. Hij is zwaar, neemt veel ruimte in op de computer (geheugen) en is traag om te draaien. Het is alsof je een vrachtwagen gebruikt om een postzegel te vervoeren: het werkt, maar het is enorm inefficiënt.

De oplossing: De "Hadamard-Magie"
De auteurs van dit paper hebben bedacht: "Waarom gebruiken we die zware, dure machine als we een slimme, vaste structuur kunnen gebruiken?"

Ze hebben die zware machine vervangen door iets dat lijkt op een Wiskundige Dans (de Walsh-Hadamard Transformatie).

Hier is hoe het werkt, in simpele termen:

  1. Geen nieuwe knoppen nodig: De oude machine had duizenden instelbare knoppen die geleerd moesten worden. De nieuwe "dans" is vast. Je hoeft niets te leren; het is een vooraf bepaald patroon van optellen en aftrekken. Het is alsof je in plaats van een dure, gepersonaliseerde vertaler, een standaard, perfect geoliede machine gebruikt die altijd precies hetzelfde doet.
  2. De Dansstijl: In plaats van dat elke detective met elke andere detective praat (wat chaos en veel werk veroorzaakt), dansen ze in een strakke, vaste formatie. Ze wisselen informatie uit door simpelweg hun notities bij elkaar op te tellen of te vermenigvuldigen met een minteken. Dit gebeurt razendsnel.
  3. De "Rescale" (Opnieuw afstemmen): Omdat de dans zo strak is, voegen ze er een klein, leerbaar laagje aan toe (een simpele schaalvergroting). Dit zorgt ervoor dat de informatie netjes blijft passen, zonder dat je de hele zware machine nodig hebt.

Wat levert dit op? (De voordelen)

  • Minder gewicht: De AI wordt ongeveer 25% lichter in de "attentie"-delen. Het is alsof je een zware rugzak verwisselt voor een lichte tas.
  • Sneller rijden: Omdat de machine minder knoppen heeft en de "dans" sneller is dan het oude systeem, kan de AI meer vragen per seconde beantwoorden. Op grote schaal is dit tot 6,6% sneller.
  • Minder geheugen: De computer hoeft minder ruimte te reserveren. Dit betekent dat je op dezelfde computer grotere modellen kunt draaien of meer mensen tegelijk kunt bedienen.
  • Net zo slim: Het belangrijkste: de AI wordt niet dommer. Hij leert nog steeds net zo goed, omdat de "dans" ervoor zorgt dat alle detectives nog steeds goed met elkaar communiceren, alleen dan op een slimmere manier.

De analogie van de fabriek
Stel je een fabriek voor waar duizenden werknemers (de AI) producten maken.

  • Oude manier: Elke werknemer moet zijn werkstuk naar één enorme, rommelige centrale hal brengen waar een team van duizenden managers (de zware machine) elk stukje handmatig controleert en herschikt. Dit kost veel tijd en geld.
  • Nieuwe manier: De werknemers lopen door een automatische band met een vast patroon van schuiven en draaien (de Hadamard-dans). Er zijn geen managers meer nodig om het te regelen; het patroon doet het werk. Aan het einde kijkt één kleine supervisor even of alles goed staat (de kleine aanpassing).
  • Resultaat: De fabriek draait sneller, kost minder geld en de producten zijn net zo goed.

Conclusie
De auteurs zeggen eigenlijk: "We hebben jarenlang gedacht dat we die zware, dure machine nodig hadden om slim te zijn. Maar we ontdekten dat een slimme, vaste dans net zo goed werkt, maar veel minder energie en ruimte kost."

Dit is een stap in de richting van AI's die sneller, goedkoper en milieuvriendelijker zijn, zonder in te leveren op intelligentie.