Understanding Transformers through the Lens of Pavlovian Conditioning

Dit artikel stelt een nieuw theoretisch kader voor dat het centrale aandachtsmechanisme in Transformers herinterpreteert als pavloviaanse conditionering, waarbij queries, keys en values worden gekoppeld aan teststimuli, conditionele stimuli en onvoorwaardelijke stimuli om wiskundige inzichten te verkrijgen in associatief geheugenvermogen, foutpropagatie en biologisch plausibele leerverbinten.

Oorspronkelijke auteurs: Mu Qiao

Gepubliceerd 2026-05-07
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Mu Qiao

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hond traint om te kwijlen wanneer hij een bel hoort. Je luidt de bel (het signaal) en geeft direct voedsel (de beloning). Na een paar keer doet de hond dit, leert de hond de bel te koppelen aan het voedsel. Dit is Pavloviaanse conditionering, een basisvorm van leren die in de natuur voorkomt.

Dit artikel betoogt dat het "brein" van moderne AI (een Transformer genoemd) werkt volgens een verrassend vergelijkbaar principe. In plaats van een complexe, mysterieuze wiskundige machine te zijn, suggereren de auteurs dat we het kunnen begrijpen als een gigantisch, hoogwaardig systeem van associatief leren, net zoals de hond en de bel.

Hier is de uiteenzetting van hun idee met eenvoudige analogieën:

1. De Drie Rollen: De Bel, Het Voedsel en De Test

In een standaard Transformer zijn er drie hoofdonderdelen: Queries, Keys en Values. Het artikel koppelt deze direct aan de drie onderdelen van dierlijke conditionering:

  • De Keys (De Bel): Dit zijn de "signalen" of patronen in de tekst. In de hond-analogie is dit het rinkelen van de bel. Het vertelt het systeem: "Hé, hier gebeurt iets bekends."
  • De Values (Het Voedsel): Dit zijn de daadwerkelijke "antwoorden" of informatie. In de hond-analogie is dit het voedsel. Het is het antwoord dat het systeem wil produceren.
  • De Queries (De Test): Dit is de huidige vraag of prompt die de AI probeert te beantwoorden. Het is alsof een onderzoeker de bel luidt om te zien of de hond kwijlt. De Query kijkt naar de Keys om te zeggen: "Komt dit signaal overeen met wat ik zoek?"

2. Hoe Het Loopt: De "Hebbiaanse" Lijm

Het artikel suggereert dat wanneer de AI een zin leest, het niet zomaar gegevens "opslaat" op een harde schijf. In plaats daarvan bouwt het tijdelijke bruggen tussen signalen en antwoorden.

  • Het Proces: Stel je een kamer vol mensen voor. Elke keer dat een specifieke persoon (Key) binnenkomt en een specifiek woord (Value) zegt, wordt er een post-it op de muur geplakt die hen verbindt.
  • De Regel: Het artikel noemt dit een Hebbiaanse regel, wat een ingewikkelde manier is om te zeggen "neuronen die samen vuren, verbinden zich". Als een Key en een Value vaak samen voorkomen, wordt de verbinding tussen hen sterker.
  • Het Resultaat: Wanneer een nieuwe Query binnenkomt (een nieuwe persoon die een vraag stelt), kijkt het naar de post-its. Als de Query klinkt als een Key die een post-it heeft, pakt de AI de bijbehorende Value (het antwoord) en gebruikt deze.

3. De "Lineaire" Kortweg

Echte Transformers zijn zeer complex. Om hun punt te bewijzen, vereenvoudigden de auteurs de wiskunde tot een versie genaamd Lineaire Attention. Ze toonden aan dat deze vereenvoudigde versie wiskundig identiek is aan hun "Pavloviaanse" model.

Denk hieraan als volgt: Als je de sierlijke decoraties van een motorkap weghaalt, vind je de basiszuigers en tandwielen. De auteurs ontdekten dat de "zuigers" van de AI eigenlijk gewoon deze tijdelijke associaties bouwen, precies zoals de hond de bel leert kennen.

4. De Grenzen: Geheugen is een Emmer, Geen Bibliotheek

Een van de belangrijkste bevindingen gaat over capaciteit. Het artikel betoogt dat dit "post-it" systeem een limiet heeft.

  • De Analogie: Stel je je geheugen voor als een emmer. Je kunt een paar associaties erin laten vallen en ze blijven helder. Maar als je steeds meer associaties blijft laten vallen, beginnen ze tegen elkaar aan te botsen. De emmer raakt vol, en de oude notities worden modderig of gaan verloren.
  • De Wiskunde: Het artikel bewijst dat het aantal dingen dat de AI perfect kan onthouden, afhangt van de grootte van zijn "emmer" (de dimensie van zijn interne ruimte). Als je probeert te veel dingen tegelijk te onthouden, begint de AI fouten te maken.

5. Diep versus Breed: De Kaartentoren

Het artikel bekijkt ook wat er gebeurt als je veel lagen van dit systeem op elkaar stapelt (een "diepe" AI maken).

  • Het Probleem: Als je een toren van kaarten hebt en de onderste kaart is een beetje wankel, wordt die wankelheid erger naarmate je hoger komt. Bij AI, als de eerste laag een klein foutje maakt in zijn associatie, versterkt de volgende laag die fout.
  • De Oplossing: De auteurs ontdekten dat je, om de toren overeind te houden, breedte nodig hebt, niet alleen hoogte.
    • Diep & Smal: Een hoge, smalle toren van kaarten. Deze is zeer fragiel. Een klein foutje onderaan maakt de hele toren kapot.
    • Breed & Ondiep: Een korte, brede toren. Deze is veel stabieler. De auteurs suggereren dat het hebben van veel "hoofden" (parallelle paden) werkt alsof er meerdere mensen de toren vasthouden, waardoor de wankelingen worden opgeheven.

6. Betere Leren Regels: De Fouten Repareren

Het artikel suggereert ook dat de basis "post-it" methode (standaard Hebbiaans leren) niet perfect is omdat het niet gemakkelijk dingen kan ontleren. Als de hond leert dat de bel voedsel betekent, maar het voedsel stopt dan met komen, blijft de hond nog een tijdje kwijlen.

De auteurs stellen het gebruik van slimmere regels voor (zoals de Delta Rule of Oja's Rule) die werken als een "correctiemechanisme".

  • Delta Rule: Als de AI het verkeerde antwoord voorspelt, "wis" hij actief de oude post-it en schrijft een nieuwe.
  • Oja's Rule: Dit zorgt ervoor dat het systeem niet te opgewonden raakt of "verzadigt", waardoor het geheugen stabiel blijft over tijd.

De Grote Conclusie

Het artikel concludeert dat de reden waarom moderne AI zo succesvol is, niet alleen ligt aan slimme engineering of nieuwe computerchips. Het is omdat deze modellen per ongeluk een fundamenteel principe van de natuur hebben herontdekt: leren door associatie.

Net zoals de evolutie miljoenen jaren heeft besteed aan het optimaliseren van hoe dieren signalen koppelen aan beloningen, heeft AI een wiskundige manier gevonden om exact hetzelfde te doen. De "magie" van de Transformer is simpelweg een zeer snelle, zeer grootschalige versie van dezelfde conditionering die plaatsvindt in het brein van een hond.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →