Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink

Dit artikel analyseert de neiging tot 'stochastisch parrotten' in tijdsattentie door een theoretische afleiding van gevoeligheidsgrenzen, waarbij het een diagonale 'attention sink' en een bias naar de eerste tokens onthult die door regularisatiemethoden kan worden tegengegaan.

Victoria Hankemeier, Malte Schilling

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom AI soms "in de war" raakt over tijd en hoe we dat oplossen

Stel je voor dat je een superintelligente robot hebt die de verkeersdrukte in een stad moet voorspellen. Deze robot kijkt naar een lange reeks beelden van het verleden om te zien wat er nu gebeurt en wat er straks gaat gebeuren. Dit noemen we een spatio-temporaal model (ruimtelijk en tijdelijk).

Het probleem is dat deze robot soms vergeten raakt wat er nu gebeurt, en zich alleen nog maar concentreert op het verleden of zichzelf. De auteurs van dit papier hebben ontdekt waarom dit gebeurt en hoe we het kunnen fixen.

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Stille Zaal" en de "Echo"

In de wereld van AI zijn er twee bekende problemen:

  • Over-squashing: Als je te veel informatie probeert te proppen in een te klein kopje, lekt het eruit. In een AI betekent dit dat informatie van verre plekken (bijvoorbeeld een verkeersfile in een andere stad) niet goed door de robot wordt begrepen.
  • Over-smoothing: Alles begint op elkaar te lijken. De robot denkt dat het verkeer in Amsterdam hetzelfde is als in Groningen, omdat hij de verschillen niet meer ziet.

Maar dit papier focust op iets nieuws: Stochastisch Parroting (willekeurig in de war raken).

Stel je voor dat de robot een lange vergadering bijwoont. Hij luistert naar iedereen, maar door een technisch foutje (de "diagonale zink") begint hij alleen maar naar zichzelf te luisteren. Hij denkt: "Ik hoor mijn eigen stem, dus dat is het belangrijkste."
In de AI-taal betekent dit dat de robot bij elke tijdstap vooral naar zichzelf kijkt in plaats van naar de andere tijdstappen. Hij wordt een "parrot" (papegaai) die alleen maar zijn eigen eerdere woorden herhaalt, in plaats van nieuwe informatie te verwerken.

2. De Oorzaak: De "Zelf-Liefde" van de AI

De auteurs hebben wiskundig bewezen waarom dit gebeurt.
In een normale vergadering zou je naar de spreker kijken die iets belangrijks zegt. Maar in deze AI-architectuur is er een "residueel pad" (een soort snelle route voor informatie). Dit pad zorgt ervoor dat de robot zijn eigen huidige gedachte heel sterk blijft vasthouden.

Bovendien, hoe langer de vergadering (de reeks data) duurt, hoe meer de robot vergeten raakt wat er eerder is gezegd. De informatie van het verleden wordt zo klein dat hij het negeert. De robot raakt in een staat van "stille zelf-reflectie" en stopt met kijken naar de buitenwereld.

3. De Oplossing: De "Discipline" in de Vergadering

De auteurs zeggen: "We moeten de robot dwingen om ook naar anderen te kijken, niet alleen naar zichzelf."

Ze hebben drie manieren bedacht om dit te regelen, alsof je een leraar bent die de klas tot rust moet brengen:

  1. De Zelf-Verbod (Diagonale Maskering): Je zegt de robot: "Kijk niet naar jezelf!" (Je blokkeert de spiegel).
    • Resultaat: Dit werkt niet goed. De robot raakt dan helemaal in de war en stopt met leren, omdat hij zijn eigen basisinformatie kwijtraakt.
  2. De "Slaap" (Dropout): Je zegt de robot: "Soms mag je niet naar jezelf kijken, maar soms wel." Je maakt het een beetje willekeurig.
    • Resultaat: Dit werkt! De robot leert om ook naar de andere sprekers te luisteren.
  3. De "Boete" (Negatieve Straf): Je zegt de robot: "Als je naar jezelf kijkt, krijg je een boete." Je maakt het minder aantrekkelijk om naar jezelf te kijken.
    • Resultaat: Dit werkt ook heel goed! De robot leert dat het belangrijker is om naar de omgeving te kijken.

4. Wat hebben ze getest?

Ze hebben dit getest op een echt verkeersdataset (verkeer in Los Angeles).

  • Zonder oplossing: De robot maakte veel fouten en keek alleen naar zichzelf.
  • Met de "Boete" of "Slaap": De robot werd veel slimmer. Hij keek beter naar het verleden en de omgeving, en maakte minder fouten in zijn voorspellingen.

De Grote Les

De kernboodschap is: Als je een AI-model bouwt dat over tijd werkt, moet je oppassen dat hij niet in een "echo-kamer" belandt waar hij alleen maar naar zichzelf luistert. Door een beetje "discipline" toe te passen (zoals een kleine boete voor zelfkijken), kun je de robot dwingen om echt naar de wereld om hem heen te kijken en betere voorspellingen te doen.

Kortom: De robot moet niet alleen in de spiegel kijken, maar ook uit het raam!