Each language version is independently generated for its own context, not a direct translation.
De "Verdwaalde in het Midden" Theorie: Waarom AI's het Midden van een Zin Vergeten
Stel je voor dat je een heel lang verhaal leest aan een vriend. Je begint met een spannende introductie, vertelt een lang verhaal in het midden, en eindigt met een krachtige conclusie.
Volgens dit nieuwe onderzoek van Borun D. Chowdhury (van Meta) is er een vreemd probleem met moderne AI-modellen (zoals ChatGPT of Qwen): ze onthouden het begin en het einde van je verhaal perfect, maar vergeten bijna alles wat er in het midden staat. Dit noemen onderzoekers "Lost in the Middle" (Verdwaald in het Midden).
De meeste mensen dachten dat dit kwam omdat de AI tijdens het leren bepaalde trucjes leerde, of omdat de manier waarop de AI "telt" (positional encoding) niet goed werkte.
Maar dit papier zegt iets heel verrassends:
Het probleem zit erin dat de AI nog niet eens is begonnen met leren. Het probleem is er vanaf het allereerste moment dat de AI wordt "geboren" (geïnitieerd), zelfs voordat hij één woord heeft gelezen. Het is een gebrek aan de bouwplaat zelf.
Hier is de uitleg in simpele taal met een paar creatieve vergelijkingen:
1. De Bouwplaat is Scheef (De Geometrie)
Stel je de AI voor als een gebouw met 24 verdiepingen (lagen). Elk stukje informatie (elk woord) moet door deze 24 verdiepingen reizen om het antwoord te vormen.
- Het Begin (De "Primacy Tail"): Woorden aan het begin van de zin hebben een superkracht. Ze zitten aan de basis van een enorme trechter. Als je door 24 lagen heen kijkt, worden de signalen van het begin steeds sterker en sterker samengevoegd. Het is alsof je een blikje bier schudt: de bubbels (signalen) van onderaan komen met enorme kracht naar boven.
- Het Einde (De "Recency Anchor"): Woorden aan het allerlaatste einde hebben een andere truc. Ze hebben een lift (de "residual connection"). Ze hoeven niet door de moeilijke trechter te klimmen; ze kunnen direct naar de uitgang springen. Ze zijn als een VIP-gast die een achterdeur heeft.
- Het Midden (De "Dead Zone"): Woorden in het midden hebben pech. Ze hebben geen trechter die hen versterkt, en ze hebben geen lift. Ze moeten een lange, saaie weg afleggen waarbij hun signaal bij elke verdieping een beetje wordt verwaterd. Na 24 verdiepingen is hun signaal zo zwak dat het bijna verdwijnt.
2. Waarom is dit een probleem?
De auteur noemt dit een "O(1/(H-1)!)" doodzone. Dat klinkt als wiskundige onzin, maar het betekent simpelweg:
- Hoe dieper het gebouw (meer lagen), hoe onmogelijker het wordt voor het midden om te overleven.
- Het is een wiskundige vallei. De AI probeert tijdens het leren om deze vallei te overbruggen, maar de helling is zo steil dat de AI liever terugvalt op het begin en het einde. Het is de "weg van de minste weerstand".
3. De Rol van de "Rotary Position Embeddings" (RoPE)
Veel ingenieurs dachten: "Oh, het probleem is dat de AI niet goed kan tellen waar woorden staan (RoPE). Als we dat verbeteren, is het probleem opgelost."
Dit papier zegt: Nee.
De auteur toont aan dat je RoPE kunt uitzetten of aanpassen, en het probleem blijft exact hetzelfde. Het is alsof je probeert een lekke band te repareren door de kleur van de auto te veranderen. Het probleem zit in de wielen (de architectuur), niet in de lak.
4. Wat betekent dit voor de toekomst?
De boodschap is niet dat we moeten opgeven, maar dat we de oorzaak eindelijk begrijpen.
- De realiteit: De AI is gebouwd met een "geometrisch vooroordeel" dat het midden van de tekst strakkeert.
- De oplossing: We kunnen niet wachten tot de AI dit vanzelf leert. We moeten de AI dwingen om het midden te waarderen, bijvoorbeeld door tijdens het trainen extra strafpunten te geven als hij het midden negeert, of door de trainingsdata zo te kiezen dat het midden vaak belangrijk is.
Samenvattend in één zin:
De "Lost in the Middle" problemen is geen foutje in de software die we kunnen patchen; het is een fundamenteel ontwerpfoutje in de hardware van de AI die ervoor zorgt dat woorden in het midden van een tekst wiskundig gezien "verdwijnen" voordat de AI überhaupt begint met denken.