Length Generalization Bounds for Transformers

Deze paper bewijst dat er geen berekenbare lengte-generalisatiegrenzen bestaan voor CRASP (en dus ook niet voor transformers) met twee lagen, maar levert wel een optimale, berekenbare grens voor het positieve fragment van CRASP en fixed-precision transformers.

Andy Yang, Pascal Bergsträßer, Georg Zetzsche, David Chiang, Anthony W. Lin

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot (een Transformer, het type AI dat achter modellen als ChatGPT zit) traint om een spelletje te spelen. Je geeft de robot duizenden voorbeelden van korte zinnen, zoals "a b a" of "a a b b". De robot leert het patroon.

De grote vraag is: Kan deze robot het spel ook spelen als we hem een heel lange zin geven, bijvoorbeeld met 10.000 letters, terwijl hij alleen korte zinnen heeft gezien? Dit noemen onderzoekers "lengte-generalisatie".

In dit paper onderzoeken de auteurs of we theoretisch kunnen garanderen dat zo'n robot dit altijd kan doen, en hoeveel voorbeelden hij daarvoor nodig heeft. Hier is wat ze hebben ontdekt, vertaald in simpele taal:

1. Het Grote Geheim: De "Onmogelijke" Robot

De auteurs hebben ontdekt dat voor de meeste moderne, krachtige AI-modellen (die we "Transformers" noemen) er geen garantie bestaat dat ze lengte-generalisatie kunnen leren.

De Analogie:
Stel je voor dat je een sleutelbos hebt om een reeks deuren te openen.

  • Bij een simpele robot (met één laag) kun je zeggen: "Als je de eerste 100 deuren hebt geopend, weet je zeker dat je de 101e ook kunt openen."
  • Maar bij een slimme robot (met twee lagen of meer) is het alsof de deuren naar een onbekend land leiden. De auteurs bewijzen dat er geen enkele formule of rekenregel bestaat die kan voorspellen hoeveel deuren je moet openen voordat je zeker weet dat je het land kunt betreden.

Het is alsof je probeert te voorspellen of een willekeurige wiskundige vergelijking een oplossing heeft. Soms is het antwoord "nee", en soms is het antwoord "ja", maar je kunt nooit van tevoren zeggen hoeveel tijd of hoeveel getallen je moet checken om het zeker te weten. Voor deze robots betekent dit: Je kunt nooit zeker weten of je genoeg trainingdata hebt gehad. Je kunt 100.000 voorbeelden geven, en de robot faalt nog steeds bij een iets langere zin.

2. De Uitzondering: De "Beperkte" Robot

Gelukkig is er een goed nieuws. De auteurs kijken naar een speciale, iets minder krachtige versie van de robot: de "Fixed-Precision Transformer". Dit is een robot die niet oneindig nauwkeurig kan rekenen, maar werkt met een vast aantal decimalen (zoals een rekenmachine met beperkte precisie).

De Analogie:
Stel je voor dat deze robot een rekenmachine is in plaats van een wiskundige genie. Hij kan niet tot in het oneindige tellen, maar wel tot een heel groot getal.

  • Voor deze rekenmachine-robot kunnen we wel een garantie geven.
  • Ze hebben bewezen dat als je deze robot traint, je hem wel kunt laten slagen voor langere zinnen, maar er is een prijs: je moet hem oefenen met zinnen die exponentieel langer zijn dan de zinnen die hij moet leren.

Wat betekent "exponentieel"?
Stel je voor dat je een robot traint om een woord van 10 letters te herkennen.

  • Een normale robot zou misschien 20 of 30 letters nodig hebben om het te leren.
  • Deze "Fixed-Precision" robot heeft echter misschien 1.000.000 letters nodig om hetzelfde te leren.
  • Als je het woord verdubbelt naar 20 letters, moet hij misschien 1.000.000.000.000 letters zien.

Het is alsof je een kind leert tellen. Als je het leert tellen tot 10, moet je het misschien 100 keer oefenen. Maar als je het leert tellen tot 100, moet je het misschien een biljoen keer oefenen. Het is mogelijk, maar het kost enorm veel tijd en ruimte.

3. Waarom is dit belangrijk?

Vandaag de dag zien we dat AI-modellen soms heel goed zijn in het uitbreiden van hun kennis (bijvoorbeeld van korte zinnen naar lange zinnen), maar soms ook volledig falen. Dit hangt vaak af van toevalligheden, zoals hoe de robot is opgestart of welke leerinstellingen je kiest.

Dit paper legt uit waarom dit zo lastig is:

  • Voor de krachtige modellen is het probleem fundamenteel onoplosbaar. Er is geen "magische formule" die zegt: "Als je 1000 voorbeelden ziet, werkt het altijd." Soms moet je oneindig veel voorbeelden zien, en dat is onmogelijk.
  • Voor de beperkte modellen is het wel oplosbaar, maar de kosten (de hoeveelheid data die je nodig hebt) exploderen zo snel dat het in de praktijk vaak onhaalbaar wordt.

Samenvattend

De auteurs zeggen eigenlijk:

"We dachten dat we misschien een regel konden vinden die zegt: 'Als je AI maar lang genoeg traint, kan hij alles doen, ook met heel lange zinnen.' Maar dat is niet waar. Voor de slimste modellen is het een onoplosbaar raadsel. Voor de iets slimmere, maar beperkte modellen is het wel oplosbaar, maar dan moet je ze oefenen met zinnen die zo lang zijn dat ze de hele wereld vullen."

Dit verklaart waarom het zo moeilijk is om AI-modellen betrouwbaar te maken voor taken met zeer lange teksten (zoals het samenvatten van een heel boek), en waarom het soms lijkt alsof de AI "zomaar" faalt, zelfs als je denkt dat je hem goed hebt getraind.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →