Length Generalization Bounds for Transformers

Diese Arbeit beweist, dass für Transformer-Modelle und die zugehörige Sprachklasse CRASP keine berechenbaren Generalisierungsgrenzen existieren, liefert jedoch für den positiven Teil von CRASP und festgenaue Transformer-Modelle optimale exponentielle Schranken.

Andy Yang, Pascal Bergsträßer, Georg Zetzsche, David Chiang, Anthony W. Lin

Veröffentlicht 2026-03-04
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Die große Frage: Können KI-Modelle „in die Ferne" sehen?

Stell dir vor, du unterrichtest einen Schüler (das KI-Modell) in Mathe. Du gibst ihm nur Aufgaben mit Zahlen bis 100 (das ist dein Trainingsdaten). Die Frage ist: Wird dieser Schüler auch Aufgaben mit Zahlen bis 1.000 oder 1 Million richtig lösen können, ohne dass er diese spezifischen Zahlen je gesehen hat?

Das nennt man Längen-Verallgemeinerung (Length Generalization). In der Welt der modernen KI (Transformern) ist das ein riesiges Problem. Oft lernen Modelle Muster, die nur für kurze Texte funktionieren, und scheitern, wenn die Texte länger werden.

Dieses Paper stellt eine fundamentale Frage: Gibt es eine mathematische Garantie dafür, dass wir wissen, wie viel Training nötig ist, damit ein Transformer auch lange Texte versteht?

Die Antwort der Autoren ist überraschend und in zwei Teile gespalten:


Teil 1: Das böse Ungeheuer (Allgemeine Transformer)

Die Erkenntnis: Für normale Transformer-Modelle gibt es keine Garantie. Es ist mathematisch unmöglich, vorherzusagen, wie viel Training nötig ist.

Die Analogie:
Stell dir vor, du versuchst, einen Detektiv zu trainieren, der Verbrechen aufklären soll. Du zeigst ihm nur Fälle, die in kleinen Häusern passiert sind.
Die Autoren sagen: „Es gibt keine Formel, die dir sagen kann: 'Wenn du ihm 100 kleine Fälle zeigst, wird er auch Fälle in Wolkenkratzern lösen können.'"

Warum? Weil die Logik, die diese Modelle verwenden (im Paper C-RASP genannt), so mächtig ist, dass sie Probleme lösen kann, die so komplex sind, dass sie mit dem Hilbertschen 10. Problem (einem berühmten mathematischen Rätsel über Gleichungen) gleichgesetzt werden können.

Das Bild:
Es ist, als würdest du versuchen, die Länge einer Schnur zu messen, die sich in ein Labyrinth verwandelt, das sich selbst ständig neu erfindet. Die Schnur könnte theoretisch unendlich lang sein, oder sie könnte so schnell wachsen, dass kein Computer sie jemals berechnen könnte (schneller als die berühmte Ackermann-Funktion, die schon für winzige Zahlen gigantisch wird).

Die Konsequenz:
Wenn du ein normales Transformer-Modell trainierst, weißt du nie wirklich, ob es genug gelernt hat, um lange Texte zu verstehen. Du könntest Millionen von Beispielen geben, und es könnte trotzdem bei einem etwas längeren Text versagen. Es gibt keine „Sicherheitsgrenze", die du berechnen kannst.


Teil 2: Der disziplinierte Schüler (Fixed-Precision Transformer)

Die Erkenntnis: Es gibt aber eine Ausnahme! Wenn man die Modelle etwas einschränkt (man nennt sie Fixed-Precision Transformer oder „Transformer mit fester Genauigkeit"), dann funktioniert die Garantie wieder.

Die Analogie:
Stell dir vor, du nimmst dem Detektiv eine Brille ab, die ihm erlaubt, unendlich feine Details zu sehen, und gibst ihm stattdessen eine Brille, die nur grobe Strukturen erkennt. Er kann nicht mehr jedes winzige Detail zählen, aber er kann klare Muster erkennen.

In diesem eingeschränkten Szenario gibt es eine klare Regel:
Um sicherzustellen, dass das Modell lange Texte versteht, musst du ihm exponentiell viele Beispiele zeigen.

Was bedeutet „exponentiell"?
Stell dir vor, du lernst ein neues Wort.

  • Um ein Wort mit 1 Buchstabe zu lernen, brauchst du 2 Beispiele.
  • Um ein Wort mit 2 Buchstaben zu lernen, brauchst du 4 Beispiele.
  • Um ein Wort mit 10 Buchstaben zu lernen, brauchst du 1.024 Beispiele.
  • Um ein Wort mit 20 Buchstaben zu lernen, brauchst du schon über eine Million Beispiele.

Das ist die exponentielle Kurve. Die Autoren sagen: „Ja, es ist möglich, eine Garantie zu geben. Aber der Preis ist hoch: Du musst dem Modell eine riesige Menge an Daten zeigen, die exponentiell mit der Komplexität des Problems wächst."

Das Bild:
Es ist wie beim Lernen eines neuen Spiels. Wenn die Regeln einfach sind (Fixed-Precision), kannst du sagen: „Wenn du 100 Runden gegen den Computer spielst, wirst du das Spiel auch gegen einen Profi beherrschen." Aber wenn das Spiel extrem komplex ist (normale Transformer), gibt es keine solche Regel. Du könntest 100 Jahre spielen und immer noch scheitern, weil die Komplexität des Spiels sich in einer Weise verändert, die man nicht vorhersagen kann.


Zusammenfassung für den Alltag

  1. Das Problem: Wir wissen oft nicht, warum KI-Modelle bei langen Texten versagen.
  2. Die schlechte Nachricht: Für die mächtigen Modelle, die wir heute nutzen, gibt es keine mathematische Garantie. Man kann nicht berechnen, wie viel Training nötig ist, um sicherzugehen, dass sie funktionieren. Es ist wie ein mathematisches „Unmögliches".
  3. Die gute (aber teure) Nachricht: Wenn man die Modelle etwas „dümmer" macht (indem man ihre Rechengenauigkeit begrenzt), gibt es eine Garantie. Aber diese Garantie verlangt, dass man sie mit unvorstellbar vielen Beispielen trainiert (exponentiell viele).
  4. Der Grund für aktuelle Probleme: Vielleicht ist das der Grund, warum KI-Modelle in der Praxis oft bei langen Texten versagen. Um sie perfekt zu machen, bräuchten wir theoretisch Datenmengen, die so groß sind, dass wir sie gar nicht sammeln können.

Fazit: Die Autoren haben bewiesen, dass wir bei den aktuellen KI-Modellen im Dunkeln tappen, wenn es um die Vorhersage von Längen-Verallgemeinerung geht. Es gibt keinen „Schalter", den man umlegen kann, um sicherzustellen, dass das Modell für lange Texte bereit ist. Entweder ist es unmöglich zu garantieren, oder es ist so teuer (in Daten), dass es unpraktisch ist.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →