Tiny Autoregressive Recursive Models

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie denken kleine KI-Modelle?

Stell dir vor, du hast einen sehr schlauen, aber kleinen Roboter (ein KI-Modell). Deine Aufgabe ist es, ihm zu sagen: „Denk nach, bevor du antwortest."

In der Welt der KI gibt es zwei Hauptstrategien, wie man das macht:

Der tiefe Turm: Du baust den Roboter einfach höher. Er hat 12 Stockwerke (Schichten), durchläuft sie alle nacheinander und gibt dann eine Antwort. Das ist wie ein klassischer Hochhaus-Planer.
Der Nachdenker: Du gibst dem Roboter nur ein Stockwerk, aber er darf sich darin so lange hin- und herlaufen, bis er sich sicher ist, bevor er das nächste Stockwerk betritt. Das ist wie ein Detektiv, der einen Fall immer wieder neu durchdenkt, bevor er den nächsten Schritt macht.

Ein neues Modell namens TRM (Tiny Recursive Model) hat kürzlich gezeigt, dass der „Nachdenker"-Ansatz bei bestimmten Rätseln (wie dem ARC-AGI-Test) genial funktioniert. Es scheint, als ob kleine Modelle durch ständiges Nachdenken in sich selbst riesige Probleme lösen können.

Die Frage der Forscher

Die Autoren dieser Studie (aus Cambridge) haben sich gefragt: „Können wir diesen genialen 'Nachdenker'-Ansatz auch auf unsere normalen, sequenziellen Sprachmodelle übertragen?"

Normalerweise schreiben Sprachmodelle Wort für Wort. Die Idee war: Was wäre, wenn das Modell bei jedem einzelnen Wort erst ein paar Mal im Kopf nachdenkt (einen inneren Kreislauf durchläuft), bevor es das Wort tatsächlich ausspricht?

Der Experiment-Labor-Setup

Um das fair zu testen, haben die Forscher ein sehr strenges Labor aufgebaut. Stell dir das wie ein Rennen vor:

Die Regel: Alle Teilnehmer dürfen genau die gleiche Menge an „Gehirnarbeit" (Rechenleistung) verbrauchen.
Die Strecke: Alle müssen dieselbe Aufgabe lösen (z. B. Zahlen addieren, Wörter umdrehen oder Texte kopieren).
Die Unterschiede:
- Gruppe A (Der Turm): 12 verschiedene Stockwerke, jedes einmal durchlaufen.
- Gruppe B (Der Universal-Nachdenker): Ein Stockwerk, das 12 Mal hintereinander durchlaufen wird.
- Gruppe C (Der TRM-Style): Ein komplexes System mit einem „Lösungs-Stream" und einem „Denk-Stream", bei dem das Modell im Inneren mehrmals nachdenkt, bevor es das nächste Wort wählt.

Die überraschende Entdeckung

Das Ergebnis war für die Forscher eine ziemliche Überraschung und fast schon eine Enttäuschung für die TRM-Fans:

Der einfache Turm (Dense Transformer) war der Gewinner: Er hat die Aufgaben am besten gelöst.
Der Universal-Nachdenker (Universal Transformer) war okay: Er kam gut mit, aber bei schwierigen Aufgaben (wie dem Addieren mit Übertrag) hatte er Probleme.
Der komplexe TRM-Ansatz (Autoregressive TRM) war katastrophal: Das Modell, das so viel „inneres Nachdenken" eingebaut hatte, hat fast gar nichts verstanden. Es lag oft nur bei 10–12 % Richtigkeit – das ist fast so gut wie reines Raten.

Warum war das so? (Die Analogie)

Stell dir vor, du musst eine lange Kette von Zahlen addieren (z. B. 123 + 456 + ...).

Der Turm (Dense): Er baut eine stabile Brücke. Jeder Schritt ist fest mit dem vorherigen verbunden. Wenn er einen Fehler macht, merkt er das sofort und korrigiert ihn auf dem Weg nach unten.
Der komplexe Nachdenker (TRM): Er versucht, in jedem Schritt erst einen „Gedanken-Entwurf" zu machen, diesen zu verfeinern, und dann erst die Antwort zu geben. Das Problem ist: Die Kommunikation zwischen den Gedanken und der Antwort ist zu kompliziert.

Die Forscher fanden heraus, dass bei diesem komplexen „Inneren Nachdenken" die KI den Faden verliert. Es ist, als würde man versuchen, ein Haus zu bauen, indem man erst den Grundriss in Gedanken entwirft, dann den Entwurf korrigiert, dann den Entwurf nochmal korrigiert, und erst am Ende den ersten Stein setzt. In diesem Prozess gehen die wichtigen Details verloren, besonders wenn man lange Reihen addieren muss.

Die Lehre für die Zukunft

Die Studie sagt uns zwei wichtige Dinge:

Einfachheit siegt oft: Manchmal ist es besser, einen tiefen, klaren Turm zu bauen, als einen kleinen Raum mit vielen komplizierten Schleifen.
Nicht alles, was bei „Rätseln" funktioniert, funktioniert beim „Schreiben": Der TRM-Ansatz ist toll für statische Rätsel, aber wenn man ein Modell baut, das Wort für Wort schreibt (autoregressiv), bringt dieses komplexe „Nachdenken im Inneren" eher Nachteile als Vorteile.

Fazit: Die Idee, dass KI durch ständiges inneres Nachdenken besser wird, ist nicht falsch – aber die Art und Weise, wie wir das in unsere aktuellen Sprachmodelle einbauen, muss viel einfacher sein. Der „komplexe TRM"-Weg ist für kleine Modelle in diesem Setting leider ein Sackgasse. Besser ist es, die Rechenleistung in eine klare, tiefe Struktur zu stecken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Tiny Autoregressive Recursive Models

Autoren: Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar (University of Cambridge)
Veröffentlicht: ICLR 2026 Workshop on AI with Recursive Self-Improvement

1. Problemstellung

Kürzlich haben „Tiny Recursive Models" (TRMs) gezeigt, dass sehr kleine Modelle durch einen zweistufigen Verfeinerungsmechanismus (Update eines internen Reasoning-Zustands $z$ und der Ausgabe $y$ ) auf Benchmarks wie ARC-AGI mit großen Foundation-Modellen konkurrieren können. Dies wirft die Frage auf, ob dieser Mechanismus auch auf autoregressive Modelle (wie Standard-LLMs) übertragen werden kann, um die Generalisierung pro Recheneinheit zu verbessern.

Das zentrale Problem besteht darin, dass TRMs in ihrer ursprünglichen Form nicht direkt mit Standard-Autoregressionsmodellen vergleichbar sind, da sie:

Keine kausalen Vorhersagestrukturen besitzen (oft bidirektional).
Persistente latente Zustände über mehrere Vorwärtsdurchläufe hinweg beibehalten, was die Isolierung spezifischer Leistungsgewinne erschwert.

Die Autoren untersuchen daher die Hypothese des „Token-Level-Reasoning": Kann die Zuweisung von Iterationen innerhalb eines einzelnen Decodierungsschritts (vor der Ausgabe der Logits) die Generalisierung verbessern, wenn die Rechenressourcen (Anzahl der Block-Auswertungen) konstant gehalten werden?

2. Methodik

Die Studie führt eine kontrollierte Analyse unter dem Konzept der „Compute Placement" (Rechenplatzierung) durch. Das Ziel ist es, verschiedene Architekturen zu vergleichen, die exakt die gleiche Anzahl an Decoder-Block-Auswertungen pro Vorwärtsdurchlauf nutzen, sich aber in der Art und Weise unterscheiden, wie diese Berechnungen allokiert werden.

Das kontrollierte Setup:

Fixierte Variablen: Token-Stream, Next-Token-Objektiv (Cross-Entropy Loss), kausale Maskierung, KV-Cache-Semantik und die Decoder-Block-Struktur (Attention + MLP) bleiben über alle Modelle hinweg identisch. Es gibt keine Routing-Mechanismen (wie MoE) und keine Modifikation des Token-Streams (keine „Thinking-Tokens").
Die „Compute-Placement-Leiter": Die Autoren definieren eine Familie von sieben Modellen, die schrittweise von einem Standard-Transformer zu einer autoregressiven TRM-Variante übergehen. Jeder Schritt fügt genau einen Mechanismus hinzu:
1. Dense Transformer: Untied Depth (verschiedene Schichten).
2. Iterative Transformer: Weight Tying (Wiederverwendung desselben Blocks).
3. Iterative Step Transformer: Hinzufügen von Step-Embeddings zur Unterscheidung der Iterationen.
4. Universal Transformer (UT): Adaptive Computation Time (ACT) mit gewichteter Readout über alle Iterationen.
5. Dual UT: Zwei-Stream-Architektur (Lösungs-Stream $Y$ und Reasoning-Stream $Z$ ).
6. Dual Nested UT: Hierarchische Verschachtelung (mehrfache innere Verfeinerungen von $Z$ vor jeder Aktualisierung von $Y$ ).
7. Autoregressive TRM: Wie Dual Nested UT, aber mit binärem Halte-Mechanismus (Q-Halt) und Readout nur des finalen Iterationszustands.

Anpassung der TRM für Autoregression:
Um die TRM-Architektur in ein streng autoregressives Setting zu überführen, wurden zwei kritische Änderungen vorgenommen:

Kausalität: Bidirektionale Aufmerksamkeit wurde durch strikte kausale Maskierung ersetzt.
Kein Cross-Call Carry: Persistente latente Zustände, die über verschiedene Eingabe-Präfixe hinweg bestehen bleiben, wurden entfernt. Die latenten Streams werden bei jedem Vorwärtsdurchlauf neu initialisiert, sodass die Logits zum Zeitpunkt $t$ nur von $x_{<t}$ abhängen.

Aufgaben:
Die Modelle wurden auf drei charakterbasierten algorithmischen Aufgaben trainiert und evaluiert:

Copy: Lokale Identität (einfach).
Reverse: Lange Abhängigkeiten.
Addition: Strukturierte Multi-Schritt-Abhängigkeit durch Übertrag-Propagation (schwierig, erfordert globale Konsistenz).

3. Wichtige Beiträge

Formalisierung von Compute Placement: Einführung eines kontrollierten „Ladders", der das Tying, Step-Conditioning, Halting/Readout und hierarchische Verfeinerung isoliert, während Token-Stream und Zielobjektiv konstant bleiben.
Autoregressive Projektion der TRM: Ableitung einer autoregressiven Version der TRM, die kausale Maskierung bewahrt und latente Carry-Informationen zwischen Vorwärtsdurchläufen eliminiert, um faire Vergleiche ohne Token-Stream-Änderungen zu ermöglichen.
Empirische Widerlegung: Nachweis, dass unter gleichen Rechenbudgets die spezifische autoregressive TRM-Architektur keine konsistenten Vorteile bietet, während andere Allokationsstrategien (wie flache Zwei-Streams) überlegen sind.

4. Ergebnisse

Die Experimente ergaben überraschende und kontraintuitive Ergebnisse:

Leistung bei gleichen Ressourcen:
- Dense Transformer und Universal Transformer (UT) erreichten auf den Aufgaben Copy und Reverse 100% Genauigkeit. Bei Addition zeigte der Dense Transformer (80%) eine deutlich bessere Leistung als der UT (66%).
- Autoregressive TRM: Im Gegensatz zu den Erwartungen performte das autoregressive TRM-Modell auf allen drei Aufgaben schlecht (ca. 10–12% Genauigkeit), was nahe am Zufallsniveau liegt. Es scheiterte selbst an den einfachen Copy- und Reverse-Aufgaben.
Fehlerverteilung und Lern-Dynamik:
- Bei der Addition-Aufgabe traten Fehler bei rekursiven Modellen stark am Ende der Sequenz auf (Position 4/Quartil 4), was auf eine Instabilität der Übertrag-Propagation hindeutet.
- Lernkurven: Nur der Dense Transformer und das Dual UT (flache Zwei-Stream-Architektur) überwand den Lern-Bottleneck für das letzte Zeichen erfolgreich. Modelle mit verschachtelter Verfeinerung (Nested) und terminaler Readout (wie die autoregressive TRM) blieben während des gesamten Trainings nahe dem Zufallsniveau.
- Interpretation: Die verschachtelte Verfeinerung mit terminaler Readout schwächt das „Credit Assignment" für frühe innere Schritte, was ein Optimierungsbarriere schafft, die das Training oft nicht überwinden kann.
Vergleich der Architekturen:
- Untied Depth (Dense) und flache Zwei-Stream-Rekurrenz (Dual UT) zeigten die beste Generalisierung pro Block-Auswertung.
- Token-interne hierarchische Verfeinerung (wie im TRM) erwies sich in diesem Setting als kein zuverlässiger Weg zur Verbesserung der autoregressiven Generalisierung.

5. Bedeutung und Fazit

Die Arbeit bietet wichtige Erkenntnisse für die Forschung an „latentem Reasoning" in autoregressiven Modellen:

Warnung vor TRM-spezifischen Investitionen: Die Ergebnisse warnen davor, die spezifische autoregressive TRM-Architektur (mit inneren Schleifen und terminaler Readout) als vielversprechende Forschungsrichtung zu verfolgen, zumindest in kleinen Datenregimen und bei „Tiny"-Modellen. Sie führt zu einer signifikanten Leistungsverschlechterung im Vergleich zu einfacheren Rekursions- oder Tiefen-Strategien.
Potenzial von Zwei-Stream-Ansätzen: Es gibt jedoch Hoffnung für breitere Zwei-Schritt-Verfeinerungsmechanismen. Die Dual-Stream-Architektur (ohne die komplexe hierarchische Verschachtelung und den terminalen Halt) zeigte starke Ergebnisse und könnte ein fruchtbarerer Ansatz sein.
Zukünftige Richtungen: Die Autoren schlagen vor, diese Konzepte in nicht-so-tiny autoregressiven Settings oder in komplexeren Umgebungen zu testen, die höhere Abstraktionsniveaus erfordern.

Zusammenfassend zeigt die Studie, dass die bloße Übertragung von TRM-Mechanismen auf autoregressive Decoder ohne Anpassung der Lern-Dynamik und des Credit-Assignments nicht funktioniert und dass die Art der Rechenallokation (Depth vs. Recurrence vs. Hierarchy) einen entscheidenden Einfluss auf die Generalisierungsfähigkeit hat.

Tiny Autoregressive Recursive Models

Das große Rätsel: Wie denken kleine KI-Modelle?

Die Frage der Forscher

Der Experiment-Labor-Setup

Die überraschende Entdeckung

Warum war das so? (Die Analogie)

Die Lehre für die Zukunft

Titel: Tiny Autoregressive Recursive Models

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions