Symbol-Equivariant Recurrent Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum KI bei Logikspielen oft scheitert

Stell dir vor, du hast einen sehr schlauen Roboter, der riesige Datenmengen lesen kann (wie ein riesiges Buch, das alle Wörter der Welt enthält). Wenn du ihn bittest, einen Satz zu schreiben, ist er genial. Aber wenn du ihn bittest, ein Sudoku zu lösen oder einen Labyrinth-Pfad zu finden, stolpert er oft. Warum?

Das Problem ist, dass diese Roboter (neuronale Netze) oft wie Kinder sind, die Dinge auswendig lernen, statt die Regeln zu verstehen.

Wenn sie ein Sudoku mit den Zahlen 1 bis 9 lernen, merken sie sich oft nur, dass „die rote 3 an dieser Stelle steht".
Wenn du ihnen dann ein Sudoku mit den Farben Rot, Blau und Grün gibst, sind sie verwirrt. Sie denken: „Ich habe das noch nie gesehen!"

Frühere KI-Modelle (die sogenannten RRMs) haben versucht, dieses Problem zu lösen, indem sie dem Roboter tausende von Beispielen zeigten, bei denen die Zahlen oder Farben einfach durcheinander gewürfelt wurden (Data Augmentation). Das ist, als würdest du einem Kind 1000 verschiedene Sudoku-Bücher geben, nur damit es lernt, dass die Zahl 5 auch eine 5 bleibt, egal ob sie rot oder blau gedruckt ist. Das kostet aber viel Zeit und Rechenleistung.

Die neue Lösung: SE-RRM – Der „Regel-Versteher"

Die Forscher aus Österreich haben eine neue Architektur entwickelt, die SE-RRM heißt. Stell dir das wie einen neuen Typ von Gehirn für den Roboter vor.

Statt dem Roboter tausende Beispiele zu zeigen, bauen sie ihm eine intelligente Brille auf, die ihm sofort sagt: „Hey, die Farbe Rot ist hier genau so wichtig wie die Farbe Blau. Wenn du die Farben tauschst, ändert sich die Lösung nicht, nur die Farben."

Das nennt man Symbol-Äquivarianz (ein kompliziertes Wort für: „Symmetrie verstehen").

Die Analogie: Der Schachspieler vs. der Maler

Der alte Ansatz (RRM): Stell dir einen Maler vor, der lernt, Schach zu spielen. Er malt auf ein Brett, wo die Figuren stehen. Wenn er das Brett dreht oder die Figuren umbenennt (z. B. statt „Turm" sagt er „Kasten"), muss er das Brett neu malen und von vorne lernen. Er versteht nicht, dass die Regeln des Spiels gleich bleiben.
Der neue Ansatz (SE-RRM): Dieser Roboter ist wie ein Schachgroßmeister. Er weiß: „Es ist egal, ob ich den Turm aus Holz oder aus Plastik mache. Die Regeln, wie er sich bewegt, sind identisch." Er kann also sofort ein Spiel mit neuen Figuren (z. B. aus Minecraft) spielen, ohne vorher geübt zu haben.

Was macht SE-RRM besonders?

1. Es versteht die „Sprache" der Symbole
In einem Sudoku sind die Zahlen 1, 2, 3... nur Platzhalter. Du könntest sie durch Äpfel, Birnen und Bananen ersetzen, und das Rätsel wäre immer noch dasselbe.

Alte Modelle: Lernen, dass „Apfel" an Position A steht. Wenn du „Banane" an Position A setzt, geraten sie in Panik.
SE-RRM: Lernt die Beziehung zwischen den Positionen. Es sagt: „Egal, was für ein Symbol hier ist, es darf nicht mit dem Symbol daneben identisch sein."

2. Es wächst mit dem Problem mit (Skalierbarkeit)
Das ist der coolste Teil.

Wenn du ein 4x4 Sudoku (klein) trainierst und dann ein 25x25 Sudoku (riesig) bekommst, scheitern alte Modelle. Sie wissen nicht, wie sie mit den neuen, vielen Symbolen umgehen sollen.
SE-RRM kann das! Weil es die Regel verstanden hat („Alle Symbole in einer Reihe müssen unterschiedlich sein"), kann es sofort ein riesiges Sudoku lösen, auch wenn es so etwas noch nie gesehen hat. Es ist wie ein Kind, das das Einmaleins lernt und dann plötzlich große Zahlen multiplizieren kann, ohne es extra geübt zu haben.

3. Es braucht weniger „Futter"
Da das Modell die Symmetrie von Haus aus versteht, muss es nicht mit tausenden von künstlich erzeugten Beispielen gefüttert werden.

Vergleich: Ein alter Roboter braucht 1000 verschiedene Bilder, um zu verstehen, dass ein Hund auch ein Hund ist, wenn er auf dem Kopf steht. Der SE-RRM-Roboter braucht vielleicht nur 8 Bilder, weil er die Logik dahinter sofort erfasst.

Die Ergebnisse im echten Leben

Die Forscher haben ihre neue KI an drei großen Herausforderungen getestet:

Sudoku:
- Sie haben das Modell nur auf normalen 9x9 Sudokus trainiert.
- Ergebnis: Es löste fast perfekt kleine 4x4 Sudokus (die es nie gesehen hatte) und schaffte es sogar, bei riesigen 16x16 und 25x25 Sudokus viel besser zu sein als alle anderen KIs, die einfach raten mussten.
ARC-AGI (Logik-Rätsel):
- Hier muss die KI Muster erkennen (z. B. „Wenn ich diesen Block hier hinlege, passiert das").
- Ergebnis: SE-RRM war genauso gut wie die besten bisherigen Modelle, brauchte aber viel weniger Trainingsdaten und war viel kleiner (nur 2 Millionen Parameter, während andere 27 Millionen hatten).
Labyrinthe:
- Hier sind Symbole nicht austauschbar (eine Wand ist keine Wand, wenn sie ein Startpunkt ist).
- Ergebnis: Auch hier war die neue Architektur stark, zeigte aber, dass man die „Symmetrie-Brille" abnehmen kann, wenn sie nicht passt.

Fazit: Warum ist das wichtig?

Stell dir vor, du willst einen Roboter bauen, der dir hilft, komplexe Pläne zu erstellen, Diagnosen zu stellen oder Gesetze zu verstehen. Diese Probleme sind oft voller Regeln und Symbole.

Bisher mussten wir diese Roboter mit riesigen Datenmengen „füttern", damit sie lernen, dass A gleich B ist, wenn man sie vertauscht.
SE-RRM ist wie ein Roboter, der von Geburt an die Logik der Symmetrie versteht. Er ist:

Effizienter: Er braucht weniger Daten.
Robuster: Er macht weniger Fehler, wenn sich die Farben oder Bezeichnungen ändern.
Skalierbar: Er kann Probleme lösen, die größer sind als alles, was er je gesehen hat.

Kurz gesagt: Die Forscher haben der KI beigebracht, nicht nur auswendig zu lernen, sondern die tieferen Regeln der Welt zu verstehen. Das ist ein großer Schritt hin zu echter „künstlicher Intelligenz" und nicht nur zu einem sehr gut trainierten „Affen, der Tasten drückt".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Reine neuronale Netze und Large Language Models (LLMs) stoßen bei strukturierten logischen Schlussfolgerungsproblemen (Reasoning) wie Sudoku, dem ARC-AGI-Benchmark oder Mäusen oft an ihre Grenzen.

Herausforderung: Bestehende rekursive Reasoning-Modelle (RRMs), wie das Hierarchical Reasoning Model (HRM) oder das Tiny Recursive Model (TRM), sind zwar kompakter als LLMs, behandeln aber Symbol-Symmetrien (z. B. dass die Ziffern 1–9 in Sudoku austauschbar sind) nur implizit.
Limitierung: Um diese Symmetrien zu lernen, sind diese Modelle auf kostspielige Daten-Augmentation angewiesen (z. B. zufälliges Vertauschen von Farben oder Zahlen im Training). Dies erhöht die Sample-Komplexität und verhindert oft eine Generalisierung auf unbekannte Symbol-Konfigurationen oder größere Problemgrößen (Extrapolation).
Ziel: Entwicklung einer Architektur, die die Permutationsäquivarianz (die Eigenschaft, dass eine Permutation der Eingabesymbole zu einer entsprechenden Permutation der Ausgabe führt) direkt auf Architekturebene erzwingt, anstatt sie durch Daten zu lernen.

2. Methodik: Symbol-Equivariant Recurrent Reasoning Models (SE-RRM)

Die Autoren führen SE-RRMs ein, eine neue Klasse von rekursiven Reasoning-Architekturen, die Symmetrien explizit kodieren.

Kernidee: Erweiterung des Eingabe-Tensors

Im Gegensatz zu herkömmlichen RRMs, die Eingaben als 2D-Matrix (Positionen × Features) codieren, führt SE-RRM eine dritte Dimension ein:

Tensor-Struktur: Die Eingabe wird als Tensor der Dimension $D \times I \times K$ $D \times I \times K$ dargestellt, wobei:
- $D$ : Feature-Dimension.
- $I$ : Anzahl der Positionen (z. B. Zellen im Sudoku).
- $K$ : Anzahl der Symbole (z. B. Farben oder Ziffern).
Gemeinsame Embeddings: Anstatt für jede Ziffer eine eigene Embedding-Matrix zu lernen, wird für alle „normalen" Symbole dasselbe Embedding-Vektor $d \in \mathbb{R}^D$ verwendet. Dies erzwingt, dass das Modell keine Unterscheidung zwischen spezifischen Symbolen trifft, sondern nur deren Relationen lernt. Spezial-Symbole (wie Masken) erhalten eigene Embeddings.

Architektur-Änderungen

Der rekursive Block $G$ (analog zum Block $H$ in RRMs) besteht aus Transformer-artigen Schichten, die nun in zwei Richtungen agieren:

Self-Attention über Positionen ( $T^{D,I}$ ): Wie bei Standard-Transformern, verarbeitet die Aufmerksamkeit die Beziehungen zwischen den Positionen (z. B. Nachbarn im Gitter).
Self-Attention über Symbole ( $T^{D,K}$ ): Eine zusätzliche Attention-Schicht verarbeitet die Beziehungen zwischen den Symbolen (Farben/Zahlen) entlang der Symbol-Dimension.
MLP und Normalisierung: Werden token-weise (über Positionen und Symbole) angewendet, um die Äquivarianz zu erhalten.

Theoretische Eigenschaften

Symbol-Äquivarianz: Das Modell garantiert, dass eine Permutation der Eingabesymbole (z. B. Tausch von 1 und 2) zu einer entsprechenden Permutation der Lösung führt. Dies wird durch die symmetrische Behandlung der Symbol-Dimension in der Attention-Schicht mathematisch bewiesen.
Extrapolation: Da das Modell keine festen Embeddings für spezifische Symbole lernt, kann es auf Probleme mit mehr Symbolen ( $K' > K$ ) oder anderen Symbol-Mengen verallgemeinern, ohne neu trainiert werden zu müssen.

3. Hauptbeiträge

Architektonische Innovation: Einführung von SE-RRMs, die Permutationsäquivarianz durch symbol-äquivariante Schichten (insbesondere Attention über die Symbol-Dimension) erzwingen.
Reduktion der Daten-Augmentation: SE-RRMs benötigen deutlich weniger Daten-Augmentation (z. B. nur 8 dihedralen Transformationen bei ARC-AGI statt 1000 bei TRM), da die Symmetrie inhärent im Modell verankert ist.
Generalisierung und Skalierbarkeit:
- Das Modell generalisiert von 9×9 Sudoku auf 4×4, 16×16 und 25×25 Instanzen, während bestehende RRMs bei größeren Rastern versagen (da neue Symbole neue Embeddings benötigen würden).
- Es zeigt eine bessere Testzeit-Skalierung (Test-time scaling) durch Anpassung der Anzahl der Inferenz-Schritte.

4. Ergebnisse

Die Evaluation erfolgte auf drei Datensätzen: Sudoku, ARC-AGI und Maze.

Sudoku (9×9, 4×4, 16×16, 25×25):
- 9×9: SE-RRM übertrifft HRM und TRM signifikant (FSR > 93% vs. ~72% für TRM).
- Extrapolation: Während HRM und TRM bei 4×4 und 16×16 versagen (FSR = 0), erreicht SE-RRM bei 4×4 eine FSR von 95,46%. Bei 16×16 und 25×25 (wo keine anderen RRMs funktionieren) erzielt SE-RRM zwar keine perfekten Lösungen, aber eine signifikant über dem Zufall liegende Genauigkeit (GPA ~52% bzw. ~31%), was eine echte Generalisierung beweist.
- Vergleich mit LLMs: Ein 20B-Parameter LLM (GPT-OSS) scheitert an der Zuverlässigkeit bei 9×9 und liefert bei größeren Rastern keine brauchbaren Ergebnisse.
ARC-AGI (ARC-AGI-1 & 2):
- SE-RRM erreicht mit nur 2 Millionen Parametern (deutlich weniger als TRM mit 7M oder HRM mit 27M) und minimaler Augmentation wettbewerbsfähige Ergebnisse (Pass@2 von ~45% auf ARC-AGI-1), die denen von TRM entsprechen und HRM übertreffen.
Maze:
- Auch bei Aufgaben, bei denen Symbol-Äquivarianz nicht zwingend ist (da Wände nicht austauschbar mit Start/Ende sind), zeigt SE-RRM die beste Leistung (FSR ~88,8%), was auf die Robustheit der Architektur hindeutet.

5. Bedeutung und Fazit

Effizienz: SE-RRMs demonstrieren, dass das explizite Kodieren von Symmetrien die Robustheit und Skalierbarkeit neuronaler Reasoning-Modelle massiv verbessert.
Ressourcen: Mit nur 2 Millionen Parametern und geringerem Augmentation-Bedarf bieten sie eine effiziente Alternative zu großen LLMs und komplexen symbolischen Solvern.
Zukunftsaussicht: Die Fähigkeit, neue Symbole zur Inferenzzeit zu integrieren, macht diese Modelle besonders geeignet für Few-Shot-Learning-Szenarien und dynamische Problemstellungen, bei denen sich die Symbolmenge ändert.

Das Paper zeigt, dass strukturierte Induktionsvoreingenommenheit (Inductive Bias) in Form von Äquivarianz entscheidend ist, um neuronale Netze für komplexe kombinatorische Probleme zu befähigen, ohne auf massive Datenmengen oder Rechenleistung angewiesen zu sein. Der Code ist öffentlich verfügbar.