Compositional Neuro-Symbolic Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du sitzt vor einem riesigen, bunten Puzzle, bei dem du nur ein paar wenige Beispiele siehst und dann herausfinden musst, welche unsichtbare Regel das Bild verändert hat. Das ist im Grunde die Aufgabe, die das ARC-AGI-2 (Abstraction and Reasoning Corpus) stellt. Es ist wie ein IQ-Test für Computer, der prüft, ob sie wirklich „denken" können oder nur Muster auswendig gelernt haben.

Das Papier von CoreThink AI und Stanford beschreibt einen neuen Weg, wie man diese Rätsel löst. Sie nennen es „Compositional Neuro-Symbolic Reasoning". Klingt kompliziert? Machen wir es einfach.

Das Problem: Warum Computer oft scheitern

Stell dir zwei Arten von Detektiven vor:

Der neuronale Detektiv (KI-Modelle wie ChatGPT): Er ist super im Sehen und im Raten. Er hat Millionen von Bildern gesehen und kann oft raten, was als Nächstes kommt. Aber wenn das Puzzle eine völlig neue Kombination ist, die er noch nie gesehen hat, gerät er ins Stolpern. Er versucht, alles auf einmal zu verstehen (Sehen + Regeln finden), und verheddert sich oft.
Der symbolische Detektiv (klassische Logik): Er ist extrem genau und folgt strengen Regeln. Aber er ist blind. Er sieht keine Farben oder Formen, nur Zahlen. Er kann nicht verstehen, was ein „rotes Quadrat" ist, ohne dass man es ihm genau erklärt.

Bisher haben die besten Systeme versucht, einen von beiden zu verbessern, aber keiner konnte beides perfekt kombinieren.

Die Lösung: Ein Team aus drei Spezialisten

Die Autoren haben eine Maschine gebaut, die wie ein gut organisiertes Detektiv-Team funktioniert. Sie teilen die Arbeit in drei klare Schritte auf, damit jeder das tut, wofür er am besten ist.

Schritt 1: Der Fotograf (Wahrnehmung)

Bevor das Team überhaupt zu denken beginnt, macht der „Fotograf" ein Foto des Puzzles. Aber er macht nicht nur ein einfaches Bild. Er zerlegt das Bild in Objekte.

Er sagt nicht: „Da ist ein rotes Pixel."
Er sagt: „Da ist ein rotes Quadrat, das 5x5 groß ist und eine Lücke in der Mitte hat."
Er erstellt eine saubere Liste aller Teile (wie Bausteine), aus denen das Bild besteht. Das ist wie das Sortieren von Lego-Steinen nach Farbe und Form, bevor man baut.

Schritt 2: Der Architekt mit dem Bauplan (Neurale Vorschläge)

Jetzt kommt der „Architekt" (eine moderne KI) ins Spiel. Er kennt das Bild und die sortierten Bausteine. Er hat aber einen Bauplan (eine festgelegte Liste von 22 möglichen Aktionen, wie „Fülle die Lücke", „Verbinde zwei Teile" oder „Spiegele das Bild").

Anstatt wild herumzudenken, schaut der Architekt auf die Beispiele und sagt: „Aha! Hier wurde wahrscheinlich ein Loch gefüllt." oder „Hier wurden zwei Teile verbunden."
Er schlägt nur die Lösungen vor, die auf diesem festen Bauplan basieren. Das verhindert, dass er in eine Sackgasse gerät.

Schritt 3: Der Richter (Logische Prüfung)

Jetzt kommt der „Richter". Er nimmt die Vorschläge des Architekten und prüft sie gegen alle Beispiele.

Wenn ein Vorschlag bei Beispiel A funktioniert, bei Beispiel B aber scheitert, wirft der Richter ihn weg.
Nur wenn eine Regel bei jedem Beispiel funktioniert, wird sie als wahr angenommen.
Der Richter sucht nach der einfachsten Regel (das „Ockhams Rasiermesser"-Prinzip): Wenn es zwei Regeln gibt, die beide funktionieren, wählt er die kürzere und einfachere.

Das Ergebnis: Warum das besser ist

Früher haben Computer versucht, das Rätsel durch massives Raten und Ausprobieren zu lösen (wie ein Affe, der zufällig auf einer Tastatur tippt, bis er einen Satz schreibt). Das kostet viel Zeit und Energie.

Dieses neue System ist wie ein Handwerker mit Werkzeugkasten:

Er schaut sich das Werkstück genau an (Fotograf).
Er wählt das richtige Werkzeug aus der Schublade (Architekt).
Er prüft, ob das Werkzeug bei allen ähnlichen Aufgaben funktioniert (Richter).

Die Ergebnisse:

Reine KI-Modelle (wie GPT-5 oder Claude) lagen bei diesem Test bei etwa 5–18 % Erfolg.
Dieses neue System erreichte 24,4 % allein.
Wenn sie es mit einem anderen System kombinieren (ein Meta-Klassifizierer, der die besten Ergebnisse aussucht), erreichen sie 30,8 %.

Das ist ein riesiger Sprung! Es zeigt, dass man nicht unbedingt einen noch größeren, dummere KI-Modell braucht, der alles auf einmal lernt. Stattdessen hilft es mehr, die Aufgaben zu trennen: Erst das Bild verstehen, dann logische Regeln vorschlagen und dann diese Regeln streng prüfen.

Die große Lektion

Die Autoren sagen: „Intelligenz entsteht nicht nur durch mehr Daten oder größere Modelle." Es geht darum, die Struktur der Intelligenz nachzubauen, wie Menschen es tun. Wir schauen uns Objekte an, denken über einfache Aktionen nach und prüfen, ob unsere Idee überall Sinn ergibt.

Dieses Papier zeigt uns, dass der Weg zu wirklich intelligenten Maschinen vielleicht nicht in noch mehr Rechenleistung liegt, sondern darin, Computer zu lehren, strukturiert zu denken, statt nur zu raten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Compositional Neuro-Symbolic Reasoning (Zusammengesetztes neuro-symbolisches Reasoning)

Autoren: Anugyan Das, Omkar Ghugarkar, Vishvesh Bhat, Asad Aali (CoreThink AI, Stanford University)
Ziel: Verbesserung der Generalisierungsfähigkeit von KI-Systemen beim ARC-AGI-2 (Abstraction and Reasoning Corpus), einem Benchmark für flüssige Intelligenz.

1. Das Problem

Das ARC-AGI-2-Benchmark stellt KI-Systeme vor die Herausforderung, abstrakte Transformationsregeln aus nur wenigen Beispielen (Input-Output-Gittern) zu inferieren und auf neue, ungesehene Eingaben anzuwenden.

Schwächen rein neuronaler Architekturen: Große Sprachmodelle (LLMs) und reine Deep-Learning-Ansätze entkoppeln Wahrnehmung und Regelinduktion nicht. Sie neigen zu „brittle" (zerbrechlichen) Extrapolationen bei neuen Kombinationen und haben Schwierigkeiten mit kombinatorischer Generalisierung.
Schwächen rein symbolischer Systeme: Symbolische Programmsynthese leidet unter einer kombinatorischen Explosion, wenn sie über hochauflösende Gitter und mehrstufige Transformationen sucht.
Das Dilemma: LLMs nutzen oft probabilistische Aggregation (Self-Consistency) statt strikter Konsistenzprüfung über alle Beispiele hinweg, was zu hohen Rechenkosten und instabiler Generalisierung führt.

2. Methodik: Ein neuro-symbolischer Ansatz

Die Autoren schlagen eine zusammengesetzte (kompositionelle) neuro-symbolische Architektur vor, die Wahrnehmung, Hypothesengenerierung und Konsistenzprüfung strikt trennt. Das System besteht aus vier aufeinanderfolgenden Stufen:

Stufe 1: Strukturierte symbolische Szenenabstraktion

Ziel: Umwandlung des rohen Eingabegitters in einen strukturierten symbolischen Szenengraphen.
Prozess:
- Hintergrundbestimmung: Algorithmische Identifikation der Hintergrundfarbe (häufigste Farbe).
- Zerlegung in Objekte: Nicht-Hintergrund-Pixel werden in 8-verbundene Komponenten (Connected Components) zerlegt.
- Merkmalsparameterisierung: Für jedes Objekt werden Merkmale wie Bounding Box, Schwerpunkt (Centroid), kanonische Form (translation-invariant), Farbhistogramm und Hohlraum-Detektion (Cavities) berechnet.
- LLM-Unterstützung: Bei mehrdeutigen Fällen (z. B. komplexe Formen) werden LLMs genutzt, um deskriptive Attribute zu ergänzen.

Stufe 2: Neuronale geführte Hypothesengenerierung

Ziel: Vorschlag von Kandidaten-Transformationsprogrammen basierend auf einer festen Domain-Specific Language (DSL).
DSL (Unit Patterns): Das System nutzt eine Bibliothek von 22 atomaren „Unit Patterns" (z. B. Horizontal Fill, Vertical Fill, Connecting Bridges, Cavity Fill). Diese sind keine einfachen Operationen wie „Drehen", sondern parametrisierte, komplexe Reasoning-Muster.
Neuronaler Prior: Statt den gesamten kombinatorischen Raum zu durchsuchen, nutzt ein neuronales Modell (hier LLM-basiert), um plausible Kombinationen dieser 22 Muster zu priorisieren, die die Unterschiede zwischen Eingabe und Ausgabe erklären könnten.

Stufe 3: Cross-Example Konsistenzfilterung

Ziel: Sicherstellung, dass die gefundene Regel über alle Trainingsbeispiele hinweg konsistent ist.
Prozess:
- Kandidaten-Programme werden symbolisch auf alle Trainingspaare angewendet.
- Nur Programme, die für jedes Beispiel exakt die korrekte Ausgabe erzeugen, werden behalten.
- Schnittmenge: Es wird die Schnittmenge der validen Programme über alle Beispiele gebildet ( $\Pi^* = \bigcap \hat{\Pi}_i$ ).
- Parsimonie: Falls mehrere Programme übrig bleiben, wird dasjenige mit der geringsten Tiefe (wenigste Schritte) ausgewählt.

Stufe 4: Geführte Lösungsgenerierung für Testdaten

Ziel: Anwendung der konsistenten Hypothese auf die Testeingabe.
Prozess: Anstatt ein einzelnes Programm direkt auszuführen, wird ein strukturierter „Hinweis" (Hint) aus den konsistenten Mustern generiert. Dieser Hinweis wird zusammen mit den Beispielen an einen Solver (LLM) übergeben, der die finale Lösung generiert.
Ensemble: Bei Unsicherheit wird Self-Consistency (Mehrheitsvoting über mehrere Stichproben) oder ein Meta-Klassifikator eingesetzt, um die beste Lösung aus einem Pool von Kandidaten (eigener Reasoner + ARC Lang Solver) auszuwählen.

3. Wichtige Beiträge

Trennung von Wahrnehmung und Regelinduktion: Das System entkoppelt die Extraktion von Objektstrukturen von der eigentlichen Regelfindung, was die Generalisierungsfähigkeit massiv verbessert.
Eingeschränkter DSL-Raum: Durch die Beschränkung auf 22 spezifische, menschlich inspirierte „Unit Patterns" wird der Suchraum drastisch reduziert, ohne die Flexibilität für komplexe Aufgaben zu verlieren.
Strikte Konsistenzprüfung: Im Gegensatz zu rein probabilistischen LLM-Ansätzen wird die Lösung durch symbolische Ausführung und Schnittmengenbildung über alle Beispiele hinweg verifiziert.
Open Source: Der Code für den „ARC-AGI-2 Reasoner" wurde veröffentlicht.

4. Ergebnisse

Die Leistung wurde auf dem öffentlichen Evaluierungsset von ARC-AGI-2 unter der Metrik pass@2 (mindestens eine von zwei Einreichungen muss korrekt sein) gemessen:

Basis-LLM (ohne Struktur): Reine LLMs (z. B. GPT-5-Pro, o3) erreichen zwischen 4,9 % und 18,3 %.
Compositional Reasoner (Eigenes System): Erreicht 24,4 %. Dies zeigt, dass die strukturellen Einschränkungen und die symbolische Abstraktion allein bereits einen signifikanten Vorteil gegenüber reinen LLMs bieten.
Meta-Classifier Ensemble: Durch Kombination des Compositional Reasoners mit dem „ARC Lang Solver" und einer Meta-Auswahl erreicht das System 30,8 %.
Vergleich: Dies ist einer der besten Ergebnisse im Vergleich zu anderen hybriden Systemen (z. B. J. Berman: 29,4 %) und liegt deutlich über reinen LLM-Ansätzen.

Ablationsstudien zeigen:

Der größte Leistungsschub (+6,9 %) kommt von den symbolischen Hinweisen (Strukturierung und Einschränkung des Hypothesenraums).
Self-Consistency (Stichprobenbildung) bringt einen weiteren, kleineren Gewinn (+3,9 %) durch Reduktion von Rauschen.
Die Kombination verschiedener Solver (Ensemble) nutzt komplementäre Stärken für weitere +4,2 %.

5. Bedeutung und Fazit

Das Paper demonstriert, dass skalierbare Intelligenz (Systematic Generalization) nicht allein durch größere Modelle oder mehr Rechenzeit (Brute-Force-Sampling) erreicht werden kann. Stattdessen ist eine architektonische Induktionsbias notwendig, die:

Objekte und ihre Beziehungen explizit modelliert.
Die Suche auf eine kompakte, wiederverwendbare Menge von Transformationen beschränkt.
Strikte logische Konsistenz über alle Beispiele hinweg erzwingt.

Die Ergebnisse belegen, dass ein neuro-symbolischer Ansatz, der neuronale Stärken (Mustererkennung, Hypothesenvorschläge) mit symbolischer Strenge (Konsistenzprüfung, DSL) kombiniert, effektiver ist als rein connectionistische oder rein symbolische Ansätze für Aufgaben, die flüssige Intelligenz erfordern. Der Ansatz reduziert die Abhängigkeit von rechenintensivem Test-Time-Scaling und bietet einen Weg zu robusteren KI-Systemen.