COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Each language version is independently generated for its own context, not a direct translation.

COGITAO: Ein neuer Test für das „Verstehen" von Computern

Stellen Sie sich vor, Sie lernen ein neues Spiel. Sie üben, wie man eine rote Kugel nach links schiebt und wie man eine blaue Kugel dreht. Wenn Sie das Spiel dann in einer neuen Situation spielen, bei der Sie die rote Kugel nach links und die blaue Kugel drehen müssen, können Sie das dann sofort?

Für Menschen ist das einfach. Unser Gehirn ist wie ein genialer Baukasten: Wir lernen einzelne Bausteine (Konzepte) und können sie in unendlich vielen neuen Kombinationen zusammenfügen. Das nennt man kombinatorische Generalisierung.

Computer-KI-Modelle (wie die, die wir heute nutzen) sind darin leider noch sehr schlecht. Sie sind eher wie ein auswendig lernender Schüler: Wenn sie eine Aufgabe gesehen haben, können sie sie lösen. Aber wenn sich die Aufgabe auch nur minimal ändert (z. B. eine neue Reihenfolge der Schritte), scheitern sie oft kläglich.

Das ist das Problem, das die Forscher mit COGITAO angehen wollen.

Was ist COGITAO?

COGITAO ist wie ein unendlicher Spielzeugkasten für KI-Forscher.

Das Spielfeld: Stellen Sie sich ein Gitter vor (wie ein Schachbrett), auf dem verschiedene bunte Figuren liegen.
Die Regeln: Es gibt 28 einfache Zaubertricks (Transformationen), die man mit den Figuren machen kann: Sie können sie verschieben, drehen, spiegeln, vergrößern oder ihre Farbe ändern.
Die Aufgabe: Die KI bekommt ein Startbild (die Figuren an bestimmten Stellen) und eine Liste von Zaubertricks (z. B. „Drehen, dann verschieben"). Sie muss das Endergebnis berechnen.

Der Clou an COGITAO ist, dass man daraus Millionen von einzigartigen Aufgaben generieren kann. Man kann die Schwierigkeit genau einstellen:

Kombinatorische Schwierigkeit: Die KI lernt nur einzelne Tricks. Kann sie dann zwei oder drei Tricks in einer neuen Reihenfolge kombinieren?
Umgebungs-Schwierigkeit: Die KI lernt mit kleinen Figuren auf einem kleinen Brett. Kann sie das Gleiche mit riesigen Figuren auf einem riesigen Brett machen?

Warum ist das wichtig? (Die Metapher vom Koch)

Stellen Sie sich eine KI wie einen Koch vor, der nur Rezepte auswendig gelernt hat.

Der aktuelle Stand: Wenn Sie dem Koch sagen: „Mach mir Spaghetti Bolognese", kann er das perfekt. Wenn Sie aber sagen: „Mach mir Spaghetti mit einer neuen Soße, die wir noch nie probiert haben, aber die Zutaten sind dieselben", scheitert er. Er hat nicht verstanden, wie Kochen funktioniert, er hat nur das Rezept memorisiert.
Das Ziel: Wir wollen einen Koch, der versteht: „Ah, Soße bedeutet: Tomaten, Zwiebeln und Gewürze mischen und kochen." Dann kann er jede neue Soße erfinden, solange er die Grundregeln kennt.

COGITAO prüft genau dieses Verständnis. Es ist ein Diagnose-Tool, um zu sehen, ob eine KI wirklich „denkt" oder nur Muster erkennt.

Was haben die Forscher herausgefunden?

Sie haben die besten aktuellen KI-Modelle (die sogenannten „State-of-the-Art"-Modelle) durch diesen Test geschickt. Das Ergebnis war ernüchternd, aber auch aufschlussreich:

Im bekannten Gebiet: Wenn die KI Aufgaben bekam, die sie ähnlich schon gesehen hatte, war sie sehr gut. Sie konnte die Figuren verschieben und drehen.
Im neuen Gebiet: Sobald die KI eine neue Kombination von Tricks sehen musste (z. B. eine Reihenfolge, die sie nie geübt hatte), brach die Leistung dramatisch ein. Oft lag sie bei 0 % Erfolg.

Es ist, als würde ein Schüler, der das Einmaleins perfekt kann, völlig versagen, wenn man ihn bittet, eine neue Art von Rechenaufgabe zu lösen, die nur aus bekannten Zahlen besteht.

Was bedeutet das für die Zukunft?

Die Studie zeigt uns, dass unsere heutigen KI-Modelle zwar mächtige Mustererkennungs-Maschinen sind, aber ihnen das echte logische Verständnis fehlt. Sie können nicht einfach neue Ideen aus alten Bausteinen bauen.

COGITAO bietet nun eine Möglichkeit, KI-Modelle zu entwickeln, die wirklich lernen können, wie ein Mensch:

Einzelne Konzepte zu verstehen.
Diese flexibel zu kombinieren.
Sich auf völlig neue Situationen einzustellen.

Zusammenfassend: COGITAO ist wie ein strenger, aber faire Lehrer für KI. Er nimmt sich nicht vor, wie viel Daten die KI gelernt hat, sondern prüft, ob sie die Logik des Spiels wirklich verstanden hat. Bis jetzt haben die besten Schüler (die KI-Modelle) in dieser Prüfung noch durchgefallen – aber jetzt wissen wir genau, wo wir ansetzen müssen, um sie schlauer zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Fähigkeit, gelernte Konzepte zu kombinieren und in neuen Kontexten anzuwenden (kompositionelle und systematische Generalisierung), ist ein Kernprinzip menschlicher Intelligenz. Aktuelle State-of-the-Art-Machine-Learning-Modelle, insbesondere Transformer-Architekturen, scheitern jedoch häufig daran, diese Fähigkeiten zu erlernen. Sie neigen dazu, Muster zu memorieren oder auf statistische Korrelationen zu vertrauen, anstatt die zugrunde liegenden Regeln zu verstehen.

Bestehende Benchmarks im visuellen Bereich (wie CLEVR oder dSprites) weisen oft Mängel auf: Sie bieten wenig Kontrolle über die kompositionelle Struktur, bieten einen zu eingeschränkten Aufgabenbereich oder vermischen visuelle Komplexität mit relationaler Struktur. Dies erschwert die Isolierung und Diagnose der eigentlichen Defizite in der kompositionellen Generalisierung.

2. Methodik: Das COGITAO-Framework

Die Autoren stellen COGITAO (Compositional Generalization In Transformations And Objects) vor, ein prozedurales, objektorientiertes Framework zur Generierung von Daten in einem abstrakten, rasterbasierten (Grid) Umfeld.

Generierungsmechanismus:
- Das System nutzt eine Bibliothek von 28 atomaren Transformationen (z. B. Translation, Rotation, Spiegelung, Füllung, Zuschneiden, Duplizierung), die auf Objekte in einem Raster angewendet werden.
- Diese Transformationen sind so konstruiert, dass sie beliebig kombinierbar sind (Kompositionstiefe $k$ ) und keine redundanten Äquivalenzen aufweisen.
- Durch die Kombination von Transformationen, Objekt-Eigenschaften (Größe, Form, Farbe, Symmetrie) und Raster-Parametern (Größe, Anzahl der Objekte) können Millionen einzigartiger Aufgabenregeln generiert werden.
Aufgabentyp:
- Das Modell erhält ein Eingabe-Raster (Input Grid) und eine Sequenz von Transformationen (Task Embedding).
- Es muss das resultierende Ausgabe-Raster (Output Grid) generieren, indem es die Transformationen in der angegebenen Reihenfolge auf die Objekte anwendet.
Erweiterungen:
- RGB-Rendering: Für den Transfer auf reale visuelle Daten werden die Raster als 128x128 RGB-Bilder gerendert.
- Sequenzielle COGITAO: Erweiterung auf World-Model-Forschung durch Darstellung von Zwischenzuständen (Frames) statt nur Start- und Endzustand.
Experimentelles Design:
- CompGen (Compositional Generalization): Das Modell wird auf atomaren und zusammengesetzten Aufgaben trainiert und auf ungesehene Kombinationen derselben atomaren Transformationen getestet (Out-of-Distribution, OOD).
- EnvGen (Environmental Generalization): Die Transformation bleibt gleich, aber die Umgebungsparameter ändern sich (z. B. mehr Objekte, größere Raster, komplexere Objekte).

3. Wichtige Beiträge

Neues Framework: Einführung von COGITAO als hochkontrollierbare, prozedurale Umgebung, die Millionen von Aufgaben mit einstellbarer Komplexität und Kompositionstiefe generiert.
Skalierbarkeit und Flexibilität: Überwindung bestehender Datensätze um Größenordnungen in der Vielfalt der Regeln, während die visuelle Komplexität kontrolliert bleibt, um den Fokus auf das logische Schließen zu legen.
Benchmark-Datensätze: Veröffentlichung von Benchmark-Datensätzen für spezifische Aspekte der Generalisierung (Kompositionstiefe, Umgebungsvariationen).
Umfassende Baseline-Studie: Evaluation modernster Architekturen, darunter:
- Vanilla Transformer (Standard ViT).
- Grid Transformer (ViTARC-basiert mit objektorientierten Induktionsbias).
- Pondering Looped Transformer (PL-TF) (rekurrente Architektur mit adaptiver Rechenzeit).
- LLaDA (Diffusions-basiertes Sprachmodell).
- ResNet (als Convolutional Baseline).

4. Ergebnisse

Die Experimente zeigen ein konsistentes und kritisches Muster:

In-Domain (ID) vs. Out-of-Distribution (OOD): Während die Modelle auf Trainingsdaten (ID) oft hohe Genauigkeiten erzielen (teilweise >90%), bricht die Leistung bei OOD-Aufgaben dramatisch ein.
- Beispiel: Ein Modell, das „Rotieren" und „Verschieben" gelernt hat, scheitert oft daran, diese in einer neuen Reihenfolge oder Kombination („Rotieren und dann Verschieben" vs. „Verschieben und dann Rotieren") korrekt anzuwenden.
Architektur-Vergleich:
- PL-TF (Pondering Looped Transformer) zeigte die robustesten Ergebnisse, insbesondere bei komplexeren Umgebungsvariationen (Objektgröße, Komplexität) und tieferen Kompositionen. Dies deutet darauf hin, dass rekurrente Strukturen und adaptive Rechenzeit für kompositionelle Aufgaben vorteilhaft sind.
- Grid-TF performte gut in Umgebungs-Tests, scheiterte aber oft bei neuen Kompositionen.
- Vanilla Transformer und ResNet zeigten starke Einbrüche bei OOD-Aufgaben.
- LLaDA (Diffusions-Modell) zeigte gute Ergebnisse bei Umgebungsvariationen, scheiterte jedoch bei komplexen Kompositionen ähnlich wie andere Modelle.
Fehlermodi:
- ID-Bias: Modelle wenden die während des Trainings gesehenen Transformationen an, selbst wenn die Aufgabe eine andere verlangt.
- Strukturelles Kompositionsversagen: Modelle können atomare Transformationen anwenden, scheitern aber daran, Sequenzen zu zerlegen und neu zu kombinieren (z. B. bei Erhöhung der Kompositionstiefe von 1 auf 2 oder 3).
Skalierung: Eine Erhöhung der Modellgröße (bis zu 25M Parameter) oder der Trainingsdatenmenge führte zu keinen signifikanten Verbesserungen bei der OOD-Generalisierung. Dies widerlegt die Annahme, dass reine Skalierung das Problem löst.

5. Bedeutung und Ausblick

Diagnostisches Werkzeug: COGITAO ermöglicht es, die Grenzen aktueller Deep-Learning-Architekturen präzise zu charakterisieren. Es zeigt, dass Modelle oft nur Mustererkennung betreiben und kein echtes, strukturiertes Verständnis von Regeln entwickeln.
Richtung für zukünftige Forschung: Die Ergebnisse unterstreichen die Notwendigkeit neuer Architekturen, die über reine Mustererkennung hinausgehen und echte kompositionelle Reasoning-Fähigkeiten besitzen. Ansätze wie rekurrente Mechanismen (Looped Transformers) oder explizite objektorientierte Induktionsbais sche vielversprechender als reine Feed-Forward-Transformer.
Transfer zur realen Welt: Durch die RGB-Erweiterung bietet COGITAO eine Brücke zwischen abstrakten logischen Aufgaben und realer visueller Wahrnehmung, was für Robotik und World-Model-Forschung relevant ist.

Zusammenfassend demonstriert COGITAO, dass die Fähigkeit zur systematischen Generalisierung in objektorientierten Domänen eine fundamentale Herausforderung für aktuelle KI-Modelle bleibt, die durch reine Skalierung nicht gelöst wird, sondern architektonische Innovationen erfordert.

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Was ist COGITAO?

Warum ist das wichtig? (Die Metapher vom Koch)

Was haben die Forscher herausgefunden?

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: Das COGITAO-Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks