COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Das Paper stellt COGITAO vor, ein offenes, modulares Framework zur Generierung von Millionen einzigartiger visueller Aufgaben, das systematisch die Untersuchung von Kompositionalität und Generalisierung ermöglicht und dabei die anhaltenden Defizite moderner Vision-Modelle bei der Anwendung erlernter Konzepte in neuen Kombinationen aufzeigt.

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager, Stefan Gerber, Lukas Tuggener, Benjamin Grewe

Veröffentlicht 2026-02-19
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

COGITAO: Ein neuer Test für das „Verstehen" von Computern

Stellen Sie sich vor, Sie lernen ein neues Spiel. Sie üben, wie man eine rote Kugel nach links schiebt und wie man eine blaue Kugel dreht. Wenn Sie das Spiel dann in einer neuen Situation spielen, bei der Sie die rote Kugel nach links und die blaue Kugel drehen müssen, können Sie das dann sofort?

Für Menschen ist das einfach. Unser Gehirn ist wie ein genialer Baukasten: Wir lernen einzelne Bausteine (Konzepte) und können sie in unendlich vielen neuen Kombinationen zusammenfügen. Das nennt man kombinatorische Generalisierung.

Computer-KI-Modelle (wie die, die wir heute nutzen) sind darin leider noch sehr schlecht. Sie sind eher wie ein auswendig lernender Schüler: Wenn sie eine Aufgabe gesehen haben, können sie sie lösen. Aber wenn sich die Aufgabe auch nur minimal ändert (z. B. eine neue Reihenfolge der Schritte), scheitern sie oft kläglich.

Das ist das Problem, das die Forscher mit COGITAO angehen wollen.

Was ist COGITAO?

COGITAO ist wie ein unendlicher Spielzeugkasten für KI-Forscher.

  • Das Spielfeld: Stellen Sie sich ein Gitter vor (wie ein Schachbrett), auf dem verschiedene bunte Figuren liegen.
  • Die Regeln: Es gibt 28 einfache Zaubertricks (Transformationen), die man mit den Figuren machen kann: Sie können sie verschieben, drehen, spiegeln, vergrößern oder ihre Farbe ändern.
  • Die Aufgabe: Die KI bekommt ein Startbild (die Figuren an bestimmten Stellen) und eine Liste von Zaubertricks (z. B. „Drehen, dann verschieben"). Sie muss das Endergebnis berechnen.

Der Clou an COGITAO ist, dass man daraus Millionen von einzigartigen Aufgaben generieren kann. Man kann die Schwierigkeit genau einstellen:

  1. Kombinatorische Schwierigkeit: Die KI lernt nur einzelne Tricks. Kann sie dann zwei oder drei Tricks in einer neuen Reihenfolge kombinieren?
  2. Umgebungs-Schwierigkeit: Die KI lernt mit kleinen Figuren auf einem kleinen Brett. Kann sie das Gleiche mit riesigen Figuren auf einem riesigen Brett machen?

Warum ist das wichtig? (Die Metapher vom Koch)

Stellen Sie sich eine KI wie einen Koch vor, der nur Rezepte auswendig gelernt hat.

  • Der aktuelle Stand: Wenn Sie dem Koch sagen: „Mach mir Spaghetti Bolognese", kann er das perfekt. Wenn Sie aber sagen: „Mach mir Spaghetti mit einer neuen Soße, die wir noch nie probiert haben, aber die Zutaten sind dieselben", scheitert er. Er hat nicht verstanden, wie Kochen funktioniert, er hat nur das Rezept memorisiert.
  • Das Ziel: Wir wollen einen Koch, der versteht: „Ah, Soße bedeutet: Tomaten, Zwiebeln und Gewürze mischen und kochen." Dann kann er jede neue Soße erfinden, solange er die Grundregeln kennt.

COGITAO prüft genau dieses Verständnis. Es ist ein Diagnose-Tool, um zu sehen, ob eine KI wirklich „denkt" oder nur Muster erkennt.

Was haben die Forscher herausgefunden?

Sie haben die besten aktuellen KI-Modelle (die sogenannten „State-of-the-Art"-Modelle) durch diesen Test geschickt. Das Ergebnis war ernüchternd, aber auch aufschlussreich:

  1. Im bekannten Gebiet: Wenn die KI Aufgaben bekam, die sie ähnlich schon gesehen hatte, war sie sehr gut. Sie konnte die Figuren verschieben und drehen.
  2. Im neuen Gebiet: Sobald die KI eine neue Kombination von Tricks sehen musste (z. B. eine Reihenfolge, die sie nie geübt hatte), brach die Leistung dramatisch ein. Oft lag sie bei 0 % Erfolg.

Es ist, als würde ein Schüler, der das Einmaleins perfekt kann, völlig versagen, wenn man ihn bittet, eine neue Art von Rechenaufgabe zu lösen, die nur aus bekannten Zahlen besteht.

Was bedeutet das für die Zukunft?

Die Studie zeigt uns, dass unsere heutigen KI-Modelle zwar mächtige Mustererkennungs-Maschinen sind, aber ihnen das echte logische Verständnis fehlt. Sie können nicht einfach neue Ideen aus alten Bausteinen bauen.

COGITAO bietet nun eine Möglichkeit, KI-Modelle zu entwickeln, die wirklich lernen können, wie ein Mensch:

  • Einzelne Konzepte zu verstehen.
  • Diese flexibel zu kombinieren.
  • Sich auf völlig neue Situationen einzustellen.

Zusammenfassend: COGITAO ist wie ein strenger, aber faire Lehrer für KI. Er nimmt sich nicht vor, wie viel Daten die KI gelernt hat, sondern prüft, ob sie die Logik des Spiels wirklich verstanden hat. Bis jetzt haben die besten Schüler (die KI-Modelle) in dieser Prüfung noch durchgefallen – aber jetzt wissen wir genau, wo wir ansetzen müssen, um sie schlauer zu machen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →