Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Die Arbeit stellt Bongard-RWR+ vor, einen um 5.400 Instanzen erweiterten Datensatz für Bongard-Probleme, der mithilfe eines Vision-Language-Model-Pipelines realistische Bilder generiert, um die Fähigkeit von Modellen zum Erkennen feingranularer Konzepte zu testen und dabei deren aktuelle Grenzen in der abstrakten visuellen Reasoning aufzuzeigen.

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk

Veröffentlicht 2026-02-20
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Der "Bongard-Test"

Stell dir vor, du sitzt in einer Prüfung. Vor dir liegen zwei Schubladen.

  • In der linken Schublade liegen 6 Bilder.
  • In der rechten Schublade liegen auch 6 Bilder.

Die Aufgabe ist einfach: Was ist der Unterschied?
Auf der linken Seite sind vielleicht alle Bilder von Hunden, auf der rechten von Katzen. Oder auf der linken Seite zeigen alle Bilder etwas, das nach links schaut, und auf der rechten etwas, das nach rechts schaut.

Das ist ein sogenannter Bongard-Test. Für Menschen ist das oft ein Kinderspiel. Wir erkennen Muster sofort. Für Computer ist das jedoch eine der härtesten Nüsse, die es zu knacken gibt.

Das Problem: Computer sind "oberflächlich"

Früher haben Forscher diese Tests mit einfachen Strichmännchen gemacht. Das war zu einfach. Dann kamen echte Fotos. Aber die Computer haben sich dabei oft getäuscht. Sie haben gesagt: "Ah, links sind viele Bäume, rechts sind keine." Dabei war die eigentliche Regel vielleicht: "Links sind Bäume im Herbst, rechts im Winter."

Die Computer schauen oft nur auf das Offensichtliche (die "groben" Details) und übersehen die feinen, abstrakten Regeln, die das Gehirn eines Menschen sofort versteht.

Die Lösung: Ein riesiges Trainingslager mit KI-gemalten Bildern

Die Autoren dieses Papers (aus Warschau) hatten eine geniale Idee: Warum warten, bis jemand 5.000 echte Fotos macht? Wir malen sie einfach!

Sie haben einen neuen Datensatz namens Bongard-RWR+ erschaffen. Das klingt kompliziert, ist aber im Grunde wie eine KI-Fabrik:

  1. Der Maler (Text-to-Image): Sie haben eine KI (Flux.1-dev) beauftragt, Bilder zu malen. Aber nicht einfach so. Sie haben ihr gesagt: "Malt mir 100 Bilder, auf denen eine Treppe nach oben führt" (linke Schublade) und "100 Bilder, auf denen eine Treppe nach unten führt" (rechte Schublade).
  2. Der Kritiker (Menschen): Da KIs manchmal halluzinieren (z. B. malen sie eine Treppe, die in eine Wolke führt), haben echte Menschen alle Bilder geprüft. Nur die perfekten Bilder kamen in den Test.
  3. Das Ergebnis: Aus nur 60 alten Vorlagen haben sie 5.400 neue, einzigartige Rätsel gezaubert. Das ist wie aus einem einzigen Rezept 5.000 verschiedene, aber perfekte Kuchen zu backen.

Der Test: Können die neuen KI-Genies das Rätsel lösen?

Jetzt haben die Forscher die stärksten KI-Modelle der Welt (wie GPT-4-Vision, Claude, LLaVA) vor diese 5.400 Rätsel gestellt. Sie haben verschiedene Aufgaben gegeben:

  • "Welches Bild gehört links und welches rechts?"
  • "Was ist die Regel?" (in Worten beschreiben).

Das Ergebnis war ernüchternd, aber wichtig:

  • Die Groben schaffen es: Wenn die Regel einfach ist (z. B. "Links sind große Tiere, rechts kleine"), schaffen die KIs das ziemlich gut.
  • Die Feinen scheitern: Sobald es um feine Details geht (z. B. "Links sind Linien, die sich kreuzen, rechts nicht" oder "Links schauen die Augen nach links, rechts nach rechts"), geraten die KIs ins Wanken. Sie liegen oft nur so richtig daneben wie ein Zufallsgenerator.

Die Metapher: Der Schüler und der Lehrer

Man kann sich das so vorstellen:
Die aktuellen KI-Modelle sind wie Schüler, die auswendig gelernt haben. Wenn sie ein Bild von einem Hund sehen, wissen sie: "Das ist ein Hund." Aber wenn man sie fragt: "Was haben diese 6 Hunde gemeinsam, das die 6 Katzen auf der anderen Seite nicht haben?", dann raten sie. Sie verstehen das Prinzip dahinter nicht wirklich. Sie sehen nur die Oberfläche.

Die Forscher zeigen uns mit diesem Papier: Unsere KIs sind noch nicht wirklich "klug" im Sinne von abstraktem Denken. Sie können Bilder sehen, aber sie können die tieferen Regeln des Universums (oder zumindest von Bildern) noch nicht wirklich verstehen.

Warum ist das wichtig?

  1. Ein neuer Maßstab: Mit 5.400 Rätseln haben die Forscher endlich ein Werkzeug, um zu testen, ob eine KI wirklich "denkt" oder nur "rät".
  2. Die Zukunft: Es zeigt uns, wo wir noch arbeiten müssen. Wir brauchen KIs, die nicht nur Bilder erkennen, sondern die Logik hinter den Bildern verstehen.
  3. Ehrlichkeit: Es ist gut zu wissen, wo die Grenzen liegen. Solange KIs diese feinen Bongard-Rätsel nicht lösen können, sind sie noch nicht so schlau wie ein menschliches Kind, das Muster erkennt.

Kurz gesagt: Die Forscher haben eine riesige Fabrik für Bild-Rätsel gebaut, um die KIs auf die Probe zu stellen. Und die KIs haben gezeigt: Sie sind gut im Sehen, aber noch ziemlich schlecht im Verstehen der kleinen, feinen Details.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →