LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Die Studie „LRR-Bench" stellt fest, dass Vision-Language-Modelle bei der räumlichen Erfassung von Objekten und Bewegungen im Vergleich zum menschlichen Leistungsvermögen erhebliche Defizite aufweisen, was durch einen neu entwickelten synthetischen Benchmark untermauert wird.

Fei Kong, Jinhao Duan, Kaidi Xu, Zhenhua Guo, Xiaofeng Zhu, Xiaoshuang Shi

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem sehr klugen, aber etwas verwirrten Roboter eine Brille auf und bitten ihn, die Welt zu beschreiben. Der Roboter kann Texte schreiben, Bilder erkennen und sogar Witze erzählen. Aber wenn Sie ihn fragen: „Ist das Auto links oder rechts von dem Baum?" oder „Dreht sich die Kamera gerade nach links?", stolpert er oft über seine eigenen Füße.

Genau darum geht es in dem Papier „LRR-Bench". Die Forscher haben einen neuen Test entwickelt, um zu prüfen, wie gut diese modernen KI-Modelle (die sogenannten Vision-Language Models) wirklich verstehen, wo Dinge sind und wie sie sich bewegen.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Raum-Blindheit"-Effekt

Stellen Sie sich vor, Sie schauen sich ein Foto an. Für uns Menschen ist es sofort klar: „Der Hund ist links, die Katze ist rechts." Für die KI ist das oft wie ein Puzzle, bei dem die Teile durcheinandergeraten sind.
Die Forscher sagen: Diese KIs sind wie Gastarbeiter, die eine fremde Sprache perfekt sprechen, aber den Weg zum Bahnhof nie finden. Sie können beschreiben, was sie sehen, aber sie haben kein echtes Gefühl für den Raum (Links/Rechts, Oben/Unten, Drehungen).

2. Der neue Test: LRR-Bench (Links, Rechts oder Drehen?)

Um das zu testen, haben die Forscher einen neuen Spielplatz gebaut, den sie LRR-Bench nennen.

  • Warum ein neuer Spielplatz? Frühere Tests waren wie alte Schulbücher, die die KI schon auswendig gelernt hatte (sie waren „verseucht"). Deshalb haben die Forscher alles neu erschaffen. Sie nutzen Computerprogramme (wie Minecraft oder künstliche Bild-Generatoren), um tausende von Bildern zu erstellen, die es in der echten Welt so noch gar nicht gibt. Das ist wie ein neues Videospiel-Level, das noch niemand vorher gespielt hat.
  • Was wird getestet?
    • Absolute Position: „Ist der Ball in der linken unteren Ecke?" (Wie ein Suchspiel).
    • 3D-Raum & Bewegung: „Dreht sich die Kamera?" oder „Bewegt sich das Objekt?" (Wie ein Film, bei dem man den Regisseur im Kopf haben muss).

3. Die Ergebnisse: Die KI stolpert, der Mensch fliegt

Die Forscher haben 20 der klügsten KIs der Welt auf diesen Test angesetzt und sie mit echten Menschen verglichen. Das Ergebnis war erschütternd:

  • Der Mensch: Wir Menschen haben den Test fast perfekt bestanden (wie ein Profi-Spieler, der das Level im Schlaf schafft).
  • Die KI: Die besten KIs haben bei den einfachen Aufgaben (nur „Links oder Rechts" auf einem statischen Bild) noch halbwegs mitgemacht. Aber sobald es um Bewegung oder Drehungen ging, landeten viele KIs bei Null Punkten.
    • Vergleich: Es ist, als würde ein Schüler, der Mathe-Abitur hat, plötzlich versuchen, ein Flugzeug zu steuern. Er weiß die Formeln, aber er versteht nicht, wie sich das Flugzeug im dreidimensionalen Raum verhält.

4. Die überraschenden Entdeckungen

Das Papier bringt noch ein paar wichtige Erkenntnisse ans Licht, die wie Warnsignale für die Zukunft der KI sind:

  • „Nachdenken" hilft nicht immer: Man dachte vielleicht, wenn man der KI sagt: „Denk erst mal nach, bevor du antwortest" (wie bei einem Rätsel), würde sie besser werden. Das Gegenteil war oft der Fall! Bei komplexen räumlichen Aufgaben führte das „Nachdenken" dazu, dass die KI sich selbst verwirrte und falsche Antworten gab. Es ist, als würde jemand, der einen Weg sucht, durch zu viel Nachdenken den Kompass verlieren.
  • Größe ist nicht alles: Je größer das Gehirn der KI (mehr Parameter), desto besser sollte sie sein, oder? Nicht bei diesem Test! Manchmal waren die riesigen Modelle sogar schlechter als die kleinen.
  • Spezialtraining hilft nicht: KIs, die extra auf 3D-Daten trainiert wurden, waren nicht automatisch besser. Es scheint, als würden sie die Regeln des Raumes einfach nicht verstehen, sondern nur Muster auswendig lernen.

5. Was bedeutet das für uns?

Dieser Test ist wie ein Krankheitstest für die räumliche Intelligenz der KI.
Er zeigt uns: Unsere KI-Assistenten sind zwar toll beim Schreiben von E-Mails oder Erklären von Bildern, aber sie sind blind für die Physik der Welt.

  • Warum ist das wichtig? Wenn wir KI in autonome Autos oder Roboter stecken, die Dinge greifen sollen, ist räumliches Verständnis überlebenswichtig. Ein Roboter, der nicht versteht, ob ein Objekt links oder rechts ist, oder ob er sich selbst dreht, wird gegen die Wand fahren oder das Werkzeug fallen lassen.

Fazit

Die Forscher sagen im Grunde: „Wir haben einen neuen Spiegel gebaut, und darin sehen wir, dass unsere KIs noch sehr kindlich sind, wenn es um den Raum geht." Sie können Bilder sehen, aber sie können den Raum nicht fühlen. Bis die KIs diesen Test bestehen, müssen wir vorsichtig sein, wenn wir sie in Situationen schicken, die echtes räumliches Verständnis erfordern.

Kurz gesagt: Die KI kann die Welt beschreiben, aber sie kann sie noch nicht wirklich begreifen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →