OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Der große Raum-Test für KI-Gehirne

Stell dir vor, du hast einen sehr klugen Roboter-Freund, der alles sieht, was du siehst, und alles versteht, was du sagst. Er ist super in Mathematik, kann Gedichte schreiben und sogar Witze erzählen. Aber wenn du ihn bittest, dir zu helfen, ein Sofa durch eine enge Türe zu tragen oder zu sagen, wie viele Autos auf einem belebten Parkplatz sind, wenn man aus einem anderen Fenster schaut, stolpert er oft.

Das ist das Problem, das die Forscher mit OmniSpatial angehen. Sie haben einen neuen, extrem schwierigen Test entwickelt, um zu prüfen, wie gut diese KI-Modelle wirklich „Raum" verstehen – also wie Objekte im dreidimensionalen Leben zueinander stehen, sich bewegen und wie man sich in ihre Perspektive hineinversetzen kann.

🚗 Warum alte Tests nicht mehr reichen

Früher waren die Tests für KIs wie ein einfaches „Häuschen bauen":

„Ist das Auto links oder rechts vom Baum?"
„Wie viele Hunde sind auf dem Bild?"

Die modernen KI-Modelle haben diese Aufgaben längst gemeistert. Sie sind darin so gut, dass es fast langweilig ist. Es ist, als würde man einem Erwachsenen einen Mathe-Test für Grundschüler geben – er besteht ihn natürlich, aber das sagt nichts über seine Intelligenz aus.

OmniSpatial ist wie ein Führerschein für komplexe Situationen. Es fragt nicht nur, wo etwas ist, sondern:

„Wenn ich mich umdrehe, wo ist dann das Sofa?" (Perspektivwechsel)
„Wenn dieses Auto bremst, wird es den Fußgänger noch erreichen?" (Dynamik & Bewegung)
„Passt dieser Koffer in den Kofferraum, wenn er schräg steht?" (Komplexe Logik)
„Welcher Weg ist sicher, wenn ich den Verkehr beobachte?" (Interaktion)

🧩 Die vier großen Herausforderungen

Der Test teilt die Aufgaben in vier Kategorien ein, die wie verschiedene Sportarten für das Gehirn wirken:

Der Bewegungs-Analyst (Dynamic Reasoning):
Stell dir vor, du siehst ein Video von einem Fußballspiel. Die KI muss nicht nur sehen, wo der Ball ist, sondern vorhersagen: „Wenn der Spieler jetzt schießt, wo landet der Ball?" oder „Ist dieser LKW zu schnell für die Kurve?" Das ist wie ein Schachspieler, der mehrere Züge vorausdenkt.
Der Puzzle-Meister (Complex Logic):
Hier geht es um räumliches Denken ohne Bilder. Stell dir vor, du hast einen Papierfalter in der Hand. Die KI muss im Kopf ausrechnen: „Wenn ich dieses Papier falte und dann ein Loch stanze, wie sieht es aus, wenn ich es wieder aufklappe?" Viele KIs scheitern hier, weil sie nur Muster erkennen, aber keine echten 3D-Modelle im Kopf haben.
Der Navigator (Spatial Interaction):
Die KI muss wie ein echter Autofahrer oder Roboter agieren. Sie muss Hindernisse erkennen, wissen, wo sie parken darf, und verstehen, dass ein Spiegelbild auf der Straße anders aussieht als das echte Auto. Es geht um das „Gefühl" für den Raum.
Der Empath (Perspective Taking):
Das ist die schwierigste Aufgabe: Die Welt aus den Augen eines anderen sehen.
Stell dir vor, du stehst vor einem Spiegel. Die KI muss sich vorstellen: „Wenn ich jetzt hinter dem Spiegel stünde, sähe ich das Sofa dann von links oder von rechts?" Die meisten KIs sind extrem egozentrisch; sie können sich nur aus ihrer eigenen „Kamera-Perspektive" vorstellen, wie die Welt aussieht. OmniSpatial zwingt sie, den Kopf zu drehen.

📉 Was haben die Tests ergeben?

Die Ergebnisse waren eine ziemliche Überraschung (und eine Ernüchterung):

Die Besten der Besten: Selbst die allerneuesten, super-intelligenten KIs (wie die neuesten Modelle von Google, OpenAI oder Anthropic) erreichen im Durchschnitt nur etwa 55 % richtige Antworten.
Der Mensch: Ein normaler Mensch schafft fast 93 %.
Das Fazit: Die KIs sind zwar klug, aber im räumlichen Verständnis immer noch wie ein Kleinkind, das gerade erst lernt, nicht gegen Möbel zu laufen. Sie können Texte schreiben, aber sie „fühlen" den Raum noch nicht wirklich.

🛠️ Wie versuchen die Forscher, sie zu verbessern?

Die Forscher haben zwei clevere Tricks ausprobiert, um den KIs zu helfen:

Der „Punkt-Plan" (PointGraph):
Statt der KI nur das Bild zu zeigen, geben sie ihr eine Art Bauplan dazu. Sie sagen ihr: „Hier ist der Tisch, hier ist der Stuhl, und der Stuhl steht 2 Meter vom Tisch entfernt." Das hilft der KI, die Beziehungen zwischen den Objekten besser zu verstehen, als wenn sie nur auf das Bild starrt.
Der „Kopf-in-die-Wand-Trick" (SpatialCoT):
Da die KIs schlecht darin sind, sich Dinge im Kopf vorzustellen, lassen sie sie neue Bilder generieren. Die KI wird gebeten: „Stell dir vor, du stehst dort. Wie würde die Szene von dort aussehen?" Sie erzeugt dann ein neues Bild aus dieser Perspektive und analysiert dieses. Das ist, als würde man jemandem, der eine Landkarte nicht lesen kann, eine 360-Grad-Brille aufsetzen, damit er die Welt aus der richtigen Sicht sieht.

🌍 Warum ist das wichtig?

Warum sollten wir uns dafür interessieren? Weil wir bald Roboter in unseren Häusern, autonome Autos auf unseren Straßen und AR-Brillen (wie die Apple Vision Pro) in unseren Händen haben wollen.

Ein Roboter muss wissen, wie er eine Tasse greift, ohne sie umzustoßen.
Ein selbstfahrendes Auto muss verstehen, dass ein Fußgänger hinter einem parkenden Auto hervorkommen könnte.
Eine AR-Brille muss wissen, wo ein virtuelles Sofa im echten Wohnzimmer steht, damit es nicht durch die Wand schwebt.

OmniSpatial ist also wie ein strenger Lehrer, der uns zeigt: „Hey, eure KIs sind noch nicht bereit für die echte Welt. Wir müssen sie noch viel mehr trainieren, bevor sie uns sicher helfen können."

Es ist ein wichtiger Schritt auf dem Weg zu Maschinen, die nicht nur sehen, sondern wirklich verstehen, wie der Raum um sie herum funktioniert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Räumliches Denken (Spatial Reasoning) ist eine fundamentale kognitive Fähigkeit, die für Robotik, autonomes Fahren und AR/VR entscheidend ist. Obwohl Vision-Language-Modelle (VLMs) in den letzten Jahren Fortschritte gemacht haben, bleiben sie bei komplexen räumlichen Aufgaben oft limitiert.

Begrenzung bestehender Benchmarks: Aktuelle Evaluierungsdatensätze konzentrieren sich überwiegend auf elementare räumliche Beziehungen (z. B. „links/rechts", „nahe/fern", Objektzählung). Diese Aufgaben nähern sich einem Sättigungspunkt an, wobei neuere Reasoning-Modelle (wie o3 oder Gemini-2.5-Pro) dort bereits über 90 % Genauigkeit erreichen.
Die Lücke: Es fehlt ein umfassender Benchmark, der anspruchsvollere kognitive Fähigkeiten testet, wie dynamische Reasoning-Prozesse, komplexe geometrische Logik, Interaktion mit der physischen Umgebung und Perspektivübernahme (Perspective-Taking). Die aktuellen Modelle scheitern oft an Aufgaben, die mentale Rotation, das Verstehen von 3D-Strukturen oder das Einnehmen fremder Blickwinkel erfordern.

2. Methodik: OmniSpatial Benchmark

Die Autoren stellen OmniSpatial vor, einen umfassenden Benchmark, der auf Erkenntnissen der kognitiven Psychologie basiert und über 8.400 manuell annotierte Frage-Antwort-Paare (QA-Pairs) umfasst.

Taxonomie der räumlichen Reasoning-Aufgaben

Der Benchmark unterteilt räumliches Denken in vier Hauptkategorien mit insgesamt 50 feinmaschigen Unterkategorien:

Dynamisches Reasoning (27 %): Analyse von Bewegung und zeitlichen Veränderungen (z. B. Manipulation von Objekten, Vorhersage von Bewegungsrichtungen, Verkehrsanalyse).
Komplexe Logik (16 %): Höherstufiges Reasoning über Transformationen und geometrische Strukturen (z. B. Mustererkennung, Entfaltung von Polyedern, mentale Rotation, analytische Geometrie).
Räumliche Interaktion (20 %): Reasoning unter Berücksichtigung von Umgebungsbedingungen und Aufgabenzielen (z. B. Pfadplanung, Lokalisierung, Geospatial-Strategien).
Perspektivübernahme (37 %): Die Fähigkeit, räumliche Beziehungen aus verschiedenen Blickwinkeln zu verstehen (egozentrisch, allozentrisch und hypothetische Perspektiven).

Datenerstellung

Quellen: Die Daten stammen aus einer heterogenen Mischung: Web-Bilder (mit strengen Filtern gegen KI-Generierung), Fahrprüfungsfragen, psychologische Kognitionstests und bestehende Datensätze (MME, HOI4D).
Annotation: Alle Fragen wurden manuell erstellt und durch mehrere Runden der Validierung und Kreuzprüfung (Inter-Annotator-Übereinstimmung $\alpha = 0.84$ ) gesichert, um Mehrdeutigkeiten zu minimieren.
Vielfalt: Der Datensatz deckt diverse Szenarien, Auflösungen, Lichtverhältnisse und geografische Regionen ab.

Verbesserte Reasoning-Strategien

Um die Leistung von VLMs zu steigern, wurden zwei Ansätze untersucht:

PointGraph: Ein explizites Szenengraph-Modell, das Objekterkennung (z. B. via Florence-2) nutzt, um eine strukturierte JSON-Repräsentation von Objekten und ihren relativen Positionen zu erstellen. Diese strukturierten Hinweise werden dem VLM als zusätzliche Eingabe gegeben.
SpatialCoT (Spatial Chain-of-Thought): Ein Ansatz, der die räumliche Vorstellungskraft anregt, indem für jede Eingabe neue Ansichten (Novel Views) mittels InstantMesh synthetisiert werden. Diese Mehransicht-Collage wird zusammen mit der Frage als Teil des Chain-of-Thought-Prompts verwendet, um Okklusionen und perspektivische Verzerrungen aufzulösen.

3. Ergebnisse

Die Evaluation umfasste proprietäre Modelle (GPT-4.1, Claude 3.7, Gemini-2.5), Open-Source-Modelle (InternVL, Qwen-VL, LLaVA) und spezialisierte räumliche Modelle.

Leistungsdefizit: Trotz hoher Leistungen in bestehenden Benchmarks erreichen die besten Modelle auf OmniSpatial nur etwa 56–57 % Genauigkeit. Im Vergleich dazu erreichen menschliche Annotator:innen 92,6 %.
Schwächen:
- Geometrisches Reasoning: Selbst fortschrittliche Reasoning-Modelle erreichen hier nur 30–40 % Genauigkeit (knapp über dem Zufallsniveau).
- Perspektivübernahme: Modelle haben große Schwierigkeiten, nicht-egozentrische oder hypothetische Blickwinkel einzunehmen.
- Dynamik: Lange zeitliche Sequenzen und komplexe Interaktionen stellen eine große Hürde dar.
Einfluss der Verbesserungen:
- PointGraph führte zu signifikanten Verbesserungen, insbesondere bei dynamischem Reasoning und Perspektivübernahme (ca. +1,6 bis +2,9 % Punkte).
- SpatialCoT verbesserte die Leistung bei Perspektivübernahme-Aufgaben um ca. +2 % Punkte, indem es dem Modell half, räumliche Beziehungen durch synthetisierte Ansichten besser zu visualisieren.
Training: Feinabstimmung (Fine-Tuning) auf dem OmniSpatial-Trainingsset (6,9k Samples) führte zu einer deutlichen Steigerung (+7,82 % Punkte) im Vergleich zum Zero-Shot-Setup, während Training auf synthetischen Template-Datensätzen nur marginale Verbesserungen brachte.

4. Hauptbeiträge

OmniSpatial Benchmark: Einführung eines umfassenden, manuell kuratierten Benchmarks mit 8,4k QA-Paaren und 50 Unterkategorien, der über einfache räumliche Beziehungen hinausgeht.
Neue Taxonomie: Eine auf kognitiver Psychologie basierende Klassifizierung von räumlichem Denken in vier Dimensionen (Dynamik, Logik, Interaktion, Perspektive), die als Leitfaden für zukünftige Forschung dient.
Methodische Erkenntnisse: Demonstration, dass strukturierte Szenengraphen (PointGraph) und neue Ansichten (SpatialCoT) effektive Plug-and-Play-Methoden sind, um die räumlichen Reasoning-Fähigkeiten von VLMs zu verbessern.
Empirische Analyse: Umfassende Evaluierung, die zeigt, dass der aktuelle Stand der Technik bei komplexen räumlichen Aufgaben noch weit hinter menschlichen Fähigkeiten zurückbleibt.

5. Bedeutung

Die Arbeit hebt hervor, dass das Verständnis räumlicher Beziehungen eine kritische Barriere für den Einsatz von VLMs in der physischen Welt (Robotik, autonomes Fahren) darstellt. OmniSpatial bietet nicht nur einen strengeren Evaluierungsrahmen, sondern identifiziert auch spezifische Schwachstellen (wie mentale Rotation und Perspektivwechsel), die zukünftige Forschungsrichtungen leiten. Die vorgeschlagenen Methoden (PointGraph, SpatialCoT) zeigen Wege auf, wie Modelle durch explizite geometrische Hinweise und visuelle Simulationen gestärkt werden können, um sicherere und effizientere autonome Systeme zu entwickeln.