Thinking with Spatial Code for Physical-World Video Reasoning

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Warum Computer im 3D-Raum „blind" sind

Stellen Sie sich vor, Sie schauen sich einen Film an. Sie sehen einen Ball, der über einen Tisch rollt und dann hinter eine Vase verschwindet. Für uns Menschen ist das völlig klar: Wir wissen, wo der Tisch steht, wie groß die Vase ist und dass der Ball hinter ihr ist, weil wir eine 3D-Welt in unserem Kopf haben.

Moderne KI-Modelle (die sogenannten „Multimodalen Modelle") sind wie Seher, die nur flache Bilder sehen. Sie können beschreiben, was sie sehen („Da ist ein roter Ball"), aber sie haben Schwierigkeiten zu verstehen, wo Dinge genau sind, wie sie zueinander orientiert sind oder wie sie sich im Raum bewegen. Sie schauen auf das Bild wie auf ein 2D-Foto und raten oft, wo Dinge sein könnten, anstatt es wirklich zu berechnen. Das ist, als würde man versuchen, ein Puzzle zu lösen, ohne die Form der Teile zu kennen – man verlässt sich nur auf die Farben.

Die Lösung: „Denken mit Raum-Code"

Die Forscher von der Johns Hopkins University und der Stanford University haben eine neue Methode entwickelt, die sie „Thinking with Spatial Code" nennen.

Stellen Sie sich das so vor:

Der Übersetzer (Der räumliche Encoder):
Bevor die KI überhaupt versucht, eine Frage zu beantworten, schickt sie das Video durch einen speziellen „Übersetzer". Dieser Übersetzer nimmt das flache, 2D-Video und wandelt es in eine klare 3D-Liste um.
- Statt nur zu sagen: „Da ist ein Sofa", sagt dieser Übersetzer: „Sofa: Position (X, Y, Z), Größe (2m x 1m), Drehung (nach Norden gerichtet)."
- Er macht das für jeden Gegenstand im Video und behält die Verbindung zwischen ihnen im Auge, während sich die Kamera bewegt. Es ist, als würde man aus einem Film ein Baukasten-Set mit genauen Bauplänen für jedes Möbelstück erstellen.
Der Denker (Das Sprachmodell):
Jetzt gibt man diese präzise 3D-Liste (den „Code") an eine große Sprach-KI (wie einen sehr klugen Chatbot).
- Anstatt raten zu müssen, kann die KI jetzt rechnen. Wenn die Frage lautet: „Ist der Tisch links oder rechts vom Sofa?", muss die KI nicht mehr auf das Bild schauen und raten. Sie kann einfach die Koordinaten aus der Liste nehmen und mathematisch berechnen: „Der Tisch hat die Koordinate X=5, das Sofa X=2. Also ist der Tisch rechts."
- Das ist wie der Unterschied zwischen jemandem, der versucht, die Entfernung zu einem Berg zu schätzen, und jemandem, der ein genaues GPS-Gerät und eine Landkarte hat.

Der Trick: Das „Raum-Regelwerk" (Reinforcement Learning)

Die Forscher haben noch einen zweiten Schritt hinzugefügt, damit die KI nicht nur rechnet, sondern auch richtig denkt.

Stellen Sie sich vor, Sie trainieren einen Schüler für eine Mathe-Prüfung.

Normalerweise: Der Lehrer sagt nur „Richtig" oder „Falsch", wenn die Antwort stimmt. Der Schüler könnte aber durch Glück die richtige Antwort finden, ohne den Weg zu verstehen.
Bei dieser Methode: Die KI bekommt ein Bewertungsraster (Rubrik). Der Lehrer (die KI) wird nicht nur für das Endergebnis belohnt, sondern dafür, wie sie dorthin gelangt ist.
- Hat sie die Perspektive des Betrachters richtig verstanden? (Ist der Tisch links vom Sofa aus gesehen oder links vom Betrachter?)
- Hat sie die Drehung der Objekte beachtet?
- Wenn die KI die richtige Antwort gibt, aber den falschen Weg nimmt (z. B. die Weltkoordinaten verwechselt), bekommt sie Punkte abgezogen.
- Wenn sie den richtigen Weg geht (Koordinaten umrechnet, Vektoren berechnet), bekommt sie Bonuspunkte.

So lernt die KI, nicht nur zu „raten", sondern wirklich räumlich zu denken.

Warum ist das wichtig?

Das Ergebnis ist beeindruckend:

Die neue Methode schlägt selbst die teuersten und größten KI-Modelle der Welt (wie GPT-5 oder Gemini), obwohl sie mit einem kleineren Modell läuft.
Der Beweis dafür ist, dass die Qualität der 3D-Daten wichtiger ist als die reine Größe des Modells. Ein kleineres Modell mit perfekten 3D-Karten ist besser als ein riesiges Modell, das nur auf flache Bilder schaut.

Zusammenfassend:
Die Forscher haben der KI eine Brille mit 3D-Brillen aufgesetzt. Statt nur Bilder zu sehen, sieht sie nun eine Welt aus genauen Maßen und Positionen. Dadurch kann sie Fragen über den physischen Raum beantworten, die bisher für KI unmöglich waren – wie ein Architekt, der einen Raum nicht nur betrachtet, sondern ihn im Kopf nachbauen und vermessen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das zentrale Problem, das dieses Paper adressiert, ist die begrenzte Fähigkeit aktueller Large Multimodal Models (LMMs) und Vision-Language Models (VLMs), räumliches Verständnis in Videos für physikalische Welt-Interaktionen zu entwickeln.

Mangel an 3D-Struktur: Obwohl moderne Modelle beeindruckende linguistische Fähigkeiten besitzen, fehlt es ihnen oft an einer expliziten, metrischen 3D-Repräsentation. Sie verlassen sich primär auf 2D-Appearance-Merkmale und linguistische Muster.
Fehlende Kontinuität: Modelle können beschreiben, was sie sehen, scheitern aber oft bei Fragen darüber, wo sich Objekte befinden, wie sie zueinander orientiert sind oder wann sie im Raum erscheinen/verschwinden.
Skalierungs-Paradoxon: Selbst riesige proprietäre Modelle (wie GPT-5 oder Gemini) erreichen bei räumlichen Aufgaben (z. B. auf dem VSI-Bench) ein Plateau von ca. 50–55 %, was darauf hindeutet, dass die reine Vergrößerung der Modellparameter nicht das Hauptproblem löst, sondern die Qualität der räumlichen Repräsentation.

2. Methodik: "Thinking with Spatial Code"

Die Autoren schlagen ein neues Paradigma vor, das Videodaten nicht direkt vom LLM verarbeitet, sondern zunächst in eine explizite, symbolische räumliche Kodierung (Spatial Code) transformiert. Das Framework besteht aus zwei Hauptkomponenten:

A. Spatial Encoder (Wahrnehmungsmodul)

Dieses Modul wandelt einen RGB-Videostream in strukturierte 3D-Daten um.

Dual-Encoder-Architektur:
- SAM-2 Encoder: Extrahiert semantische Merkmale und Objekt-Tracking-Informationen (Segmentierung und Verfolgung über die Zeit).
- Depth Encoder (Depth Anything 3): Extrahiert geometrische Merkmale für die 3D-Tiefenwahrnehmung.
Fusion und Vorhersage: Durch Cross-Attention werden diese Merkmale fusioniert. Ein spezieller 3D Detection Head sagt für jedes Objekt folgende Attribute vorher:
- Semantisches Label (z. B. "Sofa").
- 3D-Position ( $p \in \mathbb{R}^3$ ).
- Größe ( $s \in \mathbb{R}^3$ ).
- Orientierung (Quaternion $r \in \mathbb{R}^4$ ).
Dichte geometrische Überwachung: Um robuste Merkmale auch in Hintergrundbereichen zu lernen, wird ein Depth Head verwendet, der dichte Tiefenkarten vorhersagt.
Training: Der Encoder wird durch einen Multi-Task-Loss trainiert, der 2D/3D-Bounding-Box-Verluste, Positions-/Größen-/Orientierungsverluste und geometrische Verluste (Tiefe, Kameraparameter) kombiniert.

B. Reasoning mit LLMs (Schlussfolgerungsmodul)

Anstatt Rohdaten zu verarbeiten, erhält ein reines Text-LLM (z. B. Qwen3-4B) die generierten Spatial Codes als Eingabe.

Symbolische Repräsentation: Die 3D-Daten werden in JSON-ähnliche Textstrings serialisiert (z. B. {"bbox_3d": [x, y, z, w, h, l, roll, pitch, yaw], "label": "sofa"}).
Explizites Koordinaten-Reasoning: Das LLM kann nun direkt mit diesen expliziten Koordinaten rechnen (z. B. Vektorberechnungen für relative Richtungen), anstatt auf vage visuelle Hinweise zu raten.

C. Reinforcement Learning (RL) mit Spatial Rubric Reward

Um die Schlussfolgerungsfähigkeit weiter zu verbessern, wird das LLM mittels Reinforcement Learning (GRPO-Algorithmus) feinabgestimmt.

Spatial Rubric Reward: Anstatt nur das Endergebnis zu belohnen, bewertet die Belohnungsfunktion den Prozess des Denkens. Sie prüft, ob das Modell:
- Perspektivabhängig argumentiert (nicht nur aus der Kameraperspektive).
- Lokale Koordinatensysteme korrekt konstruiert.
- Richtungskonsistenz wahrt.
- Fehler wie "Weltkoordinaten-Verwechslung" (Nutzung globaler Achsen statt objektzentrierter) vermeidet.
Dies erzwingt eine geometrisch fundierte Schlussfolgerung und bestraft "Glücksgriffe", bei denen die richtige Antwort ohne korrekte Herleitung gegeben wird.

3. Wichtige Beiträge

Neues Paradigma: Einführung von "Thinking with Spatial Code", das Videos in explizite, zeitlich kohärente 3D-Repräsentationen zerlegt, bevor das LLM diese verarbeitet.
Empirische Rezeptur: Ein Trainingsansatz für ein Wahrnehmungsmodul, das visuelle Kodierung, 6D-Objekt-Parsing/Tracking und geometrische Verdichtung vereint, um strukturierte Codes aus reinem RGB-Video zu generieren.
RL mit Rubric-Reward: Entwicklung einer neuen Belohnungsfunktion, die räumliches Denken (Perspektive, Orientierung) explizit belohnt und so die Schlussfolgerungsfähigkeit von LLMs für physikalische Fragen verbessert.
Erkenntnis zur Bottleneck: Der Nachweis, dass die Qualität der 3D-Wahrnehmung (nicht die Größe des Sprachmodells) der kritische Engpass für räumliches Reasoning ist.

4. Ergebnisse

Das Modell wurde auf VSI-Bench (Video Spatial Intelligence Benchmark) und einem neuen Video-RoboSpatial Benchmark evaluiert.

State-of-the-Art (SOTA): Das Modell übertrifft sowohl proprietäre Modelle (GPT-5o, Gemini-2.5-Pro) als auch Open-Source-Modelle (Qwen3-VL, LLaVA-OneVision) deutlich.
- Auf VSI-Bench erreicht es 60,0 % Genauigkeit (mit 2D-Bounding-Box-Hilfe), verglichen mit 55,0 % für GPT-5o und 53,5 % für Gemini-2.5-Pro.
- Ohne RL-Feinabstimmung liegt es bereits über dem Basis-LLM (Qwen3-4B).
3D-Wahrnehmung: Der Spatial Encoder erreicht auf ARKitScenes und ScanNet SOTA-Ergebnisse bei der 3D-Objekterkennung aus Videos (F1@0.25 von 0,156 bzw. 0,209), was sogar punktcloud-basierte Methoden (die oft Ground-Truth-Punktewolken benötigen) übertrifft.
Ablationsstudie:
- Die Verwendung von Ground-Truth-Spatial-Codes führt zu einer Genauigkeit von 73,2 % (nahe am menschlichen Niveau von 79,2 %).
- Der Abfall auf 60,0 % bei Verwendung der vorhergesagten Codes zeigt, dass Wahrnehmungsfehler direkt in die Schlussfolgerung propagieren.
- Ein kleineres Modell (4B Parameter) mit hochwertigen Spatial Codes schlägt deutlich größere Modelle (bis zu 230B Parameter), die Rohvideo verarbeiten.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass der Schlüssel zu robustem räumlichem Verständnis in Videos nicht in der bloßen Skalierung von Multimodal-Modellen liegt, sondern in der Entkopplung von Wahrnehmung und Schlussfolgerung.

Durch die Umwandlung von visuellen Daten in explizite, symbolische 3D-Codes ("Spatial Code") können LLMs mathematisch präzise über Geometrie und Physik reasoning.
Die Einführung von Spatial Rubric Rewards zeigt, dass man LLMs durch prozessorientiertes Feedback effektiv beibringen kann, räumliche Zusammenhänge korrekt zu interpretieren.
Das Framework schließt die Lücke zwischen visueller Wahrnehmung und physikalischem Verständnis und legt den Grundstein für zukünftige Anwendungen in Robotik, autonomen Systemen und physikalischer Simulation.

Der Code und die Modelle sind unter https://github.com/Beckschen/spatialcode verfügbar.

Thinking with Spatial Code for Physical-World Video Reasoning

Das Problem: Warum Computer im 3D-Raum „blind" sind

Die Lösung: „Denken mit Raum-Code"

Der Trick: Das „Raum-Regelwerk" (Reinforcement Learning)

Warum ist das wichtig?

1. Problemstellung

2. Methodik: "Thinking with Spatial Code"

A. Spatial Encoder (Wahrnehmungsmodul)

B. Reasoning mit LLMs (Schlussfolgerungsmodul)

C. Reinforcement Learning (RL) mit Spatial Rubric Reward

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes