LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schauen aus dem Fenster Ihres Autos und sehen eine Straße voller Autos, Fußgänger und Laternen. Ein normales Bilderkennungs-Programm könnte Ihnen sagen: „Da ist ein Auto" oder „Da ist ein Fußgänger". Aber es weiß nicht wirklich, wie weit weg sie sind, wie groß sie sind oder in welche Richtung sie schauen. Für ein selbstfahrendes Auto oder einen Roboter ist das aber lebenswichtig. Es muss den dreidimensionalen Raum verstehen, um nicht gegen etwas zu fahren.

Bisher waren Computermodelle, die Sprache und Bilder verstehen (die sogenannten „Vision-Language Models" oder VLMs), wie brillante Literaten, die aber blind für den räumlichen Raum waren. Sie konnten beschreiben, was sie sahen, aber nicht messen.

Das neue Papier „LocateAnything3D" bringt eine revolutionäre Idee: Es lehrt diesen „Literaten", wie ein Mensch zu denken, indem es ihm eine dreidimensionale Brille aufsetzt. Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Analogien:

1. Der Trick: „Kette des Sehens" (Chain-of-Sight)

Stellen Sie sich vor, Sie versuchen, ein unbekanntes Objekt in einem dunklen Raum zu beschreiben. Wenn Sie sofort versuchen, seine genaue Größe und Position im Raum zu erraten, machen Sie wahrscheinlich einen Fehler.

Der menschliche Verstand macht es anders:

Zuerst sagen wir: „Da ist etwas!" (Wir lokalisieren es im 2D-Bild).
Dann schätzen wir: „Es ist ziemlich nah."
Dann: „Es ist groß."
Und schließlich: „Es ist schräg gestellt."

LocateAnything3D nennt diesen Prozess „Chain-of-Sight" (Kette des Sehens). Statt das Modell zu zwingen, sofort die komplizierte 3D-Position zu berechnen, zwingt es es, erst einen 2D-Bildrahmen (ein unsichtbares Rechteck auf dem Foto) zu zeichnen. Erst wenn das Modell sicher ist, wo das Objekt auf dem Bild ist, darf es die 3D-Informationen (Tiefe, Größe, Drehung) hinzufügen.

Die Analogie: Stellen Sie sich vor, Sie müssen ein Geschenk verpacken. Ein Anfänger versucht, das Geschenk direkt in die Schachtel zu stopfen, ohne zu messen, und das Geschenk passt nicht. Ein Profi misst erst das Geschenk (2D), schätzt dann die Tiefe (3D) und packt es dann sicher ein. LocateAnything3D ist dieser Profi.

2. Die Lern-Reihenfolge: Von „Nahe" zu „Fern"

Wenn ein Kind lernt, die Welt zu verstehen, fängt es mit Dingen an, die es direkt vor der Nase hat, bevor es sich um die Berge am Horizont kümmert.

Das Modell lernt nach demselben Prinzip. Es sortiert alle Objekte in einem Bild nicht willkürlich, sondern nach ihrer Entfernung:

Zuerst werden die Objekte erkannt, die dem Betrachter am nächsten sind.
Dann kommen die weiter entfernten.
Warum? Weil die nahen Objekte oft klarer zu sehen sind und uns helfen, die Perspektive für die weiter entfernten Objekte zu verstehen. Wenn das Modell zuerst das ferne, verschwommene Auto analysiert, verwirrt es sich. Wenn es erst das nahe, klare Auto versteht, kann es die Größe des fernen Autos besser abschätzen. Es ist wie beim Aufbau eines Hauses: Man beginnt mit dem Fundament (nahe Objekte), bevor man das Dach (ferne Objekte) baut.

3. Die Sprache der 3D-Welt

Früher mussten Forscher für 3D-Erkennung spezielle, komplizierte „Maschinen" (spezialisierte Köpfe) bauen, die nur für dieses eine Ding gemacht waren. LocateAnything3D nutzt jedoch die natürliche Sprache eines großen Sprachmodells.

Es wandelt das 3D-Problem in ein Wort-Rätsel um. Das Modell „denkt" so:

„Ich sehe ein Auto." (2D-Box)
„Das Auto ist 5 Meter entfernt." (Zentrum)
„Das Auto ist 2 Meter breit." (Größe)
„Das Auto zeigt nach links." (Drehung)

Indem es diese Informationen als eine Folge von Wörtern (Tokens) ausgibt, kann das Modell seine enorme Intelligenz nutzen, um Muster zu erkennen, die für alte Modelle unsichtbar waren.

4. Das Ergebnis: Ein Alleskönner

Das Team hat das Modell mit einer riesigen Menge an Daten trainiert, die aus verschiedenen Quellen (Straßen, Innenräume, verschiedene Kameras) stammen. Das Ergebnis ist beeindruckend:

Bessere Genauigkeit: Auf dem wichtigsten Testgelände (Omni3D) schlägt es alle bisherigen Rekorde, sogar dann, wenn die Konkurrenz Modelle mit „perfekten" 2D-Vorlagen füttert.
Keine Spezialisten nötig: Es braucht keine extra programmierten Module für 3D. Es ist ein einziges, schlankes Modell, das Sprache, Bilder und 3D-Raum gleichzeitig versteht.
Lernen aus dem Nichts: Das Modell kann auch Objekte erkennen, die es in der Trainingsphase nie gesehen hat (z. B. ein „roter Stuhl", wenn es nur „Stühle" gelernt hat), weil es die Konzepte von Form und Raum verstanden hat, nicht nur das Auswendiglernen von Bildern.

Zusammenfassung

LocateAnything3D ist wie ein neuer Lehrer für künstliche Intelligenz. Statt ihm zu sagen: „Berechne sofort die 3D-Koordinaten!", sagt es: „Schau erst mal genau hin, wo das Ding auf dem Bild ist. Zeichne einen Rahmen darum. Und erst dann, wenn du sicher bist, schätze, wie weit weg und wie groß es ist."

Durch diese einfache, aber geniale Methode – das Sehen vor dem Messen – wird aus einem reinen Bildbetrachter ein echter räumlicher Denker, der die Welt so versteht, wie wir Menschen sie erleben: dreidimensional, logisch und sicher.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Vision-Language-Modelle (VLMs) haben in den letzten Jahren enorme Fortschritte bei der offenen, 2D-basierten Objekterkennung, Beschreibung und Verortung (Grounding) gemacht. Sie können jedoch keine allgemeinen, multi-objektiven 3D-Detektionen direkt aus monokularen (einzigen) Bildern durchführen.

Bestehende monokulare 3D-Detektoren sind oft auf spezifische Domänen beschränkt, benötigen maßgeschneiderte Kopf-Module (Heads), arbeiten nur mit geschlossenen Label-Sets und erfordern sorgfältig kalibrierte Kameras. Sie besitzen nicht die Vielseitigkeit, die Kompositionalität oder die Fähigkeit, Anweisungen zu befolgen, die VLMs auszeichnen. Es fehlt derzeit an einem VLM, das 3D-Wahrnehmung „nativ" beherrscht und zuverlässige, multi-objektive 3D-Bounding-Boxen aus einem einzigen Bild und einer Textanweisung generieren kann.

2. Methodik: LocateAnything3D und Chain-of-Sight (CoS)

Das Paper stellt LocateAnything3D vor, ein Framework, das die 3D-Detektion als ein natives „Next-Token"-Vorhersageproblem in einem VLM formuliert. Der Kern der Innovation ist die Chain-of-Sight (CoS)-Strategie.

A. Chain-of-Sight (CoS) Dekodierung

Anstatt 3D-Boxen direkt vorherzusagen, zwingt das Modell das Modell, einen expliziten visuellen „Gedankengang" zu durchlaufen, der der menschlichen Wahrnehmung nachempfunden ist:

2D-Verankerung: Das Modell generiert zuerst die 2D-Bounding-Box ( $q_i$ ) für ein Objekt im Bild. Dies dient als hochkonfidenzstarke visuelle Evidenz.
3D-Inferenz: Basierend auf der 2D-Box wird sofort die entsprechende 3D-Box ( $b_i$ ) vorhergesagt.
Sequenz: Dieser Prozess wird für jedes Objekt wiederholt: $S = (q_1, b_1, q_2, b_2, \dots, \langle eos \rangle)$ .

Dieser Ansatz reduziert Halluzinationen, da die 3D-Inferenz an sichtbare Bildpixel gebunden ist, und nutzt die Stärken autoregressiver Modelle, indem einfache, informative Tokens (2D) vor komplexen (3D) kommen.

B. Curriculum-Lernen und Faktorisierung

Um die Stabilität des Trainings und der Inferenz zu maximieren, werden zwei spezifische Ordnungsstrategien angewendet:

Inter-Object Curriculum (Objekt-zu-Objekt): Objekte werden nach ihrer Tiefe sortiert, von nahe zu fern (Near-to-Far).
- Begründung: Nahe Objekte sind für die Interaktion am wichtigsten, bieten stärkere monokulare Hinweise und liefern frühe, zuverlässige Tokens. Sie setzen den geometrischen Kontext (Skala, Okklusion), der die Schätzung entfernter Objekte erleichtert.
Intra-Object Tokenization (Innerhalb eines Objekts): Die 3D-Box wird in einem semantisch geordneten Tupel dekodiert: Position (Center) $\rightarrow$ Größe (Dimensions) $\rightarrow$ Rotation.
- Begründung: Dies spiegelt die Beobachtbarkeit monokularer Hinweise wider („Wo ist es?" ist einfacher als „Wie groß ist es?", was einfacher ist als „Wie ist es orientiert?"). Diese Faktorisierung verhindert, dass Fehler in frühen Tokens die späteren Parameter kaskadierend verfälschen.

C. Datenerstellung und Training

Die Autoren haben einen umfassenden, kamera-zentrierten Datensatz erstellt, der heterogene 3D-Datenquellen (ARKitScenes, SUN-RGBD, KITTI, nuScenes, etc.) in ein einheitliches Format überführt.

Datenmenge: Ca. 1,74 Millionen Trainingsbeispiele.
Struktur: Die Daten werden genau in der Reihenfolge präsentiert, in der das Modell dekodieren soll (zuerst 2D, dann 3D; von nah zu fern).
Anti-Halluzination: Es werden explizit negative Beispiele („No Object") eingefügt, um das Modell zu lehren, keine Objekte zu detektieren, wenn keine vorhanden sind.
Architektur: Basierend auf SigLIP (Vision Encoder) und Qwen2-8B (Sprachmodell) mit einem leichten MLP-Projektor.

3. Wichtige Beiträge

Chain-of-Sight Formulierung: Die Umwandlung der offenen monokularen 3D-Detektion in ein natives Next-Token-Problem, das 2D-Grounding explizit als Zwischenschritt nutzt. Dies verbessert die Zuverlässigkeit und erhält die Fähigkeit zur Text- oder visuellen Prompting bei.
Angepasstes Curriculum: Eine spezifische Tokenisierung und Reihenfolge (nahe-zu-fern, Center-Size-Rotation), die auf die Eigenschaften autoregressiver Dekodierung und monokularer Hinweise zugeschnitten ist.
Einheitlicher, skalierbarer Datensatz: Ein groß angelegter, kamera-zentrierter Korpus, der verschiedene Datenquellen vereint und das Training ohne domänenspezifische Kopf-Module ermöglicht.

4. Ergebnisse

Das Modell wurde auf dem anspruchsvollen Omni3D-Benchmark evaluiert, der sowohl Innen- als auch Außenszenen abdeckt.

State-of-the-Art (SOTA): LocateAnything3D erreicht 38,90 AP3D (Average Precision 3D).
Vergleich: Dies ist eine absolute Verbesserung von +13,98 Punkten gegenüber dem vorherigen Bestwert (Cube R-CNN).
Besondere Leistung: Das Modell übertrifft sogar Baselines, denen Ground-Truth 2D-Boxen als Eingabe gegeben wurden (DetAny3D w/ Ground-Truth 2D Box: 34,38 AP3D vs. LocateAnything3D: 38,90 AP3D). Dies beweist, dass das gemeinsame Lernen von 2D und 3D in einem einzigen Interface effektiver ist als das Aufsetzen eines 3D-Kopfes auf externe 2D-Vorschläge.
Zero-Shot Generalisierung: Das Modell zeigt starke Leistung bei bisher nicht gesehenen Objektkategorien, ohne dass externe 2D-Detektoren benötigt werden.
3D Grounding: Bei Aufgaben zur Verortung von Objekten basierend auf räumlichen Textbeschreibungen (z. B. „Stuhl links") übertrifft LocateAnything3D bestehende Modelle wie Cube-LLM deutlich, auch wenn es mit weniger Trainingsdaten trainiert wurde.

5. Bedeutung und Ausblick

LocateAnything3D schließt eine langjährige Lücke zwischen der offenen Vokabular-Erkennung (Open-Vocabulary Recognition) und dem metrischen 3D-Verständnis.

Praktische Anwendung: Es bietet eine einfache, robuste und skalierbare Methode, um VLMs 3D-Wahrnehmung beizubringen, was entscheidend für embodied AI (embodied agents, Robotik) ist, da 3D-Boxen eine kompakte, metrisch sinnvolle Darstellung des Szenenzustands für Interaktionen liefern.
Paradigmenwechsel: Die Arbeit zeigt, dass komplexe geometrische Aufgaben wie 3D-Detektion nicht zwingend spezialisierte Architekturen benötigen, sondern durch eine geschickte Formulierung als sequenzielle Token-Vorhersage (Chain-of-Sight) effektiv gelöst werden können.
Zukunft: Der Ansatz legt den Grundstein für Erweiterungen in Video-Analyse, multi-view Reasoning und komplexere Planungs-Aufgaben für autonome Systeme.

Zusammenfassend demonstriert LocateAnything3D, dass die Integration von 2D-Verankerung und strukturiertem 3D-Decoding in einem VLM zu einer überlegenen, generalisierbaren und robusten 3D-Wahrnehmung führt.