TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du betrittst einen riesigen, chaotischen Raum voller Gegenstände. Du möchtest einem Roboter sagen: „Bring mir die linke Tasse" oder „Zeig mir das entfernteste Buch".

Bisher war das für Roboter wie ein Albtraum. Sie mussten entweder:

Jedes einzelne Bild einzeln analysieren (sehr langsam, wie ein Schüler, der jeden Satz einzeln nachschlägt).
Stundenlang den Raum scannen und eine 3D-Karte bauen, bevor sie überhaupt verstehen konnten, wo was ist (wie ein Architekt, der erst ein komplettes Hausmodell bauen muss, bevor er den Schlüssel findet).

Das neue System, TrianguLang, ändert das Spiel komplett. Hier ist die Erklärung, wie es funktioniert, ohne technische Fachbegriffe:

1. Der „Augen-und-Gehirn"-Trick (GASA)

Stell dir vor, du hast zwei Augen. Wenn du auf einen Gegenstand schaust, sehen beide Augen ihn aus leicht unterschiedlichen Winkeln. Ein normales KI-Modell behandelt diese Bilder oft wie zwei völlig getrennte Welten. Es könnte denken: „Das ist eine Tasse im linken Bild" und „Das ist eine Tasse im rechten Bild", ohne zu merken, dass es dieselbe Tasse ist.

TrianguLang hat einen besonderen Trick namens GASA (Geometry-Aware Semantic Attention).

Die Analogie: Stell dir vor, GASA ist wie ein strenger Türsteher. Er schaut sich die Bilder an und sagt: „Moment mal! Diese Tasse im linken Bild sieht zwar genauso aus wie die im rechten, aber sie ist zu weit weg voneinander. Das kann nicht dieselbe Tasse sein!"
Er nutzt die Tiefe (wie weit weg Dinge sind), um zu filtern. Er ignoriert alles, was semantisch (inhaltlich) passt, aber geometrisch (räumlich) Unsinn ist. So versteht das System sofort, dass es sich um einen dreidimensionalen Raum handelt, nicht nur um eine Reihe von Fotos.

2. Kein GPS, keine Landkarte nötig (Pose-Free)

Früher mussten Roboter wissen: „Ich stehe genau hier, mein Kopf ist 1,5 Meter hoch und ich schaue 30 Grad nach links." Ohne diese genauen Daten (Kalibrierung) waren sie blind.

TrianguLang ist wie ein Naturtalent, das ohne Landkarte auskommt.

Die Analogie: Stell dir vor, du betrittst einen fremden Raum. Du musst nicht wissen, wie der Raum gebaut wurde oder wo genau du stehst. Du siehst einfach: „Ah, der Stuhl ist links von mir, der Tisch ist weiter weg." TrianguLang schätzt diese Entfernungen und Positionen sofort aus den Bildern allein. Es braucht keine teuren Sensoren oder stundenlanges Vorbereiten.

3. Der „Ein-Satz"-Befehl (Text statt Klicks)

Andere Systeme brauchen oft viele Klicks mit der Maus, um zu sagen: „Das ist der Stuhl, das ist der Tisch."

Die Analogie: Bei TrianguLang reicht ein einziger Satz, wie „Zeig mir den roten Stuhl". Das System versteht nicht nur das Wort „Stuhl", sondern auch den Kontext. Wenn du sagst „der linke Stuhl", rechnet es sofort aus, welcher Stuhl links ist, basierend auf der 3D-Position, die es gerade berechnet hat. Es ist wie ein Assistent, der sofort weiß, was du meinst, ohne dass du ihm den Weg zeigen musst.

4. Warum ist das so schnell? (Der Turbo-Effekt)

Die alten Methoden brauchten oft 10 bis 45 Minuten, um einen Raum zu „verstehen".

Die Analogie: Die alten Methoden waren wie ein Koch, der erst den ganzen Markt ablaufen, alle Zutaten sortieren und dann erst kochen muss.
TrianguLang ist wie ein Sofort-Koch. Es sieht den Raum, versteht ihn und liefert das Ergebnis in unter einer Sekunde (ca. 57 Millisekunden). Das ist schnell genug, damit ein Roboter oder eine AR-Brille (wie eine futuristische Sonnenbrille) in Echtzeit auf deine Sprache reagiert, während du dich bewegst.

Zusammenfassung in einem Bild

Stell dir vor, du trägst eine magische Brille. Du sagst: „Zeig mir das Buch, das hinter dem Sofa ist."

Früher: Die Brille würde stundenlang nachdenken, eine 3D-Karte zeichnen und dann vielleicht noch falsch liegen.
Mit TrianguLang: Die Brille scannt sofort, erkennt die Tiefe, findet das Sofa, sucht dahinter das Buch und hebt es in deinem Sichtfeld hervor – sofort, ohne dass du etwas tun musst.

Das Ziel: Damit können Roboter in echten Häusern arbeiten, AR-Brillen uns Dinge im Raum zeigen, und alles passiert in Echtzeit, ohne dass wir erst komplexe Karten erstellen müssen. Es ist der Schritt von „Roboter, der Fotos macht" zu „Roboter, der die Welt wirklich versteht".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Lokalisierung von Objekten und Teilen in 3D-Räumen basierend auf natürlicher Sprache ist entscheidend für Robotik, Augmented Reality (AR) und Embodied AI. Bestehende Methoden stehen jedoch vor einem fundamentalen Zielkonflikt:

Optimierungsbasierte Ansätze (z. B. NeRF, 3DGS mit semantischen Features) erreichen hohe Genauigkeit und geometrische Konsistenz, erfordern jedoch eine zeitaufwändige pro-Szenen-Optimierung (10–45 Minuten), kalibrierte Kameraposen und oft manuelle Eingaben (z. B. Klicks).
Feed-Forward-Ansätze sind schnell, leiden aber oft unter mangelnder 3D-Bewusstheit, was zu Flickern, Inkonsistenzen zwischen verschiedenen Ansichten und dem Fehlen echter metrischer 3D-Koordinaten führt.
Aktuelle Limitierungen: Viele Modelle benötigen entweder Ground-Truth-Kameraposen, vorab berechnete 3D-Karten oder große Sprachmodelle (LLMs) für räumliches Verständnis, was Latenz und Rechenkosten erhöht.

Das Ziel von TrianguLang ist es, einen Feed-Forward-Framework zu schaffen, das eine präzise, textgesteuerte 3D-Lokalisierung und Segmentierung ohne Kamerakalibrierung, ohne pro-Szenen-Optimierung und ohne LLM-Inferenz ermöglicht.

2. Methodik

TrianguLang ist ein Architektur-Framework, das semantisches Wissen mit geometrischen Priors verbindet. Es besteht aus drei Hauptkomponenten:

A. Architektur-Komponenten

SAM3 Backbone (Frozen): Ein vortrainiertes Segmentierungsmodell, das textbedingte semantische Merkmale extrahiert.
DA3-NESTED Depth Model (Frozen): Ein State-of-the-Art-Modell zur metrischen Tiefenschätzung und Pose-Schätzung. Es schätzt metrische Tiefe, intrinsische und extrinsische Kameraparameter direkt aus den Eingabebildern, ohne Ground-Truth-Kalibrierung.
GASA Decoder (Trainable): Ein kleiner, trainierbarer Transformer-Decoder (13,7 Mio. Parameter), der die Kerninnovation darstellt.

B. Kerninnovation: Geometry-Aware Semantic Attention (GASA)

Das zentrale Problem bei Multi-View-Segmentierung ist die Unterscheidung zwischen semantisch ähnlichen, aber räumlich getrennten Objekten (z. B. zwei identische Tassen in verschiedenen Ansichten).

World-Space Positional Encoding: Anstatt 2D-Pixelkoordinaten zu nutzen, werden 3D-Koordinaten für jedes Pixel berechnet (mittels DA3-Tiefe und geschätzter Kameraposen). Diese werden in einen gemeinsamen Weltkoordinatenraum projiziert.
Geometrischer Bias: Der GASA-Decoder nutzt eine spezielle Aufmerksamkeitsfunktion, die nicht nur auf semantischer Ähnlichkeit basiert, sondern einen geometrischen Bias einführt. Die Aufmerksamkeit zwischen Tokens wird durch die metrische Distanz im 3D-Raum bestraft.
- Formel: $Attention(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d}} + \beta \cdot \phi(\|P_Q - P_K\|_2)) \cdot V$
- Dabei ist $\phi$ ein gelernter Distanzkernel, der große Distanzen stark unterdrückt. Dies verhindert falsche Korrespondenzen zwischen visuell ähnlichen, aber weit entfernten Objekten.

C. 3D-Lokalisierung und Räumliches Verständnis

Metrische Lokalisierung: Anstatt nur Masken zu liefern, berechnet TrianguLang den 3D-Schwerpunkt (Centroid) des Objekts durch gewichtete Tiefen-Unprojektion der vorhergesagten Maske. Dies liefert metrische Koordinaten (z. B. „1,2 m voraus, 0,3 m links") ohne SLAM oder SfM.
LLM-freie räumliche Sprache: Statt teurer LLMs für räumliche Fragen („nächster Stuhl", „links vom Keyboard") verwendet TrianguLang Regex-Parsing für räumliche Qualifikatoren und löst diese durch direkte geometrische Berechnung auf den 3D-Schwerpunkten. Dies ermöglicht Echtzeit-Antworten (~60 ms).

3. Wichtige Beiträge

GASA (Geometry-Aware Semantic Attention): Ein neuer Aufmerksamkeitsmechanismus, der semantische Ähnlichkeit mit geometrischen Constraints (monokulare Tiefe) kombiniert, um konsistente Cross-View-Ergebnisse ohne explizite Korrespondenz-Supervision zu erreichen.
Pose-Free 3D-Lokalisierung: Die Fähigkeit, objektbezogene Koordinaten relativ zur Kamera zu bestimmen, indem Tiefe unprojiziert wird, ohne dass SLAM oder vorab bekannte Kameraposen benötigt werden.
Echtzeit-Räumliches Grounding: Unterstützung von räumlichen Qualifikatoren und relationalen Abfragen durch direkte geometrische Berechnung statt LLM-Inferenz, was Latenzen von Sekunden auf Millisekunden reduziert.
Effizienz: Das Modell verarbeitet Frames in 1008x1008 Auflösung in ca. 57 ms (~18 FPS) auf einer einzigen A100 GPU, ohne pro-Szenen-Optimierung.

4. Ergebnisse

TrianguLang wurde auf fünf Benchmarks evaluiert (ScanNet++, uCO3D, LERF-OVS, NVOS, SPIn-NeRF):

Überlegenheit gegenüber Feed-Forward-Baselines: Auf ScanNet++ erreicht TrianguLang mit reinem Text-Prompt 62,4 % mIoU und übertrifft damit MV-SAM (51,0 % mIoU), das 12 Klicks pro Objekt benötigt. Auf uCO3D erreicht es 94,6 % mIoU (vs. 91,0 % bei MV-SAM).
Generalisierung: Das Modell, das nur auf 230 ScanNet++-Szenen trainiert wurde, übertrifft Modelle, die auf dem riesigen SA-1B-Datensatz (Millionen von Bildern) trainiert wurden, in der Cross-Domain-Evaluation (ScanNet++ → uCO3D: 75,7 % vs. 32,2 %).
Vergleich mit Optimierungsbasierten Methoden: Auf LERF-OVS erreicht TrianguLang 58,1 % mIoU und 83,5 % Lokalisierungs-Genauigkeit im Zero-Shot-Transfer. Dies ist vergleichbar mit LangSplat-V2 (59,9 % mIoU), das jedoch 10–45 Minuten pro Szene für die Optimierung benötigt. TrianguLang ist dabei drei Größenordnungen schneller (~58 ms vs. Minuten).
Effizienz: Es eliminiert sowohl die manuelle Klick-Supervision als auch die pro-Szenen-Optimierung, was es für interaktive Anwendungen in Robotik und AR praktikabel macht.

5. Bedeutung und Ausblick

TrianguLang stellt einen Paradigmenwechsel dar, indem es zeigt, dass geometrisches Cross-View-Reasoning in Kombination mit starken Foundation-Modellen (SAM3, DA3) ausreicht, um die Lücke zwischen schnellen Feed-Forward-Modellen und langsamen, optimierungsbasierten 3D-Methoden zu schließen.

Praktische Relevanz: Die Eliminierung von Kalibrierung und Optimierung ermöglicht den Einsatz in dynamischen Umgebungen und auf unkalibrierten Kamerasystemen (z. B. Handys, Roboter-Kameras).
Zukünftige Anwendungen: Das Framework ist ideal für sprachgesteuerte Roboteraufgaben (z. B. „Greife den nächsten Stuhl"), AR-Anwendungen und die Interaktion mit unstrukturierten Umgebungen.
Skalierbarkeit: Da das Modell bereits mit wenigen Trainingsdaten (230 Szenen) überlegene Ergebnisse liefert, deutet die Arbeit darauf hin, dass eine Skalierung auf größere Datensätze die Leistung weiter massiv steigern könnte.

Zusammenfassend bietet TrianguLang eine robuste, schnelle und präzise Lösung für das Problem der 3D-Lokalisierung durch Sprache, das bisher entweder zu langsam oder zu ungenau war.