OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du betrittst ein völlig neues Zimmer. Du gehst langsam umher, schaust dir die Möbel an, öffnest Schränke und versuchst, dir ein Bild von dem Raum zu machen.

Ein herkömmlicher Computer oder eine einfache Kamera würde bei jedem neuen Blickwinkel das Bild „vergessen" und nur das sehen, was gerade im Fokus steht. Ein OnlineSI-System hingegen ist wie ein super-intelligenter, aufmerksamer Architekt, der mit dir durch das Zimmer geht.

Hier ist die Geschichte von OnlineSI, einfach erklärt:

1. Das Problem: Der vergessliche Roboter

Bisher waren KI-Modelle, die Sprache und Bilder verstehen (die sogenannten „Multimodalen Sprachmodelle"), wie Leute mit einem sehr kurzen Gedächtnis. Wenn sie einen Raum betrachten, merken sie sich oft nur das, was sie gerade sehen.

Das Problem: Wenn du dich drehst, vergessen sie, was hinter dir war.
Das Chaos: Wenn sie versuchen, sich alles zu merken, was sie je gesehen haben, wird ihr Gehirn (der Computer) überlastet und langsam. Es ist, als würde man versuchen, einen ganzen Ozean in eine kleine Kaffeetasse zu füllen.

2. Die Lösung: OnlineSI – Der clevere Notizblock

OnlineSI ist ein neues System, das Roboter und KI-Systeme befähigt, sich in einer sich ständig verändernden Welt zurechtzufinden. Es funktioniert wie ein intelligenter Notizblock, der sich selbst verwaltet.

Der endliche Speicher (Die Magie des Vergessens):
Stell dir vor, dein Notizblock hat nur Platz für 100 Seiten. Wenn du eine neue Seite mit einer neuen Beobachtung (z. B. „Da ist ein Stuhl") schreiben willst, aber der Block voll ist, löscht OnlineSI nicht einfach alles. Er löscht stattdessen die alten, ungenauen Details und ersetzt sie durch die neuen, besseren Informationen.
- Beispiel: Zuerst siehst du nur ein Bein eines Tisches und denkst: „Das ist ein Stuhl." Als du näher kommst und den ganzen Tisch siehst, korrigiert das System seinen Eintrag: „Nein, das ist ein Tisch." Der alte, falsche Eintrag wird überschrieben. Der Speicher bleibt immer gleich groß, aber die Qualität der Informationen wird besser.
Die 3D-Brille und das Sprachgenie:
OnlineSI kombiniert zwei Dinge:
1. Ein 3D-Scan: Es baut eine Art „Punktwolke" (eine digitale Skulptur aus Millionen kleiner Punkte) des Raumes auf.
2. Ein Sprach-Verständnis: Es nutzt ein großes Sprachmodell (wie ein sehr gebildeter Assistent), das diese Punkte nicht nur sieht, sondern versteht. Es weiß: „Diese Punkte hier bilden eine Tischplatte, und diese da sind Beine."
  Durch diese Kombination kann das System Objekte nicht nur finden, sondern auch benennen und ihre genaue Position im Raum bestimmen.

3. Wie es lernt: Der ständige Update-Prozess

Stell dir vor, du läufst durch ein Haus.

Schritt 1: Du siehst etwas durch einen Türspalt. Das System sagt: „Da ist etwas Großes."
Schritt 2: Du trittst näher. Das System aktualisiert seine Karte: „Ah, es ist ein Sofa."
Schritt 3: Du gehst um das Sofa herum. Das System fügt Details hinzu: „Es ist ein rotes Sofa mit einem Kissen."

Das System verbessert seine Vorstellung vom Raum laufend, während du dich bewegst. Es muss nicht den ganzen Raum auf einmal sehen, um ihn zu verstehen. Es baut das Verständnis Stück für Stück auf.

4. Das neue Regelwerk: Der „Fuzzy"-Test

Wie bewertet man, ob so ein System gut ist? Normalerweise prüft man: „Hat das System das Objekt gefunden? Ja/Nein."
Aber in der echten Welt ist das schwierig. Wenn du nur ein Bein eines Stuhls siehst, sollte das System dann den ganzen Stuhl melden?

Das alte Problem: Wenn das System den Stuhl nicht meldet, weil es ihn nicht ganz sieht, gilt es als Fehler. Wenn es ihn meldet, aber falsch, ist es auch ein Fehler. Das ist ungerecht.
Die OnlineSI-Lösung: Die Forscher haben eine neue Art zu bewerten erfunden, den „Fuzzy F1-Score".
- Vergleich: Stell dir vor, du bewertest einen Schüler.
  - Streng: Er muss den ganzen Stuhl sehen, um Punkte zu bekommen.
  - Nachsichtig: Er darf auch Teile des Stuhls sehen.
  - Fuzzy (Unschärfe): Das System bekommt Punkte, wenn es die Teile erkennt, die es sicher sehen kann. Für die Teile, die verdeckt sind, wird es nicht bestraft, wenn es sie nicht findet. Das macht die Bewertung fairer für Situationen, in denen man Dinge nur teilweise sieht.

Zusammenfassung

OnlineSI ist wie ein Roboter-Entdecker mit einem perfekten Gedächtnis, das aber clever genug ist, nicht zu platzen.

Es baut eine 3D-Karte des Raumes auf.
Es nutzt Sprach-KI, um zu verstehen, was diese Punkte sind.
Es aktualisiert seine Karte ständig und verbessert alte Annahmen, wenn neue Informationen kommen.
Es behält seinen Speicherplatz konstant, indem es alte, ungenaue Daten durch neue, genaue ersetzt.

Dieser Fortschritt ist ein großer Schritt hin zu Robotern, die wirklich in unserer Welt zurechtkommen, ohne sich zu verirren oder den Überblick zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit adressiert die Herausforderung, Multimodale Large Language Models (MLLMs) für Online-3D-Verständnis und Objekt-Grounding in sich ständig verändernden Umgebungen zu befähigen. Bisherige Ansätze leiden unter zwei Hauptproblemen:

Skalierungsprobleme: Viele Methoden verarbeiten alle vergangenen Beobachtungen erneut (z. B. durch Full-Attention-Mechanismen), was bei wachsenden Videostreams zu einem exponentiellen Anstieg des Rechenaufwands und des Speicherverbrauchs führt.
Mangelndes räumliches Verständnis: Bestehende Modelle scheitern oft an der genauen räumlichen Reasoning-Fähigkeit und der Verarbeitung von 3D-Strukturen, insbesondere wenn nur unvollständige Beobachtungen (z. B. durch Okklusion oder begrenzte Sichtfelder) vorliegen. Zudem wachsen die Speicherpools bei vielen bestehenden „Memory"-Ansätzen unendlich an, was für eingebettete Systeme (Embodied AI) ungeeignet ist.

Das Ziel ist es, ein System zu schaffen, das Videostreams in Echtzeit verarbeitet, sein räumliches Verständnis kontinuierlich verbessert und dabei einen festen Speicher- und Rechenaufwand beibehält.

2. Methodik: OnlineSI Framework

Das vorgeschlagene Framework OnlineSI basiert auf drei Kernkomponenten:

A. Verwaltung eines begrenzten räumlichen Speichers (Spatial Memory)

Anstatt alle Rohdaten zu speichern, führt OnlineSI einen expliziten, endlichen 3D-Punktwolken-Speicher ( $M_t = \{P_t, S_t\}$ ) ein, der aus einem Punktwolken-Teil ( $P_t$ ) und einem semantischen Teil ( $S_t$ ) besteht.

Inkrementelle Fusion: Für jeden neuen Frame werden 3D-Punktkarten (via Rekonstruktionsmodell wie CUT3R) und semantische Labels (via Grounded SAM) extrahiert.
Begrenzung der Größe: Um eine Überlauf des Speichers zu verhindern, werden alte und neue Daten in festen Verhältnissen gesampelt und fusioniert. Dies stellt sicher, dass die Gesamtanzahl der Punkte eine vordefinierte Schwelle nicht überschreitet, während frühere Beobachtungen nicht komplett vergessen werden.
Koordinatensystem: Um die Einschränkungen von SpatialLM (das nur achsenausgerichtete Punktwolken versteht) zu umgehen, werden die Punktwolken in ein einheitliches Koordinatensystem transformiert, bei dem die $xy$ -Ebene parallel zum Boden liegt und die $z$ -Achse senkrecht dazu steht.

B. Multimodale Fusion und MLLM-Verarbeitung

Das System nutzt SpatialLM (basierend auf Llama-3.2-1B-Instruct und dem Point-Cloud-Encoder Sonata) als Backbone.

Semantische Anreicherung: Ein entscheidender Innovationsschritt ist die enge Integration von semantischen Informationen in die Punktwolken-Features. Der semantische Encoder nutzt dieselbe Pooling-Struktur wie der Point-Cloud-Encoder, projiziert die semantischen Labels (z. B. „Stuhl", „Tisch") in Token-Features und addiert diese zu den geometrischen Features.
Inferenz: Die fusionierten „Spatial Memory Tokens" werden zusammen mit Text-Prompts in das LLM eingespeist. Das Modell generiert eine Szenenbeschreibung, die die 3D-Bounding-Boxen und Klassen aller erkannten Objekte enthält.
Iterative Verfeinerung: Da der Speicher über die Zeit aktualisiert wird, kann das Modell nicht nur neue Objekte erkennen, sondern auch frühere, unvollständige Detektionen verfeinern (z. B. von „ein Teil eines Tisches" zu „ein ganzer Tisch").

C. Evaluationsmetrik: Fuzzy F1-Score

Da in Online-Szenarien oft nur teilweise sichtbare Objekte vorliegen, ist eine binäre Bewertung (entweder erkannt oder nicht) irreführend.

Lösung: Die Autoren führen den Fuzzy F1-Score ein.
Mechanismus: Es werden zwei Ground-Truth-Sets definiert:
1. Strict Ground Truth ( $O^s_{gt}$ ): Nur Objekte mit hoher Sichtbarkeit (müssen erkannt werden).
2. Lenient Ground Truth ( $O^l_{gt}$ ): Alle Objekte, auch solche mit geringer Sichtbarkeit (dürfen erkannt werden).
Berechnung: Der Recall wird auf dem Strict-Set berechnet, die Precision auf dem Lenient-Set. Dies mildert die Ambiguität bei teilweise verdeckten Objekten und liefert eine fairere Bewertung der Online-Leistung.

3. Wichtige Beiträge

OnlineSI Framework: Ein neuartiges System für inkrementelles 3D-Verständnis, das durch einen begrenzten Speicher und eine effiziente Fusionsstrategie skalierbar ist und sich für eingebettete Systeme eignet.
Neue Fusionsmethode: Eine Technik zur nahtlosen Integration von 3D-Punktwolken und semantischen Informationen, die das MLLM befähigt, Objekte auf granularer Ebene zu lokalisieren und zu erkennen.
Fuzzy F1-Score: Eine neue Evaluationsmetrik, die die inhärente Unsicherheit von Online-Detektionen (durch Okklusion und unvollständige Sicht) adressiert.

4. Ergebnisse

Die Methode wurde auf den Datensätzen ScanNet und ScanNet++ evaluiert.

Quantitative Leistung: OnlineSI übertrifft alle relevanten Baselines (einschließlich SpatialLM-Merge, SpatialLM-Finetune und SpatialLM-No-Finetune) signifikant in Bezug auf den durchschnittlichen Fuzzy F1-Score.
- Auf ScanNet++ erreichte OnlineSI einen Score von 0.4397, im Vergleich zu 0.3943 für den besten Baseline (SpatialLM-Finetune).
- Die Integration semantischer Informationen und die Speicherverwaltung trugen maßgeblich zu diesem Erfolg bei.
Qualitative Ergebnisse: Das System zeigt eine kontinuierliche Verbesserung der Szenenverständnis über die Zeit. Während Baselines oft fehlerhafte Vorhersagen beibehalten oder bei unvollständigen Daten versagen, korrigiert OnlineSI frühere Detektionen und erkennt neue Objekte zuverlässig.
Ressourceneffizienz: Im Gegensatz zu Methoden wie VLM-3R, bei denen Speicher und Rechenzeit mit der Anzahl der Eingabebilder linear oder exponentiell wachsen, bleibt der Speicherbedarf von OnlineSI konstant (nach Erreichen des Limits) und die Rechenzeit skaliert sublinear.

5. Bedeutung und Ausblick

Die Arbeit ist ein wichtiger Schritt hin zu echten embodied AI-Systemen, die in dynamischen, realen Umgebungen operieren müssen.

Praktische Relevanz: Durch die Begrenzung des Speichers und die effiziente Verarbeitung von Videostreams wird die Implementierung auf Robotern und autonomen Agenten ermöglicht, die nicht über unbegrenzte Rechenressourcen verfügen.
Zukunftspotenzial: Die Arbeit legt den Grundstein für Agenten, die durch aktives Lernen und langfristige Planung komplexe Aufgaben in unstrukturierten Umgebungen lösen können.
Limitationen: Derzeit ist das System auf Innenräume beschränkt (da SpatialLM nur auf Indoor-Daten trainiert wurde) und verwendet eine statische Sampling-Strategie für den Speicher, die bei hochdynamischen Szenarien (Tracking von Objekten) noch verbessert werden muss.

Zusammenfassend demonstriert OnlineSI, wie Large Language Models durch geschicktes Speichermanagement und multimodale Fusion zu leistungsfähigen Werkzeugen für die Echtzeit-3D-Wahrnehmung gemacht werden können.