From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas sturen Sicherheitsbeamten für eine Stadt. Dieser Beamte wurde trainiert, um nur bestimmte Dinge zu erkennen: Autos, Fahrräder und Fußgänger. Das ist das Problem der herkömmlichen Objekterkennung in der Computer-Vision-Welt: Sie funktioniert nur mit einer festgelegten Liste von Dingen.

Wenn nun ein Elefant durch die Stadt läuft (etwas, das auf der Liste nicht steht), passiert eines von zwei Dingen:

Der Beamte ist verwirrt und sagt: „Das ist bestimmt ein riesiges, pelziges Auto!" (Fehlklassifikation).
Oder er ignoriert das Tier komplett, weil es nicht auf seiner Liste steht, und lässt es einfach durchlaufen (Ignorieren).

In der echten Welt, besonders beim autonomen Fahren, ist das gefährlich. Ein autonomes Auto darf nicht einfach über ein unbekanntes Hindernis fahren, nur weil es nicht in seiner Datenbank steht.

Die Autoren dieses Papers haben eine Lösung entwickelt, die wir uns wie einen intelligenten, lernfähigen Assistenten vorstellen können. Hier ist die Erklärung ihrer Methode in einfachen Worten:

1. Das Problem: Die starre Liste vs. die unbegrenzte Welt

Bisherige Systeme (Open Vocabulary) sind wie ein Wörterbuch. Sie können Wörter erkennen, die im Buch stehen. Wenn Sie ein neues Wort erfinden, muss das Buch neu gedruckt werden. Das ist teuer und langsam.
Die neuen Systeme (Open World) sollen aber nicht nur Wörter erkennen, sondern auch Dinge, für die es noch kein Wort gibt.

2. Die Lösung: Zwei neue Werkzeuge

Die Forscher haben zwei Hauptwerkzeuge entwickelt, um ihren Sicherheitsbeamten schlauer zu machen:

Werkzeug A: Der „Geister-Index" (Pseudo Unknown Embedding)

Stellen Sie sich vor, der Beamte hat eine Liste aller bekannten Dinge. Aber er weiß auch, dass es im Universum noch „Dinge" gibt, die er nicht kennt.
Normalerweise würde er versuchen, ein unbekanntes Objekt mit dem ähnlichsten bekannten Wort zu vergleichen (z. B. ein unbekanntes Tier als „Hund" zu bezeichnen).

Die Autoren sagen: „Nein, lass uns einen Geister-Index erstellen."

Sie nehmen das Konzept von „Objekt" (etwas Allgemeines).
Sie ziehen davon die Summe aller bekannten Dinge ab.
Ergebnis: Was übrig bleibt, ist ein mathematischer Platzhalter für „Alles, was wir noch nicht kennen".
Analogie: Es ist wie ein „Sonstiges"-Fach in einer Schublade. Wenn etwas nicht in die Schubladen für „Auto" oder „Rad" passt, landet es im „Sonstiges"-Fach, anstatt fälschlicherweise in die „Auto"-Schublade gepresst zu werden. So kann das System sagen: „Aha, hier ist etwas, das wir noch nicht kennen!"

Werkzeug B: Der „Mehrfach-Check" (Multi-Scale Contrastive Anchor Learning)

Manchmal sieht ein unbekanntes Ding einem bekannten Ding sehr ähnlich (z. B. ein sehr seltsames Auto, das wie ein Lastwagen aussieht). Das System könnte verwirrt werden.

Hier kommt der zweite Trick ins Spiel: Der Mehrfach-Check.

Das System schaut sich das Objekt nicht nur einmal an, sondern aus verschiedenen Perspektiven und in verschiedenen Größen (wie wenn man ein Foto mal nah, mal fern betrachtet).
Es fragt sich: „Passt dieses Ding zu dem, was wir über 'Autos' wissen, wenn wir es von nahem betrachten? Und wenn wir es aus der Ferne betrachten?"
Wenn das Ding an einem Ort gut passt, aber an einem anderen Ort total daneben liegt, dann ist es wahrscheinlich ein Betrugsversuch (ein unbekanntes Objekt, das sich als bekannt ausgibt).
Analogie: Stellen Sie sich vor, Sie versuchen, einen Doppelgänger zu erkennen. Wenn Sie ihn von vorne sehen, sieht er aus wie Ihr Freund. Aber wenn Sie ihn von der Seite sehen, passt die Nase nicht. Der „Mehrfach-Check" sorgt dafür, dass das System nicht getäuscht wird, nur weil das unbekannte Objekt kurzzeitig wie ein bekanntes aussieht.

3. Das Lernen ohne Vergessen (Incremental Learning)

Das Schönste an dieser Methode ist, wie sie lernt.

Alt: Wenn ein neues Objekt (z. B. ein neuer Drohnen-Typ) auftaucht, musste man das ganze Gehirn des Systems neu trainieren. Dabei vergaß es oft, wie man alte Dinge erkennt (Katastrophales Vergessen).
Neu: Das System fügt einfach einen neuen Eintrag in seine Liste hinzu, ohne das alte Wissen zu löschen. Es ist, als würde man einem Schüler ein neues Kapitel in sein Lehrbuch geben, ohne die alten Kapitel zu verbrennen.

Warum ist das wichtig?

In der Welt des autonomen Fahrens ist dies ein Game-Changer.
Stellen Sie sich vor, Sie fahren durch eine Stadt, und plötzlich taucht ein neuer, seltsamer Lieferroboter auf, den es noch nie gab.

Ein altes System würde ihn ignorieren oder als „Auto" bezeichnen und könnte einen Unfall verursachen.
Ihr neues System würde sagen: „Ich erkenne das nicht als Auto, aber ich erkenne, dass es ein Objekt ist, das mir im Weg steht. Ich werde es als 'Unbekanntes Hindernis' markieren und vorsichtig fahren."

Zusammenfassung

Die Forscher haben einen Weg gefunden, KI-Systeme nicht nur zu lehren, was sie kennen, sondern auch zu verstehen, was sie nicht kennen. Sie haben dem System beigebracht, zwischen „Ich kenne das" und „Ich kenne das nicht, aber es ist da" zu unterscheiden, ohne dabei das alte Wissen zu verlieren. Das macht autonome Systeme sicherer und robuster in unserer chaotischen, unvorhersehbaren Welt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Traditionelle Objekterkennungsmethoden basieren auf der Closed-Set-Annahme: Modelle können nur eine feste Anzahl von Objektklassen erkennen, die im Training definiert wurden. Dies ist in realen Anwendungen (z. B. autonomes Fahren) unrealistisch und potenziell gefährlich, da unbekannte Objekte entweder falsch klassifiziert oder ignoriert werden.

Zwar gibt es Fortschritte im Bereich der Open-Vocabulary-Object-Detection (OVD), die Modelle ermöglichen, Objekte basierend auf Text-Prompts zu erkennen, doch diese haben zwei wesentliche Schwächen in „Open-World"-Szenarien:

Near-Out-of-Distribution (NOOD) Objekte: Objekte, die bekannten Klassen ähneln, werden oft falsch klassifiziert (z. B. ein unbekanntes Tier wird als „Hund" erkannt).
Far-Out-of-Distribution (FOOD) Objekte: Objekte, die semantisch weit entfernt von bekannten Klassen sind, werden oft komplett ignoriert.

Das Ziel ist es, ein Framework zu schaffen, das OVD-Modelle in der Lage versetzt, unbekannte Objekte zu identifizieren, sie als solche zu markieren und neue Klassen inkrementell zu lernen, ohne dabei das vorherige Wissen zu vergessen (Catastrophic Forgetting) oder auf teure Replay-Strategien (Wiederholung alter Daten) angewiesen zu sein.

2. Methodik

Die Autoren schlagen ein Framework vor, das auf dem YOLO-World-Modell aufbaut und zwei Hauptkomponenten integriert, um Open-World-Object-Detection (OWOD) zu ermöglichen:

A. Open World Embedding Learning (OWEL)

OWEL dient dazu, neue Klassen zu lernen und FOOD-Objekte (weit entfernte Ausreißer) zu erkennen, ohne das gesamte Modell neu zu trainieren.

Embedding-Optimierung: Anstatt das gesamte neuronale Netz zu fine-tunen, werden nur die parametrisierten Text-Embeddings der bekannten Klassen ( $W_K$ ) optimiert. Dies verhindert katastrophales Vergessen.
Pseudo Unknown Embedding ( $w_U$ ): Um FOOD-Objekte zu erkennen, wird ein spezielles „Pseudo-Unknown"-Embedding konstruiert.
- Es basiert auf einem generischen Objekt-Prompt (z. B. „object"), der die allgemeine Eigenschaft von Objekten repräsentiert.
- Um zu verhindern, dass bekannte Klassen erneut erkannt werden, wird der Mittelwert der bekannten Embeddings von diesem generischen Embedding subtrahiert:
  $w_U = w_0 - \alpha \frac{\bar{w}}{||\bar{w}||}$
- Dies verschiebt den Fokus des Embeddings auf Bereiche des semantischen Raums, die von bekannten Klassen fern liegen, und ermöglicht so die Detektion völlig unbekannter Objekte.

B. Multi-Scale Contrastive Anchor Learning (MSCAL)

MSCAL zielt darauf ab, NOOD-Objekte (nahe Ausreißer) zu identifizieren, die oft fälschlicherweise bekannten Klassen zugeordnet werden.

Konzept: Das Problem wird als eine Reihe von Deep One-Class-Classification-Problemen formuliert. Für jede bekannte Klasse $i$ wird ein spezifischer nicht-linearer Projektor trainiert.
Funktionsweise:
- Der Projektor bildet die Feature-Pyramide (Multi-Scale-Features) in einen klassenspezifischen Repräsentationsraum ab.
- Ein Class Anchor ( $\mu_i$ ) repräsentiert das Zentrum der Klasse.
- Positive Samples (Objekte der Klasse $i$ ) werden so trainiert, dass sie dem Anchor nahekommen, während Samples anderer Klassen und der Hintergrund als negative Samples dienen und weggedrückt werden.
OOD-Score: Während der Inferenz wird für jede räumliche Position ein OOD-Score berechnet ( $S(z) = -\max_i \mu_i \cdot z$ ). Ein hoher Score deutet darauf hin, dass das Objekt nicht zu den bekannten Klassen passt und somit als unbekannt markiert werden sollte.

C. Inkrementelles Lernen

Das Framework benötigt keine Replay-Daten (Exemplare früherer Tasks). Wenn neue Klassen hinzukommen, werden die Embeddings und MSCAL-Module der alten Klassen eingefroren, und nur die neuen Module werden trainiert. Dies spart Rechenressourcen und Speicherplatz.

3. Wichtige Beiträge

Einheitliches Framework: Die Vereinigung von Open-Vocabulary-Lernen und Open-World-Lernen in einem einzigen System, das sowohl bekannte als auch unbekannte Objekte erkennt und neue Klassen inkrementell lernt.
OWEL: Eine Methode zum inkrementellen Lernen neuer Klassen ohne Fine-Tuning des gesamten Modells und ohne Replay-Daten, unter Verwendung von Pseudo-Unknown-Embeddings zur Detektion von FOOD-Objekten.
MSCAL: Ein Mechanismus zur Reduzierung der Verwechslung zwischen bekannten und unbekannten Objekten (NOOD) durch Clustering von Embeddings um klassenspezifische Anker über mehrere Skalen hinweg.
Neuer Benchmark (nu-OWODB): Einführung eines neuen Benchmarks für autonomes Fahren basierend auf dem nuScenes-Datensatz, der reale Herausforderungen wie Klassenungleichgewicht, Verdeckungen und dynamische Umgebungen simuliert.

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks evaluiert und zeigt State-of-the-Art (SOTA) Leistungen:

M-OWODB & S-OWODB (Standard-Benchmarks):
- Das Modell übertrifft bestehende OWOD-Methoden (wie ORE, OW-DETR, PROB) signifikant in Bezug auf die U-Recall (Erkennungsrate unbekannter Objekte) und den mAP (Mean Average Precision) für bekannte Klassen.
- Es erzielt deutlich niedrigere Werte für Wilderness Impact (WI) und Absolute Open-Set Error (A-OSE), was bedeutet, dass unbekannte Objekte seltener falsch als bekannte klassifiziert werden.
nu-OWODB (Autonomes Fahren):
- Auf dem neuen nuScenes-Benchmark erreicht das Modell einen Vorsprung von bis zu 40 % bei der U-Recall im Vergleich zu SOTA-Methoden.
- Im Gegensatz zu anderen Methoden, die oft Fine-Tuning mit Replay-Daten benötigen, behält das vorgeschlagene Modell seine Leistung bei, ohne alte Daten zu speichern.
Zero-Shot Open-Vocabulary-Fähigkeit:
- Da nur die Text-Embeddings und MSCAL-Module optimiert werden und die Basisgewichte (YOLO-World) eingefroren bleiben, behält das Modell seine Zero-Shot-Fähigkeiten bei. Auf dem LVIS-Benchmark erreicht es vergleichbare Ergebnisse mit reinen OVD-Modellen.

5. Bedeutung und Ausblick

Diese Arbeit adressiert eine kritische Lücke in der Computer-Vision-Forschung: Die Fähigkeit von Modellen, in dynamischen, offenen Umgebungen sicher zu operieren, in denen unbekannte Objekte auftreten können.

Sicherheit: Für Anwendungen wie autonomes Fahren ist es entscheidend, nicht nur bekannte Objekte zu erkennen, sondern auch unbekannte Hindernisse (z. B. ein unbekanntes Fahrzeugmodell oder ein Tier) als solche zu identifizieren, anstatt sie falsch zu interpretieren.
Effizienz: Durch den Verzicht auf Replay-Strategien und das Fine-Tuning des gesamten Modells ist die Lösung ressourceneffizient und skalierbar.
Zukunft: Die Autoren planen, das Framework auf verschiedene Sensormodalitäten (z. B. LiDAR) und Datenbereiche zu erweitern, um die 3D-Objekterkennung in offenen Welten zu verbessern.

Zusammenfassend bietet das Paper einen robusten Ansatz, um Vision-Language-Modelle von der reinen Vokabular-Erweiterung hin zu echten Open-World-Systemen zu führen, die Unsicherheit quantifizieren und kontinuierlich lernen können.