From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super slimme robot hebt die auto's rijdt. Deze robot is getraind om alles op de weg te herkennen: auto's, fietsen, bussen en verkeersborden. Maar er zit een groot probleem: de robot is alleen getraind op wat hij al kent. Als er plotseling een vreemd object voorbij komt, zoals een grote pop die op een fiets zit, of een onbekend type vrachtwagen, dan raakt de robot in de war.

In de oude wereld van computer vision noemen we dit een "gesloten wereld". De robot denkt: "Ik ken dit niet, dus dit moet wel een auto zijn" (en maakt een fout) of "Dit bestaat niet, dus ik negeer het" (en rijdt er recht op af).

Deze paper, getiteld "Van Open Woordenschat naar Open Wereld", introduceert een nieuwe manier om deze robot slimmer te maken. Ze willen dat de robot niet alleen nieuwe woorden leert, maar ook echt begrijpt dat er dingen zijn die hij nog nooit heeft gezien, zonder dat hij alles wat hij al weet, vergeet.

Hier is hoe ze dat doen, vertaald naar alledaagse taal:

1. Het Probleem: De "Orakel" en de Verkeerde Gissingen

Stel je voor dat je de robot een lijstje geeft met woorden (een "open woordenschat"). Hij kan dan elk object herkennen dat op die lijst staat. Maar wat als er iets op de weg staat dat niet op die lijst staat?

Het "Dichtbij" probleem: Als er een vreemd type bus voorbij komt, denkt de robot: "Oh, dat lijkt op een bus, dus ik noem het een bus." Dit is gevaarlijk als het eigenlijk een vrachtwagen is.
Het "Ver weg" probleem: Als er een vreemd dier of een onbekend apparaat voorbij komt, denkt de robot: "Dit staat niet op mijn lijstje, dus dit is niets." Hij negeert het volledig.

2. De Oplossing: Twee Slimme Trucs

De auteurs van dit onderzoek hebben twee nieuwe methoden bedacht om de robot te leren omgaan met het onbekende.

Truc 1: De "Vage Schim" (Open World Embedding Learning - OWEL)

Stel je voor dat de robot een groot bibliotheek heeft met kaarten van alle bekende objecten.

Hoe het werkt: In plaats van de hele robot herschrijven (wat veel tijd kost en zorgt dat hij oude kennis vergeet), maken ze alleen de kaarten in de bibliotheek iets flexibeler.
De "Vage Schim": Ze creëren een speciale, nieuwe kaart die ze de "Vage Schim" noemen. Deze kaart vertegenwoordigt alles wat niet op de lijst staat. Het is alsof de robot een denkbeeldig concept heeft van "iets vreemds".
Het effect: Als de robot iets ziet dat op geen enkele bekende kaart lijkt, maar wel op een object, zegt hij: "Dit past niet bij een auto of een fiets, maar het is wel een object. Ik noem het 'Vage Schim'." Zo weet hij: "Er is iets vreemds, ik moet oppassen," zonder het per se verkeerd te noemen.

Truc 2: De "Veiligheidscontrole" op verschillende afstanden (Multi-Scale Contrastive Anchor Learning - MSCAL)

Stel je voor dat de robot een object bekijkt door verschillende lenzen: van heel dichtbij tot ver weg.

Het probleem: Soms ziet een object van dichtbij eruit als een bekende vriend, maar van ver weg als een vreemdeling. De robot kan hierdoor in de war raken.
Hoe het werkt: Ze geven elke bekende categorie (zoals "auto") een eigen "anker" of "thuisbasis". Als de robot een object ziet, checkt hij: "Past dit object op elke mogelijke manier (van dichtbij tot ver weg) in mijn 'auto-thuisbasis'?"
Het effect: Als het object maar één van die checks niet doorstaat (bijvoorbeeld: van dichtbij lijkt het op een auto, maar van ver weg is het te groot), dan zegt de robot: "Wacht, dit is niet echt een auto. Dit is waarschijnlijk een onbekend object." Dit helpt om de "dichtbij" fouten te voorkomen.

3. Waarom is dit belangrijk? (De Auto-rijden Test)

De auteurs hebben hun robot getest op een nieuwe, moeilijke test: het rijden door echte steden (met het nuScenes dataset).

De oude robots: Zagen veel onbekende dingen niet, of noemden ze verkeerd. Ze waren bang om fouten te maken en negeerden daarom veel.
De nieuwe robot: Ziet veel meer onbekende dingen op de weg. Hij zegt niet per se wat het precies is, maar hij waarschuwt wel: "Hier is iets dat ik niet ken!" Dit is cruciaal voor zelfrijdende auto's. Liever een waarschuwing voor een onbekend object dan een onzichtbaar gevaar.

Samenvatting in één zin

Deze paper leert een slimme camera-robot om niet alleen nieuwe woorden te leren, maar ook om veilig te zeggen "Ik weet niet wat dit is" als hij iets vreemds ziet, zonder dat hij zijn geheugen voor de dingen die hij wel kent, verliest.

Het is alsof je een kind leert om niet alleen alle dieren op een plaatje te benoemen, maar ook om te zeggen: "Mam, kijk! Dat is een dier, maar ik weet niet hoe het heet, dus ik ga er niet op rijden!"

Each language version is independently generated for its own context, not a direct translation.

Titel: Van Open Woordenschat naar Open Wereld: Het Leren van Vision Language Models om Nieuwe Objecten te Detecteren

Auteurs: Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham (Universiteit van Melbourne)
Publicatiedatum: 26 februari 2026 (arXiv:2411.18207v4)

1. Het Probleem

Traditionele objectdetectie-methoden opereren onder de gesloten-set (closed-set) aanname, waarbij modellen alleen objecten kunnen detecteren die vooraf gedefinieerd zijn in de trainingsset. Dit is onrealistisch en zelfs gevaarlijk in real-world toepassingen zoals autonoom rijden, waar modellen onbekende objecten moeten herkennen.

Recente ontwikkelingen in Open Vocabulary Object Detection (OVD) hebben de mogelijkheid om objecten te detecteren die worden gedefinieerd door een onbeperkte woordenschat (via tekstprompts). Echter, OVD-modellen hebben twee fundamentele beperkingen in een "open wereld"-context:

Afhankelijkheid van een "Oracle": Ze vereisen nauwkeurige tekstprompts. Als een object niet in de prompt staat, faalt het model.
Fouten bij Out-of-Distribution (OOD) objecten:
- Near-OOD (NOOD): Objecten die lijken op bekende klassen worden vaak verkeerd geclassificeerd als die bekende klassen.
- Far-OOD (FOOD): Objecten die sterk afwijken van bekende klassen worden vaak genegeerd (niet gedetecteerd).

Bestaande Open World Object Detection (OWOD) methoden proberen dit op te lossen door nieuwe klassen incrementeel te leren, maar ze lijden vaak onder catastrophical forgetting (vergeten van eerdere kennis) en vereisen vaak replay-strategieën (het opnieuw gebruiken van oude data), wat rekenkracht en opslag kost.

2. Methodologie

De auteurs stellen een nieuw framework voor dat OVD-modellen in staat stelt te opereren in een open wereld, zonder de zero-shot capaciteiten te verliezen. Het framework combineert twee kerncomponenten:

A. Open World Embedding Learning (OWEL)

Dit onderdeel richt zich op het detecteren van Far-OOD (FOOD) objecten en het incrementeel leren van nieuwe klassen zonder het hele model te finetunen.

Parameterisatie van Embeddings: In plaats van het hele model te finetunen, worden alleen de tekst-embeddings van de bekende klassen geoptimaliseerd. Dit voorkomt catastrophical forgetting.
Pseudo Unknown Embedding: De auteurs introduceren een concept om een "valse" embedding te creëren voor onbekende klassen.
- Ze nemen een generieke "object"-embedding ( $w_0$ , bijv. het woord "object").
- Ze trekken hier de gemiddelde embedding van alle bekende klassen ( $\bar{w}$ ) van af.
- Formule: $w_U = w_0 - \alpha \frac{\bar{w}}{||\bar{w}||}$ .
- Deze $w_U$ is specifiek ontworpen om FOOD-objecten te detecteren door de overlap met bekende klassen te minimaliseren.

B. Multi-Scale Contrastive Anchor Learning (MSCAL)

Dit onderdeel richt zich op het detecteren van Near-OOD (NOOD) objecten en het verminderen van verwarring tussen bekende en onbekende klassen.

Principe: Het behandelt het probleem als een reeks diepe "one-class classification" problemen.
Implementatie: Voor elke bekende klasse $i$ wordt een niet-lineaire projector gebruikt om de feature pyramid (beeldfeatures op verschillende schalen) te mappen naar een klassespecifieke representatieruimte.
Contrastief Leren: De embeddings van positieve samples (objecten van klasse $i$ ) worden dicht bij een klasse-anker ( $\mu_i$ ) getrokken, terwijl embeddings van andere klassen en de achtergrond er vandaan worden geduwd.
OOD Score: Tijdens inferentie wordt een OOD-score berekend als $S(z) = -\max_i (\mu_i \cdot z)$ . Een hoge score wijst erop dat het object niet goed past bij enige bekende klasse en dus waarschijnlijk onbekend is.

Inference Proces

Tijdens het detecteren:

Het model matcht beeldfeatures met tekst-embeddings (bekende klassen + de gegenereerde $w_U$ ).
De MSCAL-module levert een OOD-scoremap.
Een regio wordt als onbekend gemarkeerd als het:
- Matcht met de Pseudo Unknown Embedding ( $w_U$ ), OF
- Een hoge OOD-score heeft ten opzichte van alle bekende klassen.

3. Belangrijkste Bijdragen

Unificatie van OVD en OWOD: Een framework dat open woordenschat-leren en open wereld-leren binnen één systeem verenigt, waardoor modellen zowel bekende als onbekende objecten kunnen detecteren en nieuwe klassen kunnen leren.
OWEL (Open World Embedding Learning): Een methode om nieuwe klassen te leren en onbekende objecten te ontdekken zonder het hele model te finetunen of exemplaren van vorige taken te hoeven opslaan (geen replay nodig).
MSCAL (Multi-Scale Contrastive Anchor Learning): Een techniek om verwarring tussen bekende en onbekende objecten te verminderen door embeddings op verschillende schalen te clusteren rond klassespecifieke ankers.
Nieuw Benchmark: Introductie van nu-OWODB, een nieuwe benchmark voor open wereld objectdetectie in autonoom rijden, gebaseerd op de nuScenes-dataset, met realistische uitdagingen zoals onbalans in klassen en complexe verkeerssituaties.

4. Resultaten

De methode is getest op standaard benchmarks (M-OWODB, S-OWODB) en de nieuwe nu-OWODB benchmark.

State-of-the-Art (SOTA) Prestaties: De methode behaalt de beste resultaten op U-Recall (het herkennen van onbekende objecten) op alle benchmarks, vaak met een aanzienlijke marge (bijv. tot 40% verbetering op nu-OWODB vergeleken met bestaande SOTA-methoden).
Behoud van Known Class Performance: In tegenstelling tot veel OWOD-methoden die de prestaties op bekende klassen laten dalen, behoudt deze methode een hoge mAP (mean Average Precision) voor bekende klassen.
Zero-Shot Capaciteit: Omdat alleen de embeddings en MSCAL-modules worden geoptimaliseerd en de basis OVD-weights (YOLO-World) bevroren blijven, behoudt het model zijn zero-shot vaardigheden voor nieuwe woordenschat.
Minder Verwarring: De methoden Wilderness Impact (WI) en Absolute Open-Set Error (A-OSE) zijn significant lager dan bij concurrenten, wat aangeeft dat er minder onbekende objecten verkeerd als bekende klassen worden gemarkeerd.
Efficiëntie: Geen noodzaak voor exemplar-replay, wat opslag en rekenkracht bespaart tijdens incrementeel leren.

5. Betekenis en Toekomst

Dit werk is significant omdat het een brug slaat tussen de theoretische mogelijkheden van Open Vocabulary Detection en de praktische eisen van Open World Detection in kritieke toepassingen zoals autonoom rijden.

Praktische Toepassing: Het lost het probleem op dat bestaande modellen onbekende obstakels (zoals een ongebruikelijk voertuig of een dier op de weg) negeren of verkeerd classificeren, wat levensreddend kan zijn in verkeerssituaties.
Scalabiliteit: Door het vermijden van replay-strategieën en het gebruik van geoptimaliseerde embeddings, is het systeem schaalbaarder voor continue leerprocessen in dynamische omgevingen.
Toekomstig Werk: De auteurs suggereren uitbreiding naar andere sensormodaliteiten (zoals LiDAR) voor 3D-objectdetectie en het onderzoeken van meer complexe pseudo-unknown embeddings om outliers in de semantische ruimte beter te hanteren.

Kortom, dit paper presenteert een robuust en efficiënt framework dat vision-language modellen daadwerkelijk "open wereld"-vaardig maakt, zonder in te leveren op hun oorspronkelijke zero-shot kracht.