From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Each language version is independently generated for its own context, not a direct translation.

🚗 De la "Liste de Courses" au "Monde Réel" : Comment apprendre à une voiture autonome à voir l'inconnu

Imaginez que vous apprenez à un enfant à reconnaître les animaux. Si vous lui montrez uniquement des photos de chats et de chiens, il deviendra un expert pour les identifier. Mais si vous lui montrez un loup ou un renard, que va-t-il faire ?

Soit il dira "C'est un chien !" (une erreur de classification).
Soit il dira "Je ne sais pas, ce n'est pas dans ma liste" (et il ignorera l'animal).

C'est exactement le problème des systèmes de vision par ordinateur actuels (comme ceux des voitures autonomes). Ils fonctionnent en "monde fermé" : ils ne connaissent que ce qu'on leur a appris. Si une voiture rencontre un objet étrange (un cerf, un camion de chantier inattendu, un ballon de baudruche géant), le système risque de le confondre avec quelque chose de connu ou de l'ignorer complètement. C'est dangereux !

Les chercheurs de l'Université de Melbourne ont créé une nouvelle méthode pour transformer ces systèmes en "monde ouvert". Voici comment ils ont fait, avec des analogies simples.

1. Le Problème : La "Liste de Courses" Rigide

Aujourd'hui, les détecteurs d'objets fonctionnent comme une liste de courses très stricte.

Méthode ancienne : "Je ne regarde que les pommes, les bananes et les oranges." Si vous lui montrez une poire, il ne la voit pas.
Méthode récente (Vocabulaire Ouvert) : On a donné au système une liste infinie de mots (grâce à l'IA et au langage). Il peut maintenant dire "Je vois une poire" si on lui a appris le mot "poire".
Le hic : Même avec cette liste infinie, si l'objet est très bizarre ou très différent de tout ce qu'il connaît (un "objet hors distribution"), le système panique. Il va soit le confondre avec un objet similaire (ex: confondre un cerf avec un cheval), soit l'ignorer.

2. La Solution : Deux Super-Pouvoirs

L'équipe propose un système qui combine deux nouvelles techniques pour apprendre en continu, comme un humain qui grandit.

A. Le "Détecteur de l'Inconnu" (OWEL)

Imaginez que le système a une boussole mentale.

D'habitude, il pointe vers les objets qu'il connaît (les "classes connues").
Les chercheurs ont créé un point de repère imaginaire appelé "Embedding d'Inconnu Pseudo". C'est comme si le système avait un sixième sens qui lui dit : "Attends, cet objet ne ressemble à aucun de ceux de ma liste, et il est trop loin de tout ce que je connais pour être une erreur. C'est probablement quelque chose de nouveau."
L'analogie : C'est comme un garde du corps qui ne cherche pas seulement à identifier les VIP, mais qui sait aussi repérer immédiatement quelqu'un qui ne correspond à aucun profil connu et qui pourrait être une menace ou une surprise.

B. Le "Filtre Multi-Échelles" (MSCAL)

Parfois, l'objet inconnu ressemble beaucoup à un objet connu (un loup ressemble à un chien). C'est là que le système utilise un filtre de précision.

Au lieu de regarder l'objet d'un seul coup d'œil, le système l'analyse à plusieurs niveaux de détail (comme zoomer sur une photo).
Il compare l'objet à un "ancrage" (une référence parfaite) pour chaque catégorie connue.
Si l'objet ne colle pas parfaitement à l'ancrage du "chien" à tous les niveaux de zoom, le système dit : "Non, ce n'est pas un chien, c'est un intrus."
L'analogie : C'est comme un détective qui ne se contente pas de dire "Il ressemble à mon suspect". Il vérifie la taille des chaussures, la forme des oreilles, la démarche. Si un détail ne colle pas, il ne l'arrête pas comme un suspect connu, mais le signale comme "inconnu".

3. L'Apprentissage sans Oubli (Le "Cerveau Flexible")

Le plus grand défi de l'apprentissage continu est l'oubli catastrophique. Quand un humain apprend une nouvelle langue, il oublie parfois l'ancienne.

Les anciennes méthodes : Pour apprendre une nouvelle classe (ex: "camion de pompier"), il fallait réapprendre tout le système avec des exemples de l'ancien et du nouveau. C'est lent et coûteux.
La méthode de cette équipe : Ils ne touchent pas au "cerveau" principal (les poids du modèle). Ils ajoutent simplement de nouvelles étiquettes (des embeddings) pour les nouveaux objets.
L'analogie : Imaginez un dictionnaire. Au lieu de réécrire tout le livre chaque fois qu'un nouveau mot apparaît, vous ajoutez simplement une nouvelle page à la fin. Le reste du livre reste intact, et vous n'oubliez rien de ce qui était écrit avant.

4. Pourquoi c'est important pour la route ?

Les chercheurs ont testé leur méthode sur des données de nuScenes, une base de données de conduite réelle avec des rues bondées, de la pluie, et des piétons imprévisibles.

Résultat : Leur système est beaucoup plus performant pour repérer les objets qu'il n'a jamais vus (comme un piéton avec un parapluie géant ou un animal sauvage) sans pour autant confondre les objets qu'il connaît déjà.
Le gain : La voiture autonome ne va plus dire "C'est un camion" quand c'est un cerf. Elle dira "C'est un objet inconnu, ralentissons !" C'est crucial pour la sécurité.

En résumé

Cette recherche transforme l'intelligence artificielle de la vision :

Elle passe d'un élève qui a appris par cœur une liste à un observateur curieux capable de dire "Je ne connais pas ça".
Elle apprend sans oublier ses anciennes connaissances.
Elle utilise des filtres intelligents pour ne pas confondre les jumeaux (les objets similaires).

C'est un pas de géant vers des voitures autonomes qui peuvent vraiment naviguer dans le monde réel, imprévisible et plein de surprises, plutôt que dans un monde de laboratoire parfait.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection d'objets traditionnelle repose sur l'hypothèse d'un ensemble fermé (closed-set), où le modèle ne peut détecter que des catégories prédéfinies lors de l'entraînement. Bien que la détection d'objets à vocabulaire ouvert (OVD) ait permis de détecter des objets définis par un vocabulaire illimité via des prompts textuels, elle présente des limites critiques dans des scénarios réels comme la conduite autonome :

Dépendance aux prompts : L'OVD nécessite des prompts précis fournis par un "oracle". En l'absence de prompt correspondant, le modèle échoue.
Confusion avec les objets hors distribution (OOD) :
- Les objets NOOD (Near-Out-of-Distribution), ayant des caractéristiques similaires aux classes connues, sont souvent mal classés (faux positifs).
- Les objets FOOD (Far-Out-of-Distribution), très différents des classes connues, sont souvent ignorés (faux négatifs).
Apprentissage incrémental : Les méthodes existantes d'Open World Object Detection (OWOD) souffrent souvent de l'oubli catastrophique et nécessitent une stratégie de replay (réintroduction de données anciennes) coûteuse en ressources.

L'objectif de cet article est de proposer un cadre unifié permettant aux modèles OVD d'opérer dans un monde ouvert, en détectant à la fois les objets connus et inconnus, et en apprenant incrémentalement de nouvelles classes sans oublier les connaissances précédentes.

2. Méthodologie Proposée

Les auteurs proposent un framework basé sur l'architecture YOLO-World, intégrant deux modules novateurs pour gérer l'ouverture du monde :

A. Open World Embedding Learning (OWEL)

Ce module vise à détecter les objets FOOD et à apprendre de nouvelles classes sans fine-tuning complet du modèle.

Apprentissage par embeddings : Au lieu de fine-tuner tout le réseau, seule l'embedding textuelle des classes connues ( $W_K$ ) est optimisée.
Pseudo Unknown Embedding ( $w_U$ ) : Pour détecter les objets inconnus, les auteurs introduisent un concept d'embedding "pseudo-inconnu".
- Il est construit en soustrayant la moyenne des embeddings des classes connues d'un embedding générique représentant l'« objectité » (mot "object").
- Formule : $w_U = w_0 - \alpha \frac{\bar{w}}{||\bar{w}||}$ , où $w_0$ est l'embedding générique et $\bar{w}$ la moyenne des classes connues.
- Cela permet au modèle de repousser les objets connus vers leurs classes respectives tout en attirant les objets très différents (FOOD) vers cet embedding $w_U$ .

B. Multi-Scale Contrastive Anchor Learning (MSCAL)

Ce module vise à identifier les objets NOOD (mal classés) et à réduire la confusion entre classes connues et inconnues.

Approche par ancrage : Pour chaque classe connue, un projecteur non linéaire mappe les cartes de caractéristiques multi-échelles vers un espace de représentation spécifique.
Apprentissage contrastif : Le modèle maximise la similarité entre les échantillons positifs d'une classe et un "ancrage" (anchor) spécifique à cette classe, tout en minimisant la similarité avec les autres classes et le fond.
Score OOD : Lors de l'inférence, un score de hors-distribution est calculé pour chaque localisation spatiale. Si un objet a un score élevé par rapport à tous les ancres connus, il est rejeté comme inconnu.

C. Apprentissage Incrémental

Le framework évite le replay de données. Lors de l'introduction de nouvelles classes :

Les embeddings et modules MSCAL des classes précédentes sont gelés.
Seuls les nouveaux modules sont entraînés.
Cela prévient l'oubli catastrophique tout en économisant le stockage et la puissance de calcul.

3. Contributions Clés

Unification OVD et OWOD : Un cadre unique permettant aux modèles à vocabulaire ouvert de fonctionner dans des environnements de monde ouvert, détectant et apprenant de nouvelles classes dynamiquement.
Nouvelle méthode OWEL : Permet la découverte et l'apprentissage incrémental de classes sans fine-tuning global ni besoin d'exemplaires des tâches précédentes.
Nouvelle méthode MSCAL : Réduit la confusion connu/inconnu en regroupant les embeddings des classes connues autour d'ancres spécifiques à différentes échelles, facilitant le rejet des objets OOD.
Nouveau Benchmark (nu-OWODB) : Création d'un benchmark basé sur le dataset nuScenes pour évaluer l'OWOD dans des scénarios de conduite autonome réalistes, incluant des défis comme les conditions météorologiques, les occlusions et le déséquilibre des classes.

4. Résultats Expérimentaux

Les performances ont été évaluées sur plusieurs benchmarks standards et le nouveau benchmark nu-OWODB.

Benchmarks Standards (M-OWODB et S-OWODB) :
- La méthode proposée surpasse l'état de l'art (SOTA) en termes de U-Recall (rappel des classes inconnues) et de mAP (précision moyenne) pour les classes connues.
- Elle obtient les meilleurs scores sur les métriques de confusion (Wilderness Impact - WI et Absolute Open-Set Error - A-OSE), indiquant une meilleure séparation entre objets connus et inconnus.
Benchmark Conduite Autonome (nu-OWODB) :
- Sur ce benchmark difficile, la méthode atteint un U-Recall supérieur de 40% par rapport aux méthodes SOTA existantes.
- Elle maintient une performance élevée sur les classes connues sans nécessiter de ré-entraînement sur les anciennes données.
Capacité Zero-Shot (OVD) :
- En conservant les poids du modèle OVD d'origine (YOLO-World) gelés et en n'optimisant que les embeddings et les modules MSCAL, la méthode préserve ses capacités de détection zero-shot sur le benchmark LVIS, confirmant l'unification réussie des deux tâches.

5. Signification et Impact

Cet travail représente une avancée significative pour le déploiement de la vision par ordinateur dans des environnements non contrôlés, tels que la conduite autonome.

Sécurité : En permettant au système de détecter et de signaler les objets inconnus (FOOD et NOOD) plutôt que de les ignorer ou de les classer à tort, le risque d'accidents dus à une mauvaise perception est réduit.
Efficacité : L'élimination du besoin de replay de données rend l'apprentissage incrémental plus viable pour des systèmes embarqués aux ressources limitées.
Flexibilité : Le cadre offre une solution unifiée qui combine la richesse sémantique du vocabulaire ouvert avec la robustesse nécessaire pour gérer l'inconnu, comblant ainsi le fossé entre la recherche théorique et les applications critiques.

En résumé, les auteurs démontrent qu'il est possible de transformer un détecteur à vocabulaire ouvert en un véritable détecteur de monde ouvert, capable d'évoluer continuellement face à de nouveaux objets sans sacrifier ses performances initiales.