From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Ce papier propose un cadre novateur intégrant l'apprentissage d'embeddings pour le monde ouvert (OWEL) et l'apprentissage contrastif multi-échelle (MSCAL) pour permettre aux modèles de détection de vocabulaire ouvert d'identifier et d'apprendre de manière incrémentale des objets inconnus dans des environnements ouverts, surmontant ainsi les limites des approches actuelles face aux objets hors distribution.

Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham

Publié 2026-02-27
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🚗 De la "Liste de Courses" au "Monde Réel" : Comment apprendre à une voiture autonome à voir l'inconnu

Imaginez que vous apprenez à un enfant à reconnaître les animaux. Si vous lui montrez uniquement des photos de chats et de chiens, il deviendra un expert pour les identifier. Mais si vous lui montrez un loup ou un renard, que va-t-il faire ?

  • Soit il dira "C'est un chien !" (une erreur de classification).
  • Soit il dira "Je ne sais pas, ce n'est pas dans ma liste" (et il ignorera l'animal).

C'est exactement le problème des systèmes de vision par ordinateur actuels (comme ceux des voitures autonomes). Ils fonctionnent en "monde fermé" : ils ne connaissent que ce qu'on leur a appris. Si une voiture rencontre un objet étrange (un cerf, un camion de chantier inattendu, un ballon de baudruche géant), le système risque de le confondre avec quelque chose de connu ou de l'ignorer complètement. C'est dangereux !

Les chercheurs de l'Université de Melbourne ont créé une nouvelle méthode pour transformer ces systèmes en "monde ouvert". Voici comment ils ont fait, avec des analogies simples.


1. Le Problème : La "Liste de Courses" Rigide

Aujourd'hui, les détecteurs d'objets fonctionnent comme une liste de courses très stricte.

  • Méthode ancienne : "Je ne regarde que les pommes, les bananes et les oranges." Si vous lui montrez une poire, il ne la voit pas.
  • Méthode récente (Vocabulaire Ouvert) : On a donné au système une liste infinie de mots (grâce à l'IA et au langage). Il peut maintenant dire "Je vois une poire" si on lui a appris le mot "poire".
  • Le hic : Même avec cette liste infinie, si l'objet est très bizarre ou très différent de tout ce qu'il connaît (un "objet hors distribution"), le système panique. Il va soit le confondre avec un objet similaire (ex: confondre un cerf avec un cheval), soit l'ignorer.

2. La Solution : Deux Super-Pouvoirs

L'équipe propose un système qui combine deux nouvelles techniques pour apprendre en continu, comme un humain qui grandit.

A. Le "Détecteur de l'Inconnu" (OWEL)

Imaginez que le système a une boussole mentale.

  • D'habitude, il pointe vers les objets qu'il connaît (les "classes connues").
  • Les chercheurs ont créé un point de repère imaginaire appelé "Embedding d'Inconnu Pseudo". C'est comme si le système avait un sixième sens qui lui dit : "Attends, cet objet ne ressemble à aucun de ceux de ma liste, et il est trop loin de tout ce que je connais pour être une erreur. C'est probablement quelque chose de nouveau."
  • L'analogie : C'est comme un garde du corps qui ne cherche pas seulement à identifier les VIP, mais qui sait aussi repérer immédiatement quelqu'un qui ne correspond à aucun profil connu et qui pourrait être une menace ou une surprise.

B. Le "Filtre Multi-Échelles" (MSCAL)

Parfois, l'objet inconnu ressemble beaucoup à un objet connu (un loup ressemble à un chien). C'est là que le système utilise un filtre de précision.

  • Au lieu de regarder l'objet d'un seul coup d'œil, le système l'analyse à plusieurs niveaux de détail (comme zoomer sur une photo).
  • Il compare l'objet à un "ancrage" (une référence parfaite) pour chaque catégorie connue.
  • Si l'objet ne colle pas parfaitement à l'ancrage du "chien" à tous les niveaux de zoom, le système dit : "Non, ce n'est pas un chien, c'est un intrus."
  • L'analogie : C'est comme un détective qui ne se contente pas de dire "Il ressemble à mon suspect". Il vérifie la taille des chaussures, la forme des oreilles, la démarche. Si un détail ne colle pas, il ne l'arrête pas comme un suspect connu, mais le signale comme "inconnu".

3. L'Apprentissage sans Oubli (Le "Cerveau Flexible")

Le plus grand défi de l'apprentissage continu est l'oubli catastrophique. Quand un humain apprend une nouvelle langue, il oublie parfois l'ancienne.

  • Les anciennes méthodes : Pour apprendre une nouvelle classe (ex: "camion de pompier"), il fallait réapprendre tout le système avec des exemples de l'ancien et du nouveau. C'est lent et coûteux.
  • La méthode de cette équipe : Ils ne touchent pas au "cerveau" principal (les poids du modèle). Ils ajoutent simplement de nouvelles étiquettes (des embeddings) pour les nouveaux objets.
  • L'analogie : Imaginez un dictionnaire. Au lieu de réécrire tout le livre chaque fois qu'un nouveau mot apparaît, vous ajoutez simplement une nouvelle page à la fin. Le reste du livre reste intact, et vous n'oubliez rien de ce qui était écrit avant.

4. Pourquoi c'est important pour la route ?

Les chercheurs ont testé leur méthode sur des données de nuScenes, une base de données de conduite réelle avec des rues bondées, de la pluie, et des piétons imprévisibles.

  • Résultat : Leur système est beaucoup plus performant pour repérer les objets qu'il n'a jamais vus (comme un piéton avec un parapluie géant ou un animal sauvage) sans pour autant confondre les objets qu'il connaît déjà.
  • Le gain : La voiture autonome ne va plus dire "C'est un camion" quand c'est un cerf. Elle dira "C'est un objet inconnu, ralentissons !" C'est crucial pour la sécurité.

En résumé

Cette recherche transforme l'intelligence artificielle de la vision :

  1. Elle passe d'un élève qui a appris par cœur une liste à un observateur curieux capable de dire "Je ne connais pas ça".
  2. Elle apprend sans oublier ses anciennes connaissances.
  3. Elle utilise des filtres intelligents pour ne pas confondre les jumeaux (les objets similaires).

C'est un pas de géant vers des voitures autonomes qui peuvent vraiment naviguer dans le monde réel, imprévisible et plein de surprises, plutôt que dans un monde de laboratoire parfait.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →