Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Ce papier présente InterNeg, un cadre innovant pour la détection hors distribution (OOD) avec des modèles vision-langage (VLM), qui améliore les performances en assurant une cohérence des distances inter-modales lors de la sélection des textes négatifs et de la génération d'embeddings textuels à partir d'images OOD, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang

Publié 2026-03-12
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un gardien de musée très intelligent, capable de reconnaître n'importe quelle œuvre d'art classique (les chats, les chiens, les voitures) que vous avez étudiée. C'est ce qu'on appelle un modèle d'intelligence artificielle "en distribution" (ID).

Mais que se passe-t-il si quelqu'un vous montre un objet étrange, comme un extraterrestre en plastique ou une tasse qui flotte ? C'est une donnée "hors distribution" (OOD). Le problème, c'est que votre gardien, trop confiant, va essayer de forcer cet objet étrange à rentrer dans l'une de ses catégories connues. Il dira : "Ah, c'est un chat !" alors que c'est un extraterrestre. C'est dangereux, surtout dans des domaines comme la conduite autonome ou le diagnostic médical.

Voici l'histoire de InterNeg, une nouvelle méthode proposée par des chercheurs pour aider ce gardien à mieux dire "Je ne connais pas ça".

Le Problème : Le Gardien qui utilise la mauvaise règle

Jusqu'à présent, pour aider les gardiens (les modèles d'IA) à repérer les objets inconnus, on utilisait une astuce : on leur montrait une liste de mots "négatifs" (des choses qui ne sont pas des chats, des chiens, etc.).

Le problème, c'est que les chercheurs utilisaient une règle de comparaison un peu bizarre, comme si on comparait des pommes avec des oranges :

  1. L'ancienne méthode (Intra-modalité) : On comparait le mot "extraterrestre" avec le mot "chat" (texte contre texte).
  2. La réalité du modèle (Inter-modalité) : Le modèle est entraîné à comparer une image avec un texte (une photo de chat avec le mot "chat").

C'est comme si vous essayiez de vérifier si une photo est un chat en regardant seulement si le mot "chat" ressemble au mot "chien". C'est logique pour un humain, mais pas pour le modèle ! Cette incohérence crée des erreurs : le modèle peut penser qu'un objet étrange est un "chat" juste parce que le mot "chat" est loin du mot "chien", même si l'image de l'objet est très proche de l'image d'un chat.

La Solution : InterNeg (Le Gardien qui a les yeux et les oreilles alignés)

Les auteurs proposent InterNeg, une méthode simple mais ingénieuse qui remet tout à l'endroit en respectant la logique du modèle : Image vs Texte.

Voici comment ça marche, en deux étapes magiques :

1. Le Tri des Mots (La perspective Textuelle)

Au lieu de choisir des mots "négatifs" au hasard ou juste parce qu'ils sont loin des mots "positifs", InterNeg utilise une boussole spéciale.

  • L'analogie : Imaginez que vous avez une photo de référence pour chaque catégorie (un "proxy" de chat, un "proxy" de chien).
  • L'action : InterNeg cherche des mots qui sont loins de toutes les photos de référence. Si un mot est loin de la photo de chat ET loin de la photo de chien, alors c'est un bon candidat pour dire "Ce n'est ni l'un ni l'autre".
  • Résultat : On obtient une liste de mots "négatifs" qui sont vraiment cohérents avec la façon dont le modèle voit le monde.

2. La Magie de l'Inversion (La perspective Visuelle)

C'est la partie la plus créative. Parfois, le modèle voit une image bizarre et dit : "Je suis sûr à 99% que ce n'est pas un chat".

  • L'analogie : C'est comme si le modèle voyait un monstre et criait "C'est un monstre !". Au lieu de juste ignorer ce cri, InterNeg prend cette image de "monstre" et la transforme en mot.
  • L'action : Le système utilise une technique appelée "inversion de modalité". Il prend l'image de l'objet inconnu et génère un nouveau mot (un "token") qui décrit cette image. Ce nouveau mot devient un "mot négatif" supplémentaire.
  • Le filtre : Pour éviter d'inventer des mots pour des erreurs, le système vérifie une dernière fois : "Est-ce que ce nouveau mot est vraiment loin de toutes les photos de référence ?". Si oui, il l'ajoute à la liste.

Pourquoi c'est génial ?

Imaginez que vous apprenez à un enfant à ne pas toucher au feu.

  • L'ancienne méthode : Vous lui dites "Ne touche pas au feu, c'est comme toucher à la glace" (comparaison texte-texte).
  • InterNeg : Vous lui montrez une photo de feu et vous lui dites "Ce n'est pas une pomme, ce n'est pas une voiture, et regarde, même si tu vois un objet bizarre qui ressemble à ça, ce n'est pas une pomme" (comparaison image-texte cohérente).

Les Résultats

Grâce à cette cohérence, InterNeg est devenu le champion du monde sur plusieurs tests :

  • Il se trompe beaucoup moins souvent en classant un objet inconnu comme un objet connu.
  • Il détecte les objets étranges avec une précision record, même sur des bases de données géantes comme ImageNet.

En résumé : InterNeg a simplement dit aux chercheurs : "Arrêtez de comparer des pommes avec des oranges. Si votre modèle apprend avec des images et des textes, utilisez des images et des textes pour le tester." Et ça a fonctionné du premier coup !