A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Cet article propose le « Omnivorous Vision Encoder », un cadre d'apprentissage qui aligne les représentations de différentes modalités (comme RGB et la profondeur) en distillant les connaissances d'un modèle DINOv2 figé, permettant ainsi de générer des embeddings cohérents et puissants indépendamment du type d'entrée.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra

Publié 2026-03-02
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le "Café" qui ne parle qu'une langue

Imaginez un expert en vision par ordinateur très brillant, nommé DINOv2. C'est comme un chef cuisinier de génie qui a passé des années à apprendre à reconnaître les plats en regardant des photos en couleur (RGB). Il est incroyable pour ça : il sait distinguer un chat d'un chien, une voiture d'un arbre, juste en voyant une photo.

Mais il y a un gros problème : ce chef est un peu "monolingue".
Si vous lui montrez la même scène, mais cette fois-ci sous forme de carte de profondeur (une image en noir et blanc qui montre à quelle distance sont les objets, comme un relief) ou de segmentation (une image où chaque objet est coloré différemment pour dire "c'est un mur", "c'est un sol"), il est perdu.

Pour lui, une photo en couleur et la même scène en relief ressemblent à deux choses totalement différentes, comme si vous lui montriez une photo de votre chat et une photo d'une banane. Il ne comprend pas que c'est le même objet, juste vu sous un angle différent.

La Solution : Le "Café Omnivore"

Les chercheurs de Google DeepMind et de l'UCL ont eu une idée géniale : transformer ce chef "monolingue" en un Omnivore.

Un omnivore, c'est quelqu'un qui mange de tout (viande, légumes, fruits) sans se plaindre. Ici, un "Omnivore Visuel", c'est un modèle qui comprend une scène, qu'elle soit présentée en couleur, en relief, ou en carte de segmentation, et qui dit : "Ah, c'est la même chose !"

Comment ils ont fait ? (La Recette)

Ils n'ont pas réappris tout le cerveau du chef de zéro (ce qui prendrait des années et des ressources énormes). Ils ont utilisé une astuce intelligente, un peu comme un tuteur et un élève.

  1. Le Tuteur (Le Chef DINOv2) : Il reste figé, immobile. Il est l'expert qui sait déjà tout sur les photos en couleur. Il sert de boussole.
  2. L'Élève (Le Nouveau Modèle) : C'est une copie du chef, mais avec une petite partie du cerveau modifiable (un "adaptateur").
  3. L'Entraînement :
    • On montre à l'élève une photo en couleur et la même photo en relief.
    • On lui dit : "Regarde le Tuteur, il dit que c'est un 'canapé'. Toi, tu dois aussi dire que c'est un 'canapé', peu importe si tu regardes la photo en couleur ou en relief."
    • L'élève apprend à aligner ses pensées avec celles du Tuteur, mais en passant par toutes les formes d'images.

Les Astuces pour éviter les tricheries

Pour que l'élève apprenne vraiment, les chercheurs ont ajouté deux règles du jeu très astucieuses :

  • Le "Camouflage" (Colorisation) : Normalement, si on montre une carte de profondeur en noir et blanc, l'élève pourrait tricher en disant : "Ah, c'est noir, donc c'est une carte de profondeur !" Pour l'empêcher de tricher, ils ont peint les cartes de profondeur avec les mêmes couleurs que la photo originale. C'est comme si on donnait à l'élève un puzzle dont les pièces sont toutes de la même couleur, l'obligeant à regarder la forme et la structure des objets, et non pas juste les couleurs.
  • Le "Mélange" (Mixup) : Au lieu de montrer des images pures (soit couleur, soit relief), ils mélangent les deux pendant l'entraînement. Imaginez un verre d'eau où on verse progressivement du jus de fruit. L'élève apprend à reconnaître les objets même quand l'image est un mélange bizarre entre une photo et un relief. Cela le rend très robuste.

Le Résultat : Un Super-Héros de la Vision

Grâce à cette méthode, le nouveau modèle (l'Omnivore) devient magique :

  1. Il comprend tout : Vous pouvez lui donner une photo, un dessin technique, ou une carte de profondeur, et il comprendra la scène de la même manière.
  2. Il ne perd pas ses compétences : Il reste aussi fort que le chef original pour reconnaître les objets. Il n'a pas oublié ce qu'il savait.
  3. Il est polyvalent : Si vous lui apprenez à prédire la distance d'un objet en utilisant des photos, il pourra le faire même si vous lui donnez ensuite des dessins techniques, sans avoir besoin de le réentraîner !

En résumé

Imaginez que vous apprenez à un enfant à reconnaître une pomme.

  • L'ancien modèle (DINOv2) ne reconnaît la pomme que si elle est rouge et brillante. Si vous lui montrez une pomme en noir et blanc ou un croquis, il ne sait plus quoi faire.
  • Le nouveau modèle (Omnivore) a appris que la pomme, c'est la forme ronde, la texture, et la place qu'elle occupe dans l'espace. Qu'elle soit rouge, verte, en noir et blanc ou dessinée au crayon, il dit toujours : "C'est une pomme !"

C'est une avancée majeure pour rendre les intelligences artificielles plus proches de la façon dont les humains voient le monde : stable, cohérente et capable de comprendre la réalité sous n'importe quel angle.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →