A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le "Café" qui ne parle qu'une langue

Imaginez un expert en vision par ordinateur très brillant, nommé DINOv2. C'est comme un chef cuisinier de génie qui a passé des années à apprendre à reconnaître les plats en regardant des photos en couleur (RGB). Il est incroyable pour ça : il sait distinguer un chat d'un chien, une voiture d'un arbre, juste en voyant une photo.

Mais il y a un gros problème : ce chef est un peu "monolingue".
Si vous lui montrez la même scène, mais cette fois-ci sous forme de carte de profondeur (une image en noir et blanc qui montre à quelle distance sont les objets, comme un relief) ou de segmentation (une image où chaque objet est coloré différemment pour dire "c'est un mur", "c'est un sol"), il est perdu.

Pour lui, une photo en couleur et la même scène en relief ressemblent à deux choses totalement différentes, comme si vous lui montriez une photo de votre chat et une photo d'une banane. Il ne comprend pas que c'est le même objet, juste vu sous un angle différent.

La Solution : Le "Café Omnivore"

Les chercheurs de Google DeepMind et de l'UCL ont eu une idée géniale : transformer ce chef "monolingue" en un Omnivore.

Un omnivore, c'est quelqu'un qui mange de tout (viande, légumes, fruits) sans se plaindre. Ici, un "Omnivore Visuel", c'est un modèle qui comprend une scène, qu'elle soit présentée en couleur, en relief, ou en carte de segmentation, et qui dit : "Ah, c'est la même chose !"

Comment ils ont fait ? (La Recette)

Ils n'ont pas réappris tout le cerveau du chef de zéro (ce qui prendrait des années et des ressources énormes). Ils ont utilisé une astuce intelligente, un peu comme un tuteur et un élève.

Le Tuteur (Le Chef DINOv2) : Il reste figé, immobile. Il est l'expert qui sait déjà tout sur les photos en couleur. Il sert de boussole.
L'Élève (Le Nouveau Modèle) : C'est une copie du chef, mais avec une petite partie du cerveau modifiable (un "adaptateur").
L'Entraînement :
- On montre à l'élève une photo en couleur et la même photo en relief.
- On lui dit : "Regarde le Tuteur, il dit que c'est un 'canapé'. Toi, tu dois aussi dire que c'est un 'canapé', peu importe si tu regardes la photo en couleur ou en relief."
- L'élève apprend à aligner ses pensées avec celles du Tuteur, mais en passant par toutes les formes d'images.

Les Astuces pour éviter les tricheries

Pour que l'élève apprenne vraiment, les chercheurs ont ajouté deux règles du jeu très astucieuses :

Le "Camouflage" (Colorisation) : Normalement, si on montre une carte de profondeur en noir et blanc, l'élève pourrait tricher en disant : "Ah, c'est noir, donc c'est une carte de profondeur !" Pour l'empêcher de tricher, ils ont peint les cartes de profondeur avec les mêmes couleurs que la photo originale. C'est comme si on donnait à l'élève un puzzle dont les pièces sont toutes de la même couleur, l'obligeant à regarder la forme et la structure des objets, et non pas juste les couleurs.
Le "Mélange" (Mixup) : Au lieu de montrer des images pures (soit couleur, soit relief), ils mélangent les deux pendant l'entraînement. Imaginez un verre d'eau où on verse progressivement du jus de fruit. L'élève apprend à reconnaître les objets même quand l'image est un mélange bizarre entre une photo et un relief. Cela le rend très robuste.

Le Résultat : Un Super-Héros de la Vision

Grâce à cette méthode, le nouveau modèle (l'Omnivore) devient magique :

Il comprend tout : Vous pouvez lui donner une photo, un dessin technique, ou une carte de profondeur, et il comprendra la scène de la même manière.
Il ne perd pas ses compétences : Il reste aussi fort que le chef original pour reconnaître les objets. Il n'a pas oublié ce qu'il savait.
Il est polyvalent : Si vous lui apprenez à prédire la distance d'un objet en utilisant des photos, il pourra le faire même si vous lui donnez ensuite des dessins techniques, sans avoir besoin de le réentraîner !

En résumé

Imaginez que vous apprenez à un enfant à reconnaître une pomme.

L'ancien modèle (DINOv2) ne reconnaît la pomme que si elle est rouge et brillante. Si vous lui montrez une pomme en noir et blanc ou un croquis, il ne sait plus quoi faire.
Le nouveau modèle (Omnivore) a appris que la pomme, c'est la forme ronde, la texture, et la place qu'elle occupe dans l'espace. Qu'elle soit rouge, verte, en noir et blanc ou dessinée au crayon, il dit toujours : "C'est une pomme !"

C'est une avancée majeure pour rendre les intelligences artificielles plus proches de la façon dont les humains voient le monde : stable, cohérente et capable de comprendre la réalité sous n'importe quel angle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les encodeurs visuels pré-entraînés de pointe, tels que DINOv2, excellent dans les tâches unimodales (traitement d'images RVB). Cependant, l'article identifie une limitation majeure : leurs représentations de caractéristiques (feature representations) sont mal alignées entre différentes modalités visuelles.

Observation clé : La similarité cosinus entre les embeddings d'une image RVB et de sa carte de profondeur (depth map) correspondante est aussi faible que celle entre deux images aléatoires non liées.
Conséquence : Un modèle fondamental "omnivore" (capable de traiter indifféremment le RVB, la profondeur, la segmentation, etc.) n'existe pas encore de manière native. Les modèles actuels ne peuvent pas généraliser un entraînement effectué sur une modalité (ex: RVB) à une autre modalité (ex: profondeur) sans réentraînement complet, car ils ne partagent pas un espace sémantique commun.

2. Méthodologie

Les auteurs proposent un cadre novateur appelé Omnivorous Vision Encoder (Encodeur Visuel Omnivore). L'objectif est d'apprendre un espace de caractéristiques agnostique à la modalité tout en préservant la puissance discriminative du modèle pré-entraîné.

Architecture : Cadre Enseignant-Élève

L'approche utilise une architecture enseignant-élève paramétriquement efficace :

Enseignant (Teacher) : Le modèle DINOv2 pré-entraîné, entièrement gelé (frozen). Il fournit une représentation stable et riche.
Élève (Student) : Initialement identique à l'enseignant, mais avec une tête d'adaptation (adapter) entraînable.
- Les premières couches (le "backbone" gelé) sont partagées.
- Seules les dernières couches de traitement (les 4 derniers blocs ViT dans le cas de ViT-B/14) sont mises à jour pour aligner les modalités.

Objectif d'Apprentissage (Loss Function)

L'entraînement repose sur deux objectifs combinés :

Alignement Symétrique Inter-Modalité ( $L_{align}$ ) :
- Utilise une perte InfoNCE (Noise-Contrastive Estimation).
- L'objectif est de rapprocher les embeddings de différentes modalités (RVB, Profondeur, Segmentation) provenant de la même scène, tout en éloignant ceux de scènes différentes.
- Cela force le modèle à apprendre une représentation unifiée de la scène, indépendamment du type d'entrée.
Perte d'Ancrage ( $L_{anchor}$ ) :
- Pour éviter que l'alignement ne conduise à un effondrement de l'espace de caractéristiques (où toutes les images deviendraient identiques) ou à une perte de sémantique, une perte de distillation est ajoutée.
- Elle force la sortie de l'élève ( $h_m$ ) à rester proche de la sortie de l'enseignant gelé ( $h^*_m$ ) pour la même modalité.
- Cela préserve la puissance discriminative originale du modèle DINOv2.

Stratégies de Données (Le "Mixed Diet")

Pour éviter les solutions triviales (ex: aligner les images simplement sur la base de leurs statistiques de couleurs), les auteurs introduisent deux techniques de prétraitement :

Colorisation Naturelle : Les cartes de profondeur et de segmentation sont colorisées en utilisant la palette de couleurs de l'image RVB correspondante. Cela crée des "positifs difficiles" (hard positives) : le modèle ne peut plus se fier aux histogrammes de couleurs pour aligner les modalités, il doit se concentrer sur le contenu structurel et géométrique.
Mélange de Modalités (Modality Mixup) : Pendant l'entraînement, les images RVB, de profondeur et de segmentation sont mélangées de manière stochastique (interpolation linéaire). Cela crée un continuum de modalités, forçant le modèle à apprendre une invariance sur un espace continu plutôt que de traiter les modalités comme des états discrets.

3. Contributions Clés

Alignement Post-Hoc Efficace : Contrairement aux méthodes qui ré-entraînent un backbone entier (comme Omnivore ou ImageBind), cette méthode ajuste uniquement quelques couches finales d'un modèle fondamental existant, rendant le processus léger et rapide.
Robustesse aux Décalages de Modalité : Le modèle apprend à mapper des entrées hétérogènes (RVB, profondeur, segmentation) vers le même point dans l'espace latent.
Préservation de la Sémantique : Grâce à la perte d'ancrage, le modèle conserve les capacités de discrimination fine du modèle DINOv2 original, évitant le "catastrophic forgetting".
Généralisation à des Modalités Invisibles : Le modèle montre une capacité à transférer des tâches apprises sur le RVB vers des modalités jamais vues pendant l'entraînement de la tête de tâche (ex: prédiction de profondeur à partir de cartes NOCS).

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (ScanNet, MOVi, TartanAir, NYUv2, Cityscapes, ImageNet).

Récupération Inter-Modalité (Cross-Modal Retrieval) :
- L'alignement est radicalement amélioré. Sur ScanNet, le rang médian (MedR) pour la récupération RVB $\to$ Profondeur passe de 401.8 (DINOv2) à 2.0 (Omnivorous).
- La précision de rappel (R@1) passe de 4.6% à 46.1%.
Tâches en Aval (Downstream Tasks) :
- Estimation de Profondeur Monoculaire : Le modèle omnivore surpasse DINOv2 avec une tête linéaire (RMSE réduit de 0.405 à 0.377 sur NYUv2) et égale les performances avec une tête DPT complexe.
- Segmentation Sémantique : Des gains sont observés sur ADE20k et Cityscapes, indiquant que l'alignement multimodal agit comme une régularisation bénéfique.
- Classification (ImageNet) : Une amélioration significative de la précision top-1 (80.4% $\to$ 83.8%) suggère que l'alignement des modalités structurelles enrichit la densité sémantique de l'espace de caractéristiques.
Transfert Zéro-Shot Inter-Modalité :
- C'est le résultat le plus frappant : Un modèle entraîné pour prédire la profondeur à partir d'images RVB est capable de prédire la profondeur à partir de cartes de segmentation (modalité non vue par la tête de tâche) avec une grande précision (RMSE 0.532 vs 1.536 pour DINOv2).
- Le modèle généralise même à des modalités totalement hors distribution comme les cartes NOCS (Normalized Object Coordinate Space).

5. Signification et Impact

Ce travail démontre qu'il est possible de transformer un modèle de vision unimodal de pointe en un modèle omnivore sans avoir besoin de collecter des masses de données étiquetées pour chaque nouvelle modalité ni de ré-entraîner l'architecture complète.

Efficacité : La méthode est légère (fine-tuning de quelques couches) et conserve les avantages de déploiement des encodeurs unimodaux existants.
Fondamental : Elle ouvre la voie à des modèles de vision plus robustes et universels, capables de comprendre le monde physique à travers divers capteurs (caméras, lidars, segmentations) de manière cohérente.
Applications Futures : Cela facilite des applications comme la génération d'images à partir de profondeur, la robotique (perception multi-capteurs), et la reconstruction 3D, où les données d'entrée peuvent varier considérablement.

En résumé, l'article propose une "recette" simple mais puissante pour unifier les modalités visuelles, transformant DINOv2 en un véritable encodeur visuel omnivore capable de généraliser au-delà de l'image RVB.