Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple du papier de recherche Granulon, imagée pour tout le monde, comme si on racontait une histoire autour d'un chef cuisinier et de ses ingrédients.

🎨 Le Problème : Le Dilemme du Photographe

Imaginez que vous avez deux types de photographes pour décrire une image à un robot très intelligent (le modèle de langage) :

Le Photographe "Grand Angle" (CLIP) : Il prend une photo de l'ensemble du paysage. Il vous dit très bien : "C'est une maison dans la montagne". C'est super pour comprendre le contexte global, mais s'il faut décrire la texture de la brique ou la couleur précise du bouton de la porte, il est perdu. Il voit la forêt, mais pas les arbres.
Le Photographe "Zoom Macro" (DINOv3) : Lui, il voit tout ! Il peut compter les grains de sable sur une feuille ou voir les fissures dans le mur. C'est incroyable pour les détails. Mais s'il essaie de vous dire ce qu'est l'ensemble de la scène, il se perd dans les détails et oublie le contexte global. Il voit l'arbre, mais pas la forêt.

Les modèles d'intelligence artificielle actuels utilisent souvent le premier type (Grand Angle). Résultat ? Ils sont bons pour répondre à des questions simples, mais ils hallucinent (ils inventent des choses) quand on leur demande des détails précis, car ils ne voient pas assez loin.

💡 La Solution : Granulon, le Chef Cuisinier Adaptatif

L'équipe derrière Granulon a eu une idée brillante : pourquoi ne pas utiliser le Photographe "Zoom Macro" (DINOv3) qui voit tout, mais lui apprendre à changer de focale selon la question qu'on lui pose ?

C'est comme si vous aviez un chef cuisinier génial qui possède un couteau ultra-précis (pour les détails) et une loupe (pour le contexte), mais qui sait exactement quand utiliser l'un ou l'autre.

Comment ça marche ? (Les deux ingrédients magiques)

Granulon utilise deux mécanismes principaux pour transformer ce photographe "zoom" en un expert polyvalent :

1. Le "Contrôleur de Granularité" (Le Chef qui écoute)
Imaginez que vous posez une question au robot.

Si vous demandez : "Quel est le style de cette maison ?", le Contrôleur entend que vous voulez une vue d'ensemble. Il dit au photographe : "Ok, on zoome un peu, on regarde l'ensemble, on ne perd pas de temps sur les détails minuscules."
Si vous demandez : "De quelle couleur est le bouton de la porte ?", le Contrôleur change d'avis : "Non, non ! On zoome à fond ! Regarde ce bouton, ignore le reste de la maison."

Le système analyse votre question (le texte) pour décider instantanément du niveau de détail nécessaire. C'est comme un chef qui ajuste la taille des morceaux de légumes selon la recette.

2. L'"Agrégation Adaptative" (Le Tri intelligent)
Une fois que le photographe a pris ses photos (les données visuelles), il y en a des milliers. Le robot ne peut pas tout lire.

L'Agrégation prend ces milliers de détails et les regroupe intelligemment. Si le Contrôleur a demandé un zoom, elle garde les détails fins. Si elle a demandé une vue globale, elle résume les détails en concepts larges.
Elle élimine le "bruit" (les pixels inutiles) et ne garde que les informations les plus importantes pour répondre à la question.

🚀 Les Résultats : Moins d'illusions, plus de vérité

Grâce à cette méthode, Granulon fait des miracles :

Moins d'hallucinations : Comme le robot ne se perd plus dans des détails inutiles ou ne devine pas le contexte, il invente beaucoup moins de fausses informations. C'est comme si un témoin oculaire décrivait la scène avec précision au lieu de raconter des histoires.
Plus de précision : Il gagne environ 30 % de précision sur les questions complexes.
Un seul coup de pouce : Au lieu d'avoir deux robots (un pour le contexte, un pour les détails) qui travaillent séparément, Granulon fait tout en une seule fois, ce qui est plus rapide et plus efficace.

🌟 En résumé

Granulon, c'est comme donner à un robot des yeux de lynx capables de changer de focale instantanément. Au lieu de regarder une image avec des lunettes fixes (soit trop floues, soit trop serrées), le robot ajuste ses lunettes en fonction de ce que vous lui demandez.

Le résultat ? Un assistant virtuel qui comprend à la fois la forêt et les arbres, qui ne se trompe pas sur les détails, et qui ne vous raconte pas d'histoires inventées. C'est une avancée majeure pour rendre l'intelligence artificielle plus fiable et plus humaine dans sa compréhension du monde visuel.

Each language version is independently generated for its own context, not a direct translation.

Titre : Granulon : Éveiller les encodeurs visuels au niveau pixel avec des sémantiques adaptatives multi-granularité pour les MLLM

1. Problématique

Les modèles de langage multimodaux (MLLM) actuels reposent principalement sur des encodeurs visuels basés sur CLIP. Bien que CLIP excelle dans l'alignement sémantique global (compréhension de concepts larges), il souffre d'une incapacité à capturer les détails fins et les textures locales, ce qui limite la compréhension visuelle fine-granulaire.

À l'inverse, les encodeurs basés sur DINOv3 (apprentissage auto-supervisé) offrent une perception exceptionnelle au niveau pixel et une capacité de raisonnement relationnel détaillé. Cependant, ils manquent souvent d'abstraction sémantique de haut niveau (coarse-grained), ce qui rend difficile le raisonnement global et l'alignement avec les grandes langues (LLM).

Le défi central : Comment combiner la précision des détails de DINOv3 avec l'abstraction sémantique de CLIP dans un seul encodeur, sans recourir à des architectures multi-encodeurs coûteuses en calcul ? Les approches existantes peinent à fournir une granularité unifiée allant du pixel au concept global en une seule passe.

2. Méthodologie : Granulon

Les auteurs proposent Granulon, un MLLM basé sur DINOv3 qui introduit un mécanisme d'augmentation adaptative de la granularité. L'objectif est de transformer la granularité visuelle en une dimension contrôlable par le texte, permettant un raisonnement unifié "du pixel au fin, puis au grossier".

L'architecture repose sur deux modules clés :

A. Contrôleur de Granularité Conditionné par le Texte (Text-conditioned Granularity Controller)

Fonction : Ce module analyse l'entrée textuelle (la question ou l'instruction) pour prédire le niveau d'abstraction visuelle optimal nécessaire.
Mécanisme : Il utilise une projection MLP sur les embeddings de la première couche du LLM pour générer une distribution de probabilité sur différents niveaux de granularité (paramètres $\alpha$ pour le sous-échantillonnage spatial et $\beta$ pour le nombre de clusters).
Adaptation :
- Pour une question globale (ex: "Quels animaux sont dans l'image ?"), le contrôleur sélectionne une granularité grossière (coarse) pour capturer le contexte global.
- Pour une question détaillée (ex: "Quelle est la couleur de l'oreille du chien ?"), il sélectionne une granularité fine pour se concentrer sur les textures locales.

B. Agrégation Adaptative de Tokens (AdaTA - Adaptive Token Aggregation)

Une fois la granularité cible déterminée, AdaTA transforme les tokens visuels bruts de DINOv3 en tokens sémantiques compacts via trois étapes :

Poolage guidé par la granularité : Réduction de la résolution spatiale des caractéristiques visuelles en fonction du paramètre $\alpha$ prédit.
Clustering des caractéristiques : Regroupement des tokens similaires (basé sur l'attention et la similarité des caractéristiques) pour former des prototypes visuels. Le nombre de clusters est contrôlé par le paramètre $\beta$ .
Raffinement et Sélection : Calcul d'un score de qualité (basé sur la taille du support spatial, la cohérence sémantique et la dispersion) pour sélectionner les clusters les plus informatifs.

Flux de données : Les tokens sémantiques générés sont concaténés aux tokens de niveau pixel originaux et projetés vers l'espace du LLM. Cela permet au modèle de raisonner simultanément sur les détails locaux et les structures globales.

3. Contributions Clés

Nouvelle Direction pour les MLLM : Identification de la nécessité d'améliorer l'abstraction de haut niveau des encodeurs de niveau pixel (comme DINOv3) plutôt que de simplement améliorer les encodeurs sémantiques (CLIP).
Architecture Granulon : Proposition d'un cadre unifié utilisant un contrôleur textuel et une agrégation de tokens adaptative pour créer une hiérarchie sémantique dynamique (pixel $\to$ fin $\to$ grossier) en une seule passe avant.
Réduction des Hallucinations : Démonstration que l'alignement de la granularité visuelle avec l'intention textuelle réduit significativement les hallucinations, car le modèle ne s'appuie pas uniquement sur des priors sémantiques vagues mais sur des preuves visuelles adaptées.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (SEED-Bench, A-OKVQA, FLUX-Reason, SurgVLM) en utilisant des backbones LLM (Qwen2.5, Llama3.2) et en comparant Granulon avec des encodeurs CLIP, SigLIP, DINOv2 et DINOv3 purs.

Précision : Granulon améliore la précision du raisonnement d'environ 30 % par rapport aux meilleures baselines (CLIP et DINOv3) dans des conditions identiques.
- Exemple : Sur SEED-Bench, Granulon atteint 58,80 % de rappel contre 50,91 % pour CLIP.
Réduction des Hallucinations : Le taux d'hallucination diminue d'environ 20 %.
- Sur les tâches de raisonnement avec Llama3, le taux d'hallucination passe de 61,3 % (DINOv3) à 46,3 % (Granulon).
Domaine Médical : Sur SurgVLM (reconnaissance de phases chirurgicales et d'instruments), Granulon obtient des scores BERTscore supérieurs (97,32 % et 97,95 %) et un rappel significativement plus élevé, prouvant sa capacité à distinguer des détails visuels subtils tout en maintenant une compréhension globale.
Analyse d'Interprétabilité : L'analyse de l'alignement couche par couche montre que Granulon maintient une corrélation plus forte (similitude cosinus ~~0,80) entre les états visuels et le LLM tout au long de la profondeur du réseau, contrairement à CLIP dont l'alignement stagne (~~0,60).

5. Signification et Impact

Ce travail remet en question le paradigme dominant basé sur CLIP pour les MLLM. Il démontre que les encodeurs de niveau pixel, souvent sous-utilisés pour leur manque d'abstraction sémantique, peuvent devenir des fondations supérieures si leur granularité est contrôlée dynamiquement par le contexte textuel.

Implications majeures :

Efficacité : Granulon évite la complexité et le coût computationnel des architectures multi-encodeurs (fusion CLIP+DINO) tout en surpassant leurs performances.
Fiabilité : La capacité à ajuster la granularité en fonction de la question permet de réduire les hallucinations, un problème critique pour les applications réelles (médicales, juridiques, etc.).
Futur : Cela ouvre la voie à une nouvelle génération de modèles multimodaux capables de raisonner de manière hiérarchique et adaptative, unifiant la perception de bas niveau et la compréhension de haut niveau.

En résumé, Granulon prouve que l'ajout d'une couche de contrôle sémantique adaptatif sur un encodeur de détails fins (DINOv3) est une voie plus efficace pour atteindre une intelligence visuelle multimodale robuste et précise.