Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Chef Cuisinier et ses Assistants : L'histoire de "Leo"

Imaginez que vous voulez créer un super-chef cuisinier (une Intelligence Artificielle) capable de comprendre n'importe quelle image, même très complexe. Ce chef doit pouvoir lire des menus écrits en petits caractères, comprendre des graphiques financiers, ou analyser une scène de rue pour conduire une voiture.

Jusqu'à présent, les chercheurs essayaient d'améliorer ce chef de deux façons principales :

Le rendre plus fort : En lui donnant des yeux plus gros et plus puissants (des modèles de vision plus grands).
Lui donner plusieurs assistants : En lui attachant plusieurs "yeux" différents pour qu'il puisse voir sous plusieurs angles à la fois. C'est ce qu'on appelle le MoVE (Mélange de Visionneurs).

Mais il y avait un problème : comment faire travailler ces différents assistants ensemble sans que ça devienne un chaos ? Comment s'assurer que le chef ne se perd pas dans les détails ?

C'est là qu'intervient Leo, le nouveau modèle présenté dans cet article. Les chercheurs ont décidé de ne pas simplement ajouter plus de puissance brute, mais de réinventer la recette pour faire collaborer ces assistants.

🧩 Les 3 Secrets de la Recette de Leo

Les chercheurs ont testé des dizaines de combinaisons et ont découvert trois principes magiques pour faire fonctionner Leo :

1. La technique du "Puzzle Dynamique" (Tiling)

Imaginez que vous devez regarder une photo de très haute définition d'une ville. Si vous essayez de la voir d'un seul coup, vous perdez les détails (les panneaux de signalisation, les visages).

L'ancienne méthode : Regarder l'image entière d'un coup (trop flou) ou la couper en morceaux rigides comme une grille de Sudoku (trop rigide).
La méthode Leo : C'est comme un puzzle intelligent. Leo découpe l'image en morceaux (des "tuiles") de manière dynamique, en s'adaptant à la forme de l'image. Il prend aussi une petite photo miniature de l'ensemble pour ne pas perdre le contexte global.
L'analogie : C'est comme si vous aviez un loupe pour voir les détails des maisons, tout en gardant une vue d'ensemble du quartier pour savoir où vous êtes.

2. Le "Tressage" des informations (Token Interleaving)

Une fois que les assistants ont vu les morceaux du puzzle, ils doivent raconter ce qu'ils voient au chef.

L'ancienne méthode : L'assistant A raconte tout son histoire, puis l'assistant B raconte la sienne. Le chef doit faire un effort énorme pour relier les deux. Ou alors, ils mélangent tout dans un grand sac (concaténation), ce qui crée de la confusion.
La méthode Leo : C'est comme un tressage de nattes. Les informations de l'assistant A et de l'assistant B sont entrelacées, balle par balle. Voici un détail de l'assistant A, voici un détail de l'assistant B, voici un autre de A...
Le résultat : Le chef reçoit une histoire fluide où les détails s'imbriquent parfaitement, ce qui lui permet de mieux comprendre la scène.

3. La "Préparation Individuelle" (Post-Adaptation)

C'est le moment où les assistants parlent au chef.

L'ancienne méthode : Les assistants parlent d'abord entre eux, mélangent leurs idées, et ensuite essaient de parler au chef dans une langue qu'il comprend. Souvent, ils perdent leur propre personnalité ou leurs points forts spécifiques.
La méthode Leo : Chaque assistant a son propre traducteur personnel (un projecteur). Avant de se rencontrer, chaque assistant traduit ses observations dans la langue du chef, en gardant sa propre expertise. Ensuite, ils parlent ensemble.
L'analogie : C'est comme si chaque expert (un expert en texte, un expert en formes) préparait son propre discours parfait avant de monter sur scène ensemble. Le chef comprend mieux car chaque discours est déjà adapté à son style.

🚀 Les Résultats : Leo est-il le nouveau champion ?

Les chercheurs ont mis Leo à l'épreuve sur 11 défis différents, allant de la lecture de documents complexes à la compréhension de graphiques, en passant par la conduite autonome.

Performance : Leo bat la plupart des autres modèles qui utilisent plusieurs assistants, et ce, même s'il utilise moins de données pour s'entraîner. C'est comme un élève qui obtient de meilleures notes que ses camarades en étudiant moins, simplement parce qu'il a trouvé la meilleure méthode d'apprentissage.
Conduite Autonome : Le test ultime ? Leo a été appliqué à la conduite de voitures sans aucune modification de sa structure. Il a réussi à comprendre les scènes de la route, à repérer les dangers et à répondre à des questions complexes sur la sécurité, rivalisant avec des modèles spécialisés très lourds.

💡 En résumé

Ce papier nous dit que pour construire une IA visuelle intelligente, la qualité de l'architecture compte plus que la quantité brute de données.

Au lieu de construire un géant costaud mais mal coordonné, les chercheurs ont construit Leo, un chef d'orchestre léger et efficace qui sait exactement comment faire travailler ses assistants ensemble :

En découpant l'image intelligemment.
En tressant leurs observations.
En leur laissant préparer leur propre discours.

C'est une preuve que parfois, pour voir plus clair, il ne faut pas ouvrir de nouveaux yeux, mais apprendre à mieux utiliser ceux que l'on a déjà.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche intitulé "Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs", publié dans les Transactions on Machine Learning Research (février 2026).

1. Problématique

Les grands modèles de langage multimodaux (MLLM) actuels, bien que performants, peinent encore à gérer des tâches nécessitant une perception visuelle fine, telles que la reconnaissance optique de caractères (OCR) complexe, la compréhension de graphiques ou l'analyse de scènes à haute résolution.
L'approche émergente du Mélange d'Encodeurs Visuels (MoVE - Mixture of Vision Encoders) vise à combiner les forces complémentaires de plusieurs encodeurs pré-entraînés. Cependant, plusieurs défis restent ouverts :

Comment fusionner efficacement les tokens visuels provenant d'encodeurs hétérogènes ?
Comment gérer les entrées haute résolution sans dépasser les limites de contexte du modèle ?
À quel moment de l'architecture la fusion doit-elle avoir lieu (avant ou après l'adaptation au langage) ?
Les stratégies de fusion complexes (comme l'attention croisée) sont-elles réellement supérieures aux méthodes plus simples ?

La plupart des travaux précédents ont étudié ces stratégies de manière isolée, sans analyser systématiquement leurs interactions ni identifier les principes de conception optimaux.

2. Méthodologie et Étude Empirique

Les auteurs ont mené une étude systématique pour déterminer les meilleures pratiques de conception pour les MLLM basés sur le MoVE. Leur approche repose sur l'analyse de trois axes fondamentaux (D1, D2, D3) :

A. Intégration du Tiling Dynamique (D1)

Pour traiter des images haute résolution, les auteurs comparent différentes stratégies de découpage (tiling) combinées au MoVE :

Sans découpage (image entière).
Grille fixe (découpage uniforme).
Chevauchement (découpage avec zones superposées).
Découpage dynamique : Adapte le nombre et la forme des tuiles en fonction du rapport d'aspect de l'image, tout en générant une vignette globale pour le contexte.
Résultat : Le découpage dynamique avec contexte global s'est avéré supérieur, permettant de préserver les détails fins tout en maintenant un budget de tokens stable.

B. Stratégies de Fusion des Tokens (D2)

Au niveau des tuiles, quatre méthodes de fusion des tokens issus de deux encodeurs ont été comparées :

Concaténation de séquence (SA) : Ajout simple des séquences.
Entrelacement de séquence (SI) : Interleaving token par token (ex: $[t_1^{enc1}, t_1^{enc2}, t_2^{enc1}, t_2^{enc2}]$ ).
Concaténation de canaux (CC) : Fusion des vecteurs de caractéristiques.
Attention croisée (CA) : Mécanisme d'attention adaptatif.

Résultat : L'entrelacement au niveau des tuiles (Tile-level Sequence Interleaving) surpasse systématiquement les autres méthodes, y compris l'attention croisée, en préservant les relations spatiales tout en favorisant l'intégration des informations.

C. Timing de la Fusion : Avant ou Après l'Adaptation (D3)

Fusion pré-adaptation : Les tokens sont fusionnés avant d'être projetés dans l'espace du LLM (partage d'un seul projecteur).
Fusion post-adaptation : Chaque encodeur possède son propre projecteur dédié. Les tokens sont alignés individuellement avec le LLM avant d'être fusionnés.
Résultat : La fusion post-adaptation avec projecteurs indépendants est nettement supérieure. Elle préserve les caractéristiques spécifiques à chaque encodeur avant l'intégration, conduisant à une meilleure performance globale.

3. Contribution Principale : L'Architecture "Leo"

Sur la base de ces découvertes, les auteurs proposent Leo, un MLLM léger et efficace qui intègre les trois principes clés identifiés :

Découpage dynamique avec contexte global pour la haute résolution.
Entrelacement de séquence au niveau des tuiles pour la fusion des tokens.
Fusion post-adaptation avec projecteurs indépendants pour l'alignement des encodeurs.

Architecture technique :

Encodeurs : Utilise deux encodeurs complémentaires (ex: InternViT pour l'alignement vision-langage et SAM pour les caractéristiques de segmentation/régionales).
Traitement : Les images sont divisées en tuiles, traitées par les deux encodeurs, compressées (pixel unshuffling), puis projetées indépendamment.
Fusion : Les tokens projetés sont entrelacés par tuile avant d'être injectés dans le LLM (7B paramètres).
Entraînement : Deux étapes (alignement des projecteurs, puis instruction tuning). Une particularité notable est que les encodeurs visuels restent figés (frozen) pendant l'étape de fine-tuning, ce qui évite l'oubli catastrophique des connaissances pré-entraînées.

4. Résultats Expérimentaux

Leo a été évalué sur 11 benchmarks vision-langage et dans le domaine de la conduite autonome.

Performance Générale : Leo obtient de meilleurs résultats que la majorité des approches MoVE existantes (comme Eagle, Brave, MouSi, LLaVA-HR) sur 7 des 11 tâches, notamment sur DocVQA (80.1), ScienceQA (78.5) et ChartQA.
Efficacité des Données : Malgré l'utilisation de moins de données d'entraînement (595k pour l'alignement, 1M pour le SFT) par rapport à des modèles comme SPHINX ou DeepSeek-VL, Leo surpasse ou égale leurs performances. Cela démontre que les gains proviennent de l'architecture et non de l'échelle des données.
Efficacité Computationnelle : Avec seulement 612M de paramètres pour les encodeurs visuels (contre 1,46G pour Eagle-X3), Leo réduit les FLOPs de 61,6% et le temps de génération de 19,6% par rapport aux modèles MoVE lourds, tout en maintenant une haute précision.
Généralisation (Conduite Autonome) : Sans modification de l'architecture ni de la recette d'entraînement, Leo a été appliqué au domaine de la conduite autonome (benchmark LingoQA). Il surpasse les bases de référence open-source et rivalise avec des modèles fermés, prouvant sa capacité à généraliser à des domaines spécialisés pour la compréhension de scènes dynamiques.

5. Signification et Impact

Ce travail remet en question la complexité croissante des architectures MoVE. Il démontre que :

La simplicité dans la conception (entrelacement simple, projecteurs indépendants) est souvent plus efficace que des mécanismes de fusion complexes (comme l'attention croisée).
La préservation des caractéristiques spécifiques des encodeurs via une adaptation indépendante avant fusion est cruciale.
Il est possible d'obtenir une compréhension visuelle fine et robuste sans nécessiter de modèles massifs ou de données d'entraînement démesurées.

Leo sert ainsi de guide pratique pour le développement futur de MLLM efficaces, offrant une architecture légère, interprétable et hautement performante pour des tâches exigeantes comme l'OCR, l'analyse de documents et la perception autonome.