Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Ce papier présente LEO, une architecture simple et efficace qui améliore la compréhension visuelle des modèles multimodaux en intégrant un mélange d'encodeurs de vision via une fusion légère et un intercalage de tuiles, surpassant les approches existantes sur divers benchmarks et s'adaptant bien au domaine de la conduite autonome.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Chef Cuisinier et ses Assistants : L'histoire de "Leo"

Imaginez que vous voulez créer un super-chef cuisinier (une Intelligence Artificielle) capable de comprendre n'importe quelle image, même très complexe. Ce chef doit pouvoir lire des menus écrits en petits caractères, comprendre des graphiques financiers, ou analyser une scène de rue pour conduire une voiture.

Jusqu'à présent, les chercheurs essayaient d'améliorer ce chef de deux façons principales :

  1. Le rendre plus fort : En lui donnant des yeux plus gros et plus puissants (des modèles de vision plus grands).
  2. Lui donner plusieurs assistants : En lui attachant plusieurs "yeux" différents pour qu'il puisse voir sous plusieurs angles à la fois. C'est ce qu'on appelle le MoVE (Mélange de Visionneurs).

Mais il y avait un problème : comment faire travailler ces différents assistants ensemble sans que ça devienne un chaos ? Comment s'assurer que le chef ne se perd pas dans les détails ?

C'est là qu'intervient Leo, le nouveau modèle présenté dans cet article. Les chercheurs ont décidé de ne pas simplement ajouter plus de puissance brute, mais de réinventer la recette pour faire collaborer ces assistants.

🧩 Les 3 Secrets de la Recette de Leo

Les chercheurs ont testé des dizaines de combinaisons et ont découvert trois principes magiques pour faire fonctionner Leo :

1. La technique du "Puzzle Dynamique" (Tiling)

Imaginez que vous devez regarder une photo de très haute définition d'une ville. Si vous essayez de la voir d'un seul coup, vous perdez les détails (les panneaux de signalisation, les visages).

  • L'ancienne méthode : Regarder l'image entière d'un coup (trop flou) ou la couper en morceaux rigides comme une grille de Sudoku (trop rigide).
  • La méthode Leo : C'est comme un puzzle intelligent. Leo découpe l'image en morceaux (des "tuiles") de manière dynamique, en s'adaptant à la forme de l'image. Il prend aussi une petite photo miniature de l'ensemble pour ne pas perdre le contexte global.
  • L'analogie : C'est comme si vous aviez un loupe pour voir les détails des maisons, tout en gardant une vue d'ensemble du quartier pour savoir où vous êtes.

2. Le "Tressage" des informations (Token Interleaving)

Une fois que les assistants ont vu les morceaux du puzzle, ils doivent raconter ce qu'ils voient au chef.

  • L'ancienne méthode : L'assistant A raconte tout son histoire, puis l'assistant B raconte la sienne. Le chef doit faire un effort énorme pour relier les deux. Ou alors, ils mélangent tout dans un grand sac (concaténation), ce qui crée de la confusion.
  • La méthode Leo : C'est comme un tressage de nattes. Les informations de l'assistant A et de l'assistant B sont entrelacées, balle par balle. Voici un détail de l'assistant A, voici un détail de l'assistant B, voici un autre de A...
  • Le résultat : Le chef reçoit une histoire fluide où les détails s'imbriquent parfaitement, ce qui lui permet de mieux comprendre la scène.

3. La "Préparation Individuelle" (Post-Adaptation)

C'est le moment où les assistants parlent au chef.

  • L'ancienne méthode : Les assistants parlent d'abord entre eux, mélangent leurs idées, et ensuite essaient de parler au chef dans une langue qu'il comprend. Souvent, ils perdent leur propre personnalité ou leurs points forts spécifiques.
  • La méthode Leo : Chaque assistant a son propre traducteur personnel (un projecteur). Avant de se rencontrer, chaque assistant traduit ses observations dans la langue du chef, en gardant sa propre expertise. Ensuite, ils parlent ensemble.
  • L'analogie : C'est comme si chaque expert (un expert en texte, un expert en formes) préparait son propre discours parfait avant de monter sur scène ensemble. Le chef comprend mieux car chaque discours est déjà adapté à son style.

🚀 Les Résultats : Leo est-il le nouveau champion ?

Les chercheurs ont mis Leo à l'épreuve sur 11 défis différents, allant de la lecture de documents complexes à la compréhension de graphiques, en passant par la conduite autonome.

  • Performance : Leo bat la plupart des autres modèles qui utilisent plusieurs assistants, et ce, même s'il utilise moins de données pour s'entraîner. C'est comme un élève qui obtient de meilleures notes que ses camarades en étudiant moins, simplement parce qu'il a trouvé la meilleure méthode d'apprentissage.
  • Conduite Autonome : Le test ultime ? Leo a été appliqué à la conduite de voitures sans aucune modification de sa structure. Il a réussi à comprendre les scènes de la route, à repérer les dangers et à répondre à des questions complexes sur la sécurité, rivalisant avec des modèles spécialisés très lourds.

💡 En résumé

Ce papier nous dit que pour construire une IA visuelle intelligente, la qualité de l'architecture compte plus que la quantité brute de données.

Au lieu de construire un géant costaud mais mal coordonné, les chercheurs ont construit Leo, un chef d'orchestre léger et efficace qui sait exactement comment faire travailler ses assistants ensemble :

  1. En découpant l'image intelligemment.
  2. En tressant leurs observations.
  3. En leur laissant préparer leur propre discours.

C'est une preuve que parfois, pour voir plus clair, il ne faut pas ouvrir de nouveaux yeux, mais apprendre à mieux utiliser ceux que l'on a déjà.