Selective Training for Large Vision Language Models via Visual Information Gain

Cet article propose une méthode d'entraînement sélectif pour les grands modèles vision-langage basée sur le Gain d'Information Visuelle (VIG), une métrique qui identifie et priorise les échantillons et tokens les plus informatifs visuellement afin de réduire les biais linguistiques et d'améliorer l'ancrage visuel avec moins de données d'entraînement.

Seulbi Lee, Sangheum Hwang

Publié 2026-02-20
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'Élève qui triche en regardant le plafond

Imaginez un élève très intelligent, nommé LVLM (un modèle de langage vision), qui passe un examen. On lui montre une photo d'un chat rouge et on lui demande : "De quelle couleur est ce chat ?".

Le problème, c'est que cet élève a lu tellement de livres et de textes sur internet qu'il a développé une mauvaise habitude : il triche. Au lieu de regarder la photo, il se dit : "Ah, les chats sont souvent gris ou noirs dans les livres, donc je vais répondre 'gris'." Ou pire, il invente des détails qui ne sont pas là (comme dire qu'il y a un chien à côté) parce que ça sonne bien dans une phrase.

C'est ce que les chercheurs appellent le "biais linguistique". Le modèle est si fort en texte qu'il ignore souvent l'image réelle. Il devient un "aveugle" qui devine au pif.

🔍 La Solution : Le "Score de Révélation Visuelle" (VIG)

Pour régler ce problème, les auteurs (Seulbi Lee et Sangheum Hwang) ont inventé un outil génial appelé VIG (Visual Information Gain), que l'on peut traduire par "Gain d'Information Visuelle".

Imaginez que le VIG est un détective qui pose une question simple à chaque phrase du manuel d'entraînement :

"Si je cache l'image, est-ce que l'élève arrive encore à répondre correctement ?"

  • Cas 1 (Mauvais) : La question est "Quel est le nom de la capitale de la France ?". Même si on cache l'image, l'élève sait que c'est Paris. Le VIG est nul. Cette phrase n'a pas besoin de l'image.
  • Cas 2 (Bon) : La question est "Quelle est la couleur du chat sur la photo ?". Si on cache l'image, l'élève est perdu. Il ne peut pas deviner. Le VIG est élevé. Cette phrase dépend vraiment de l'image.

Le VIG mesure donc à quel point une phrase a besoin de l'image pour avoir du sens.

🏫 La Méthode : Le "Cours Intensif Sélectif"

Au lieu de faire apprendre à l'élève toutes les phrases de son manuel (ce qui est long et inefficace), les chercheurs proposent une nouvelle méthode d'entraînement basée sur le VIG :

  1. Le Tri (Filtrage des échantillons) : Ils jettent toutes les questions que l'élève peut répondre sans regarder l'image (comme les questions de culture générale). Ils ne gardent que les questions où l'image est indispensable.
  2. Le Zoom (Filtrage des mots) : Même dans une bonne question, certains mots sont inutiles. Par exemple, dans "Le chat est rouge", les mots "Le" et "est" sont inutiles pour l'image. Mais "chat" et "rouge" sont cruciaux. Le VIG permet de ne faire apprendre à l'élève que les mots qui regardent vraiment l'image.

C'est comme si on disait à l'élève : "Oublie les pages de texte ennuyeuses. Concentre-toi uniquement sur les moments où tu dois vraiment ouvrir les yeux et regarder la photo."

🚀 Les Résultats : Plus intelligent, plus rapide, moins fatigué

Grâce à cette méthode, les résultats sont impressionnants :

  • Moins de travail, plus de résultats : L'élève apprend avec moins de données (seulement 70% des images, et encore moins de mots), mais il devient meilleur. C'est comme étudier avec un livre résumé ultra-puissant plutôt qu'une encyclopédie de 50 volumes.
  • Fin des hallucinations : L'élève arrête d'inventer des choses. S'il voit un chien, il ne dira plus qu'il y a un chat. Il s'en tient aux faits visuels.
  • Attention accrue : En regardant les "couches" du cerveau de l'IA, on voit qu'elle regarde beaucoup plus les pixels de l'image, au lieu de rêvasser sur ses connaissances textuelles.

🎯 En résumé

Imaginez que vous vouliez apprendre à un robot à cuisiner.

  • L'ancienne méthode : Lui donner 1000 livres de cuisine et lui dire "lis tout". Il va mémoriser les noms des ingrédients mais ne saura pas les reconnaître dans un vrai bol.
  • La méthode VIG : Lui donner seulement les recettes où il doit réellement regarder les ingrédients, et lui faire répéter uniquement les étapes où il doit toucher et voir la nourriture.

Résultat : Le robot devient un chef d'œuvre, il ne triche plus, et il a appris beaucoup plus vite avec moins de livres. C'est exactement ce que fait ce papier : il apprend aux IA à vraiment regarder ce qu'elles voient.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →