Multimodal Large Language Models as Image Classifiers

Cette étude démontre que les performances apparentes inférieures des modèles de langage multimodaux en classification d'images sont principalement dues à des protocoles d'évaluation défectueux et à un bruit dans les données de référence, et non à une véritable déficience des modèles, dont la qualité s'améliore considérablement avec des annotations corrigées.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez invité cinq nouveaux amis très intelligents (les MLLM, ou Modèles de Langage Multimodaux) à un jeu de devinettes avec des photos. Le but est simple : montrer une photo et demander à l'ami de dire ce qu'il voit.

Ce papier de recherche, c'est un peu comme le rapport d'un organisateur de jeu qui dit : « Attendez, les résultats que vous avez vus jusqu'à présent sont faussés ! Le jeu était mal réglé, et les règles étaient injustes. »

Voici l'explication de ce qui s'est passé, en images et en métaphores :

1. Le problème du "Jeu de la Chaise Musicale" (Les Règles du Jeu)

Jusqu'à présent, pour tester ces modèles, les chercheurs utilisaient trois façons de jouer, mais elles étaient toutes piégées :

  • Le mode "Choix Multiple" (La liste de courses) : On donnait au modèle 4 options (ex: "Chien", "Chat", "Oiseau", "Voiture") et on lui demandait de choisir.
    • Le problème : Les chercheurs mettaient souvent des "fausses pistes" trop faciles (comme mettre "Banane" parmi des options de voitures). C'est comme si on demandait à un enfant de choisir entre "Voiture", "Avion", "Banane" et "Pomme". Bien sûr, il va gagner ! Cela gonflait artificiellement les scores.
  • Le mode "Monde Ouvert" (La description libre) : On laissait le modèle décrire la photo avec ses propres mots.
    • Le problème : Si le modèle disait "Un petit chien brun" mais que la bonne réponse était "Beagle", les anciens systèmes disaient "Faux !". C'était injuste, car le modèle avait raison, mais il n'avait pas utilisé le mot exact du dictionnaire.
  • Le mode "Monde Fermé" (La liste complète) : On donnait toutes les 1000 catégories possibles.
    • Le problème : Les modèles, parfois un peu trop créatifs, répondaient avec des mots qui n'étaient pas dans la liste (ex: dire "Labrador" alors que la liste disait juste "Chien"). Les chercheurs comptaient cela comme une erreur, alors que c'était juste un problème de vocabulaire.

La solution des auteurs : Ils ont créé un nouveau mode de jeu appelé CW+. C'est comme si, au lieu de rejeter la réponse "Labrador", un traducteur intelligent (un encodeur de texte) disait : « Ah, "Labrador" c'est pareil que "Chien" dans notre liste, donc c'est juste ! ». Cela a permis de voir le vrai talent des modèles.

2. Le problème du "Dictionnaire Tacheté" (Les Étiquettes)

Imaginez que vous avez un livre de photos avec des étiquettes collées dessus. Mais ce livre est vieux et les étiquettes sont pleines d'erreurs.

  • Parfois, une photo de deux animaux différents est étiquetée comme s'il n'y en avait qu'un.
  • Parfois, l'étiquette dit "Chien" alors que c'est un "Loup".
  • Parfois, l'étiquette est complètement fausse.

Les chercheurs ont passé du temps à réécrire les étiquettes (ce qu'ils appellent ReGT). C'est comme nettoyer un tableau noir sale avant de commencer le cours.

La révélation choquante : Quand ils ont testé les modèles avec ces nouvelles étiquettes propres, les scores ont explosé !

  • Certains modèles ont gagné jusqu'à +10,8 % de réussite.
  • Cela signifie que les modèles n'étaient pas "bêtes" comme on le pensait. Ils étaient juste confus par les mauvaises étiquettes. C'est comme si un élève brillant échouait à un examen parce que le professeur avait écrit les questions avec des fautes d'orthographe.

3. Qui est le meilleur ? (Le Classement)

  • Les anciens champions (Modèles supervisés) : Ce sont les modèles classiques, entraînés uniquement sur des photos. Ils sont très forts, mais ils sont comme des robots qui apprennent par cœur. Si l'étiquette est fausse, ils se trompent aussi.
  • Les nouveaux venus (MLLM) : Ce sont les modèles qui comprennent le langage et les images.
    • Résultat : Avec les nouvelles étiquettes propres, l'écart entre les anciens champions et les nouveaux venus a presque disparu ! Les modèles comme GPT-4o ou Qwen3-VL sont devenus extrêmement performants, parfois même meilleurs que les modèles classiques sur les images difficiles.

4. L'Assistant de l'Humanité (Le Futur)

La partie la plus intéressante, c'est la fin de l'histoire. Les chercheurs ont demandé à des humains de corriger les photos où le modèle et les anciennes étiquettes ne s'accordaient pas.

  • Résultat : Dans 50 % des cas difficiles, les humains ont dit : « Attendez, le modèle a raison ! L'étiquette ancienne était fausse. »
  • La métaphore : Les modèles ne sont pas là pour remplacer les humains, mais pour être des assistants de nettoyage. Imaginez un robot qui passe devant un humain et dit : « Hé, cette photo de "seagull" (mouette) est étiquetée "oiseau" dans notre base de données, mais regarde, c'est clairement une mouette, et l'ancienne étiquette est floue. Corrigeons-la ! »

En résumé

Ce papier nous dit :

  1. Arrêtez de juger les modèles avec des règles de jeu injustes (comme les choix multiples trop faciles ou les descriptions trop rigides).
  2. Les données d'entraînement sont souvent sales. Si vous nettoyez les étiquettes, les modèles semblent beaucoup plus intelligents.
  3. Les modèles multimodaux sont prêts. Ils ne sont pas encore parfaits, mais ils sont capables de nous aider à nettoyer nos bases de données et à mieux comprendre le monde visuel, à condition qu'on leur donne des règles claires et des données propres.

C'est un appel à la prudence : ne dites pas "l'IA est mauvaise en reconnaissance d'images" sans vérifier si vous ne lui avez pas donné un jeu de devinettes truqué !