MJ1: Multimodal Judgment via Grounded Verification

Le papier présente MJ1, un juge multimodal entraîné par apprentissage par renforcement qui améliore significativement la précision des jugements grâce à une chaîne de vérification ancrée dans les preuves visuelles et une récompense de cohérence contrefactuelle, surpassant ainsi des modèles beaucoup plus grands sur le benchmark MMRB2.

Bhavesh Kumar, Dylan Feng, Leonard Tang

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un critique d'art, mais au lieu de regarder des tableaux, vous devez juger des images générées par des intelligences artificielles. Votre travail est de dire : « Quelle image est la meilleure par rapport à la demande de l'utilisateur ? »

C'est exactement ce que fait MJ1, le nouveau super-héros présenté dans ce papier. Mais avant de le rencontrer, il faut comprendre le problème qu'il résout.

Le Problème : Le "Trou de Mémoire" Visuel

Les intelligences artificielles actuelles (les "juges multimodaux") ont un défaut étrange. Quand elles regardent une image, elles la voient très bien au début. Mais dès qu'elles commencent à écrire leur longue explication pour justifier leur choix, elles oublient progressivement ce qu'elles ont vu. C'est comme si vous regardiez un film, puis que vous deviez écrire un résumé de 10 pages : à la fin, vous vous souvenez plus de l'histoire que de la couleur des costumes des acteurs !

Résultat : ces juges se fient trop au texte et pas assez à l'image. Ils disent parfois : « Cette image est belle » alors qu'elle est complètement ratée, simplement parce que la phrase est bien écrite.

La Solution : MJ1, le Détective Organisé

L'équipe de Haize Labs a créé MJ1 (basé sur un modèle de 3 milliards de paramètres, ce qui est très petit comparé aux géants comme Gemini). MJ1 ne devine pas. Il utilise deux astuces magiques pour ne jamais oublier ce qu'il voit.

1. La "Chaîne de Vérification Ancrée" (Le Carnet de Notes)

Au lieu de sauter directement à la conclusion, MJ1 est obligé de suivre une recette stricte, comme un détective qui remplit son carnet de notes étape par étape :

  1. Observation : Il décrit d'abord ce qu'il voit exactement sur les images (comme un photographe qui prend des notes sur la lumière et les objets).
  2. Affirmations : Il liste ce que les réponses proposées disent avoir fait.
  3. Vérification : Il compare ses notes (l'image réelle) avec les affirmations. Est-ce que l'image correspond vraiment à ce qui est écrit ?
  4. Évaluation : Il juge si cela répond à la demande.
  5. Score : Il donne la note finale.

L'analogie : Imaginez un juge de cuisine. Au lieu de goûter le plat et de dire "C'est bon" tout de suite, il est obligé de d'abord regarder les ingrédients, vérifier la recette, comparer le goût avec la description, et ensuite donner la note. Cela l'empêche de se fier uniquement à l'apparence du plat.

2. La Récompense de "Cohérence Contrefactuelle" (Le Test du Miroir)

C'est l'astuce la plus intelligente. Pour s'assurer que le juge ne triche pas en choisissant toujours la première réponse (un biais courant), on lui fait un test de réalité.

  • Le jeu : On lui donne la même situation, mais on échange les réponses A et B.
  • Le but : Si le juge était honnête et regardait vraiment les images, il devrait changer son avis. Si la réponse A était meilleure avant, la réponse B (qui est maintenant la même chose) doit être meilleure maintenant.
  • La punition : Si le juge dit toujours "A est meilleur" même après l'échange, il perd des points.

L'analogie : C'est comme si vous demandiez à un ami de choisir entre deux chemises. S'il choisit toujours la chemise de gauche, peu importe laquelle est vraiment plus belle, vous savez qu'il triche. MJ1 est forcé de prouver qu'il regarde la chemise, pas la position où elle est posée.

Les Résultats : Le Petit Géant

Le résultat est bluffant. MJ1, avec seulement 3 milliards de paramètres (une taille modeste), bat des modèles gigantesques comme Gemini 3 Pro ou GPT-5, qui ont des dizaines de fois plus de "cerveau".

  • Sans même être entraîné, juste en utilisant cette méthode de "carnet de notes", MJ1 améliore déjà ses résultats de 3,8 points.
  • Après l'entraînement, il atteint 77 % de précision, devenant le meilleur juge multimodal au monde sur les tests standards.

En Résumé

Ce papier nous apprend une leçon précieuse : la taille n'est pas tout. On n'a pas besoin d'un cerveau gigantesque pour bien juger. Il faut juste apprendre à organiser sa pensée et à vérifier ses preuves avant de parler.

MJ1 est comme un petit détective très méthodique qui gagne contre des géants distraits simplement parce qu'il ne laisse jamais ses yeux se fatiguer avant d'avoir écrit la vérité.