MJ1: Multimodal Judgment via Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un critique d'art, mais au lieu de regarder des tableaux, vous devez juger des images générées par des intelligences artificielles. Votre travail est de dire : « Quelle image est la meilleure par rapport à la demande de l'utilisateur ? »

C'est exactement ce que fait MJ1, le nouveau super-héros présenté dans ce papier. Mais avant de le rencontrer, il faut comprendre le problème qu'il résout.

Le Problème : Le "Trou de Mémoire" Visuel

Les intelligences artificielles actuelles (les "juges multimodaux") ont un défaut étrange. Quand elles regardent une image, elles la voient très bien au début. Mais dès qu'elles commencent à écrire leur longue explication pour justifier leur choix, elles oublient progressivement ce qu'elles ont vu. C'est comme si vous regardiez un film, puis que vous deviez écrire un résumé de 10 pages : à la fin, vous vous souvenez plus de l'histoire que de la couleur des costumes des acteurs !

Résultat : ces juges se fient trop au texte et pas assez à l'image. Ils disent parfois : « Cette image est belle » alors qu'elle est complètement ratée, simplement parce que la phrase est bien écrite.

La Solution : MJ1, le Détective Organisé

L'équipe de Haize Labs a créé MJ1 (basé sur un modèle de 3 milliards de paramètres, ce qui est très petit comparé aux géants comme Gemini). MJ1 ne devine pas. Il utilise deux astuces magiques pour ne jamais oublier ce qu'il voit.

1. La "Chaîne de Vérification Ancrée" (Le Carnet de Notes)

Au lieu de sauter directement à la conclusion, MJ1 est obligé de suivre une recette stricte, comme un détective qui remplit son carnet de notes étape par étape :

Observation : Il décrit d'abord ce qu'il voit exactement sur les images (comme un photographe qui prend des notes sur la lumière et les objets).
Affirmations : Il liste ce que les réponses proposées disent avoir fait.
Vérification : Il compare ses notes (l'image réelle) avec les affirmations. Est-ce que l'image correspond vraiment à ce qui est écrit ?
Évaluation : Il juge si cela répond à la demande.
Score : Il donne la note finale.

L'analogie : Imaginez un juge de cuisine. Au lieu de goûter le plat et de dire "C'est bon" tout de suite, il est obligé de d'abord regarder les ingrédients, vérifier la recette, comparer le goût avec la description, et ensuite donner la note. Cela l'empêche de se fier uniquement à l'apparence du plat.

2. La Récompense de "Cohérence Contrefactuelle" (Le Test du Miroir)

C'est l'astuce la plus intelligente. Pour s'assurer que le juge ne triche pas en choisissant toujours la première réponse (un biais courant), on lui fait un test de réalité.

Le jeu : On lui donne la même situation, mais on échange les réponses A et B.
Le but : Si le juge était honnête et regardait vraiment les images, il devrait changer son avis. Si la réponse A était meilleure avant, la réponse B (qui est maintenant la même chose) doit être meilleure maintenant.
La punition : Si le juge dit toujours "A est meilleur" même après l'échange, il perd des points.

L'analogie : C'est comme si vous demandiez à un ami de choisir entre deux chemises. S'il choisit toujours la chemise de gauche, peu importe laquelle est vraiment plus belle, vous savez qu'il triche. MJ1 est forcé de prouver qu'il regarde la chemise, pas la position où elle est posée.

Les Résultats : Le Petit Géant

Le résultat est bluffant. MJ1, avec seulement 3 milliards de paramètres (une taille modeste), bat des modèles gigantesques comme Gemini 3 Pro ou GPT-5, qui ont des dizaines de fois plus de "cerveau".

Sans même être entraîné, juste en utilisant cette méthode de "carnet de notes", MJ1 améliore déjà ses résultats de 3,8 points.
Après l'entraînement, il atteint 77 % de précision, devenant le meilleur juge multimodal au monde sur les tests standards.

En Résumé

Ce papier nous apprend une leçon précieuse : la taille n'est pas tout. On n'a pas besoin d'un cerveau gigantesque pour bien juger. Il faut juste apprendre à organiser sa pensée et à vérifier ses preuves avant de parler.

MJ1 est comme un petit détective très méthodique qui gagne contre des géants distraits simplement parce qu'il ne laisse jamais ses yeux se fatiguer avant d'avoir écrit la vérité.

Each language version is independently generated for its own context, not a direct translation.

Titre : MJ1 : Jugement Multimodal via Vérification Ancrée

Auteurs : Bhavesh Kumar, Dylan Feng, Leonard Tang (Haize Labs)

1. Problématique

L'évaluation de la capacité des modèles vision-langage (VLM) à générer des images conformes à l'intention de l'utilisateur est cruciale pour l'alignement, le récompense modeling (RLHF) et le filtrage des données. Cependant, les juges multimodaux actuels souffrent d'un déficit de performance par rapport aux juges textuels.

Bottleneck : La performance plafonne (environ 64-76 % de précision sur le benchmark MMRB2) non pas à cause de la taille du modèle, mais d'une défaillance mécanique dans le traitement des preuves visuelles.
Cause racine : Les recherches précédentes (FastV, SparseVLM) montrent que l'attention aux tokens visuels diminue drastiquement dans les couches profondes des transformateurs. Les modèles ont tendance à ignorer les images au profit de priors linguistiques ou de caractéristiques textuelles (fluidité, longueur), conduisant à des hallucinations ou à des jugements non ancrés dans la réalité visuelle.
Limitation des approches actuelles : Les juges entraînés par Reinforcement Learning (RL) avec chaînes de pensée (Chain-of-Thought) excellent en texte, mais échouent à maintenir une cohérence visuelle sur plusieurs images lors de tâches de jugement complexes.

2. Méthodologie : MJ1

Les auteurs proposent MJ1, un juge multimodal entraîné par RL, basé sur deux piliers innovants pour forcer l'ancrage visuel.

A. Chaîne de Vérification Ancrée (Grounded Verification Chain)

Au lieu de produire un score final directement, MJ1 décompose le jugement en une séquence structurée de cinq étapes obligatoires :

Observation (O) : Extraction des contenus visuels des images (prompt et réponses) avant toute analyse textuelle, lorsque l'attention visuelle est maximale.
Extraction de Claims (C) : Décomposition des réponses textuelles en affirmations vérifiables.
Vérification de Cohérence (V) : Comparaison binaire (1/0) entre les claims et les observations visuelles. Cela force le modèle à s'appuyer sur les preuves initiales.
Évaluation (E) : Jugement des réponses selon des critères spécifiques à la tâche.
Scoring (s) : Attribution de scores numériques finaux.

Cette structure empêche le modèle de sauter directement au verdict en se basant sur des raccourcis textuels, car le score dépend mathématiquement de la vérification précédente.

B. Récompense de Cohérence Contrefactuelle (Counterfactual Consistency Reward)

Pour éliminer le biais de position (tendance à préférer systématiquement la réponse A ou B selon son ordre d'apparition), les auteurs introduisent une récompense de cohérence :

Mécanisme : Pendant l'entraînement, les entrées (images et réponses A/B) sont échangées. Le modèle doit inverser son jugement de manière cohérente.
Récompense ( $R_{cons}$ ) : Si le modèle maintient la même préférence après l'échange (indiquant un biais de position), la récompense est nulle. Si le jugement s'inverse correctement en fonction du contenu, la récompense est positive.
Objectif : Cela force le modèle à raisonner sur le contenu visuel et textuel plutôt que sur la position des réponses.

C. Pipeline d'Entraînement

Modèle de base : Qwen3-VL-30B-A3B (30 milliards de paramètres totaux, mais seulement 3 milliards de paramètres actifs par token grâce à une architecture MoE).
Phase 1 (Cold-Start SFT) : Affinement sur 10 000 traces de raisonnement distillées pour apprendre le format XML et le jugement de base.
Phase 2 (GRPO) : Optimisation par Group Relative Policy Optimization avec une récompense composite :
$R(J) = R_{format} + R_{correct} + R_{cons}$
Où $R_{format}$ valide la structure XML, $R_{correct}$ vérifie l'exactitude du jugement, et $R_{cons}$ pénalise le biais de position.

3. Contributions Clés

Preuve que la structure prime sur l'échelle : Démonstration qu'une architecture de raisonnement structurée (chaîne de vérification) améliore la précision sans nécessiter d'augmenter la taille du modèle.
Ancrage Visuel Forcé : La combinaison de l'extraction précoce d'observations et de la vérification de cohérence résout le problème de la "dégradation de l'attention visuelle".
Réduction du Biais de Position : La récompense contrefactuelle élimine efficacement la tendance des modèles à favoriser une réponse par défaut, un problème majeur dans les benchmarks de préférence.

4. Résultats Expérimentaux

Les résultats sont évalués sur MMRB2 (Multimodal RewardBench 2), le benchmark le plus complet pour l'évaluation multimodale.

Performance sans entraînement (Zero-Shot) : L'application simple de la "chaîne de vérification ancrée" sur le modèle de base (sans RL) améliore déjà la précision de +3,8 points sur la tâche "Édition d'images" et +1,7 points sur le "Raisonnement Multimodal".
Performance Finale (MJ1) :
- Précision Globale : 77,0 % sur MMRB2.
- Comparaison : MJ1 surpasse les modèles fermés les plus avancés, notamment Gemini-3-Pro (76,3 %) et GPT-5 (72,2 %).
- Efficacité : Avec seulement 3B de paramètres actifs, MJ1 dépasse des modèles de plusieurs ordres de grandeur (ex: Gemini-3-Pro, GPT-5) et des modèles open-source massifs (Qwen3-VL-235B).
Analyse de Robustesse : Des expériences montrent que lorsque les images sont mélangées (shuffled) ou supprimées, la cohérence ( $R_{cons}$ ) et la précision chutent drastiquement, prouvant que le modèle dépend réellement des preuves visuelles et non de la cohérence textuelle.

5. Signification et Impact

Ce travail démontre que le goulot d'étranglement actuel dans le jugement multimodal n'est pas la capacité computationnelle brute (taille du modèle), mais la méthode d'inférence.

Changement de paradigme : Il ne s'agit plus seulement d'entraîner des modèles plus grands, mais de concevoir des architectures de raisonnement qui forcent l'attention sur les preuves visuelles au moment critique.
Efficacité des coûts : MJ1 prouve qu'un modèle petit mais bien entraîné avec des mécanismes de vérification rigoureux peut surpasser des modèles géants, offrant une voie plus économique et efficace pour l'alignement des VLM.
Généralisation : La méthode s'applique à divers types de tâches (génération texte-à-image, édition, raisonnement complexe), suggérant une solution universelle aux problèmes d'hallucination visuelle dans les juges IA.