MJ1: Multimodal Judgment via Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un giudice d'arte molto intelligente, ma un po' distratto. Questo giudice deve guardare due quadri (o due immagini generate da un computer) e decidere quale dei due risponde meglio a una richiesta specifica. Il problema è che, quando questo giudice inizia a parlare e a scrivere la sua recensione, tende a dimenticare i quadri. Si concentra troppo sulle parole che sta scrivendo e finisce per ignorare ciò che ha visto. È come se, dopo aver guardato un film, iniziassi a recensirlo basandoti solo sul titolo del film e non sulla trama, perché hai dimenticato i dettagli mentre parlavi.

Gli scienziati di Haize Labs hanno creato un nuovo giudice chiamato MJ1 che risolve esattamente questo problema. Ecco come funziona, spiegato in modo semplice:

1. Il Problema: Il Giudice che "Dimentica" di Guardare

I giudici attuali (le intelligenze artificiali più grandi) hanno un difetto: più tempo passano a ragionare e a scrivere, meno "vedono" le immagini. È come se avessero una memoria visiva che svanisce man mano che parlano. Di conseguenza, spesso scelgono la risposta migliore basandosi su quanto è ben scritta, e non su quanto è corretta rispetto all'immagine.

2. La Soluzione: La "Catena di Verifica" (Il Metodo MJ1)

Invece di far saltare direttamente il giudice alla conclusione ("Questo è meglio!"), MJ1 è costretto a seguire una ricetta rigorosa, come un detective che deve seguire i passi dell'indagine:

Osservazione (Guardare subito): Prima di dire qualsiasi cosa, il giudice deve descrivere esattamente cosa vede nelle immagini. È come se gli venisse detto: "Ferma tutto, descrivi i colori, le persone e gli oggetti prima di pensare alla risposta". Questo costringe il cervello dell'AI a guardare le immagini quando è ancora fresco e attento.
Affermazioni (Cosa dicono le risposte): Poi, il giudice legge le due risposte (A e B) e scrive cosa ciascuna afferma di aver fatto.
Verifica (Il controllo incrociato): Qui avviene la magia. Il giudice confronta le "Affermazioni" con le "Osservazioni". Se la risposta A dice "Ho aggiunto un gatto rosso" ma l'osservazione dice "C'è un cane blu", il giudice deve segnare un errore.
Punteggio: Solo dopo aver fatto tutto questo, assegna un voto.

L'analogia: Immagina di dover giudicare due cuochi. Invece di assaggiare il piatto e dire "Questo è buono", il giudice MJ1 è costretto a:

Prima guardare gli ingredienti crudi (Osservazione).
Poi leggere la ricetta che ogni cuoco ha scritto (Affermazioni).
Controllare se gli ingredienti usati corrispondono alla ricetta (Verifica).
Solo alla fine dare il voto.
In questo modo, non può barare basandosi solo sull'odore o sulla presentazione.

3. L'Allenamento: Il "Trucco dello Scambio"

Per addestrare MJ1, gli scienziati hanno usato un trucco intelligente chiamato ricompensa di coerenza.

Immagina di avere due risposte, A e B. Normalmente, le AI tendono a preferire sempre la prima risposta che vedono (un pregiudizio di posizione). Per correggere questo, MJ1 viene addestrato così:

Gli si mostrano le risposte A e B e deve giudicare.
Poi, gli si mostrano di nuovo le stesse risposte, ma scambiate di posto (prima B, poi A).
Se MJ1 è onesto e guarda davvero le immagini, il suo giudizio deve invertirsi: se prima ha scelto A, ora deve scegliere B.
Se MJ1 sceglie sempre la prima opzione indipendentemente da cosa c'è scritto, viene punito.

È come se un insegnante chiedesse a uno studente di risolvere un problema, e poi gli chiedesse di risolverlo di nuovo scambiando i numeri. Se lo studente ottiene lo stesso risultato sbagliato, significa che non ha capito la logica, sta solo indovinando. MJ1 impara così a basarsi sui fatti (le immagini) e non sulla posizione.

4. I Risultati: Piccolo ma Potente

Il risultato è sorprendente. MJ1 è un modello "piccolo" (ha solo 3 miliardi di parametri attivi, come un'auto compatta), mentre i suoi rivali sono giganti (come Gemini o GPT-5, che sono come camion pesanti).

Eppure, MJ1 vince su tutti:

Senza nemmeno essere addestrato: Se gli dai solo le istruzioni per seguire la "ricetta" (la catena di verifica), già migliora di molto.
Dopo l'addestramento: Diventa il miglior giudice multimodale al mondo, battendo modelli molto più grandi e costosi.

In Sintesi

Il paper ci insegna che per far sì che un'intelligenza artificiale "veda" davvero, non serve renderla più grande o più potente. Serve darle un metodo di lavoro strutturato che la costringa a guardare le prove visive prima di parlare, e addestrarla a essere coerente, non a indovinare. MJ1 è la prova che un piccolo detective metodico batte sempre un gigante distratto.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Fallimento del Grounding Visivo nei Giudici Multimodali

Il lavoro affronta una criticità fondamentale nell'allineamento e nella valutazione dei modelli Vision-Language (VLM): la capacità dei "giudici multimodali" di basare le proprie decisioni su prove visive concrete.

Stato dell'arte: Nonostante l'importanza per il Reward Modeling (RLHF) e la valutazione automatizzata, i giudici multimodali attuali (inclusi modelli frontier come Gemini-3-Pro e GPT-5) mostrano prestazioni inferiori rispetto ai giudici puramente testuali. Su MMRB2 (Multimodal RewardBench 2), i modelli migliori raggiungono solo il 64-76% di accuratezza.
Causa radice: Il collo di bottiglia non è la scala del modello, ma un fallimento meccanico nel processo di ragionamento. Studi precedenti (FastV, SparseVLM) dimostrano che l'attenzione ai token visivi decade drasticamente negli strati profondi dei transformer. Di conseguenza, quando il modello genera un punteggio finale dopo una lunga estensione testuale, ha spesso "dimenticato" o ignorato le immagini, basandosi invece su scorciatoie linguistiche (fluency, lunghezza, formattazione).
Sfida specifica: Estendere i giudici "pensanti" addestrati con Reinforcement Learning (RL) al dominio multimodale richiede di costringere il modello a rispettare le evidenze visive attraverso più immagini, dove il decadimento dell'attenzione è più severo.

2. Metodologia: MJ1 e la Catena di Verifica Grounded

Gli autori propongono MJ1, un giudice multimodale addestrato con RL che introduce due innovazioni principali per garantire il "grounding" (ancoraggio) visivo.

A. Catena di Verifica Grounded (Grounded Verification Chain)

Invece di generare un punteggio finale in modo autoregressivo standard, MJ1 scompone il giudizio in una sequenza strutturata di cinque fasi obbligatorie:

Osservazione Visiva ( $O$ ): Il modello descrive il contenuto visivo delle immagini nel prompt e nelle risposte prima di analizzare il testo. Questo avviene quando l'attenzione visiva è massima.
Estrazione delle Affermazioni ( $C$ ): Il modello scompone le risposte candidate ( $R_A, R_B$ ) in affermazioni specifiche.
Verifica di Coerenza ( $V$ ): Ogni affermazione viene verificata contro le osservazioni visive estratte nella fase 1. Questo produce un segnale binario (coerente/incoerente), forzando il ragionamento a riferirsi alle prove visive iniziali.
Valutazione dei Criteri ( $E$ ): Le risposte sono valutate in base a criteri specifici del task.
Punteggio ( $s$ ): Generazione dei punteggi finali ( $s_A, s_B$ ).

Questa struttura impedisce al modello di saltare direttamente al punteggio ignorando le immagini, creando un "percorso di minima resistenza" che richiede il grounding visivo.

B. Ricompensa di Coerenza Controfattuale (Counterfactual Consistency Reward)

Per eliminare il positional bias (la tendenza a preferire la risposta A o B basandosi solo sulla posizione e non sul contenuto), viene introdotta una ricompensa basata sulla coerenza controfattuale:

Durante l'addestramento (GRPO), gli input delle due risposte vengono scambiati ( $A \leftrightarrow B$ ) insieme a tutte le referenze nel ragionamento.
Il modello deve invertire il suo giudizio in modo coerente. Se il modello sceglie sempre la prima risposta indipendentemente dal contenuto, fallisce questo test e riceve una ricompensa nulla ( $R_{cons} = 0$ ).
Solo un modello che basa il giudizio sul contenuto visivo reale otterrà una ricompensa positiva ( $R_{cons} = 1$ ) dopo lo scambio.

Pipeline di Addestramento

Fase Cold-Start (SFT): Addestramento supervisionato su 10k tracce di ragionamento distillate per stabilire il formato e le capacità di base.
Fase GRPO: Ottimizzazione con una ricompensa composita:
- $R_{format}$ : Rispetto della struttura XML.
- $R_{correct}$ : Accuratezza della preferenza rispetto all'etichetta ground-truth.
- $R_{cons}$ : Coerenza controfattuale (invarianza alla posizione).

3. Risultati Chiave

Prestazioni su MMRB2

MJ1 è stato addestrato su Qwen3-VL-30B-A3B (un modello MoE con 30B parametri totali ma solo 3B parametri attivi per token).

Accuratezza Complessiva: MJ1 raggiunge il 77.0% su MMRB2.
Confronto: Supera modelli di ordini di grandezza superiori, inclusi Gemini-3-Pro (76.3%) e GPT-5 (72.2%).
Dettaglio per Task:
- Image Editing: 78.1%
- Multimodal Reasoning: 76.4%
- Text-to-Image: 80.2%
- Interleaved Generation: 73.5%

Validazione Empirica

Senza Addestramento: L'uso della sola promptistica strutturata (Grounded Verification Chain) su un modello base non addestrato ha migliorato l'accuratezza di +3.8 punti su Image Editing e +1.7 su Multimodal Reasoning rispetto al ragionamento aperto.
Test di Grounding: Su un modello non addestrato, la ricompensa di coerenza ( $R_{cons}$ ) è massima con immagini reali, minima con immagini mescolate (shuffled) e intermedia con immagini vuote. Il fatto che le immagini mescolate peggiorino le prestazioni rispetto alle immagini vuote dimostra che il modello non sta solo allineando testi, ma sta effettivamente ragionando sulle evidenze visive specifiche.

4. Contributi Principali

Architettura di Verifica Strutturata: Dimostrazione che decomporre il giudizio in osservazione, estrazione, verifica e punteggio migliora drasticamente l'accuratezza senza aumentare la scala del modello.
Ricompensa di Coerenza Controfattuale: Un meccanismo efficace per eliminare il bias posizionale nei giudici multimodali, garantendo che le decisioni siano basate sul contenuto e non sull'ordine di presentazione.
Efficienza Scalabile: La dimostrazione che un modello con soli 3B parametri attivi può superare modelli "frontier" massicci se addestrato con la ricetta corretta (RL + Grounding), spostando il focus dalla scala del modello alla qualità del processo di addestramento.

5. Significato e Implicazioni

Il lavoro di MJ1 suggerisce che il limite attuale dei VLM non è la capacità di calcolo o la dimensione del modello, ma l'architettura del processo decisionale.

Superamento delle scorciatoie: La combinazione di una catena di ragionamento che "front-loads" (anticipa) l'estrazione visiva e una ricompensa che penalizza l'incoerenza controfattuale costringe il modello a utilizzare le informazioni visive invece di affidarsi a bias testuali.
Impatto sull'RLHF: Fornisce un metodo scalabile ed economico per creare giudici multimodali di alta qualità, essenziali per l'addestramento e il filtraggio dei dati di modelli di generazione immagini e video.
Paradigma di Addestramento: Conferma che per i task di giudizio, la "ricetta" di addestramento (struttura del ragionamento + ricompense specifiche) è più critica della semplice espansione dei parametri.

In sintesi, MJ1 risolve il problema del "decadimento dell'attenzione visiva" trasformando il giudizio multimodale in un processo di verifica esplicita e vincolata, ottenendo risultati state-of-the-art con una frazione dei parametri dei modelli concorrenti.