MJ1: Multimodal Judgment via Grounded Verification

Il paper presenta MJ1, un giudice multimodale addestrato con apprendimento per rinforzo che, grazie a una catena di verifica fondata sull'evidenza visiva e a una ricompensa per la coerenza controfattuale, raggiunge prestazioni superiori a modelli molto più grandi sul benchmark MMRB2 senza aumentare la scala del modello.

Bhavesh Kumar, Dylan Feng, Leonard Tang

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un giudice d'arte molto intelligente, ma un po' distratto. Questo giudice deve guardare due quadri (o due immagini generate da un computer) e decidere quale dei due risponde meglio a una richiesta specifica. Il problema è che, quando questo giudice inizia a parlare e a scrivere la sua recensione, tende a dimenticare i quadri. Si concentra troppo sulle parole che sta scrivendo e finisce per ignorare ciò che ha visto. È come se, dopo aver guardato un film, iniziassi a recensirlo basandoti solo sul titolo del film e non sulla trama, perché hai dimenticato i dettagli mentre parlavi.

Gli scienziati di Haize Labs hanno creato un nuovo giudice chiamato MJ1 che risolve esattamente questo problema. Ecco come funziona, spiegato in modo semplice:

1. Il Problema: Il Giudice che "Dimentica" di Guardare

I giudici attuali (le intelligenze artificiali più grandi) hanno un difetto: più tempo passano a ragionare e a scrivere, meno "vedono" le immagini. È come se avessero una memoria visiva che svanisce man mano che parlano. Di conseguenza, spesso scelgono la risposta migliore basandosi su quanto è ben scritta, e non su quanto è corretta rispetto all'immagine.

2. La Soluzione: La "Catena di Verifica" (Il Metodo MJ1)

Invece di far saltare direttamente il giudice alla conclusione ("Questo è meglio!"), MJ1 è costretto a seguire una ricetta rigorosa, come un detective che deve seguire i passi dell'indagine:

  1. Osservazione (Guardare subito): Prima di dire qualsiasi cosa, il giudice deve descrivere esattamente cosa vede nelle immagini. È come se gli venisse detto: "Ferma tutto, descrivi i colori, le persone e gli oggetti prima di pensare alla risposta". Questo costringe il cervello dell'AI a guardare le immagini quando è ancora fresco e attento.
  2. Affermazioni (Cosa dicono le risposte): Poi, il giudice legge le due risposte (A e B) e scrive cosa ciascuna afferma di aver fatto.
  3. Verifica (Il controllo incrociato): Qui avviene la magia. Il giudice confronta le "Affermazioni" con le "Osservazioni". Se la risposta A dice "Ho aggiunto un gatto rosso" ma l'osservazione dice "C'è un cane blu", il giudice deve segnare un errore.
  4. Punteggio: Solo dopo aver fatto tutto questo, assegna un voto.

L'analogia: Immagina di dover giudicare due cuochi. Invece di assaggiare il piatto e dire "Questo è buono", il giudice MJ1 è costretto a:

  • Prima guardare gli ingredienti crudi (Osservazione).
  • Poi leggere la ricetta che ogni cuoco ha scritto (Affermazioni).
  • Controllare se gli ingredienti usati corrispondono alla ricetta (Verifica).
  • Solo alla fine dare il voto.
    In questo modo, non può barare basandosi solo sull'odore o sulla presentazione.

3. L'Allenamento: Il "Trucco dello Scambio"

Per addestrare MJ1, gli scienziati hanno usato un trucco intelligente chiamato ricompensa di coerenza.

Immagina di avere due risposte, A e B. Normalmente, le AI tendono a preferire sempre la prima risposta che vedono (un pregiudizio di posizione). Per correggere questo, MJ1 viene addestrato così:

  1. Gli si mostrano le risposte A e B e deve giudicare.
  2. Poi, gli si mostrano di nuovo le stesse risposte, ma scambiate di posto (prima B, poi A).
  3. Se MJ1 è onesto e guarda davvero le immagini, il suo giudizio deve invertirsi: se prima ha scelto A, ora deve scegliere B.
  4. Se MJ1 sceglie sempre la prima opzione indipendentemente da cosa c'è scritto, viene punito.

È come se un insegnante chiedesse a uno studente di risolvere un problema, e poi gli chiedesse di risolverlo di nuovo scambiando i numeri. Se lo studente ottiene lo stesso risultato sbagliato, significa che non ha capito la logica, sta solo indovinando. MJ1 impara così a basarsi sui fatti (le immagini) e non sulla posizione.

4. I Risultati: Piccolo ma Potente

Il risultato è sorprendente. MJ1 è un modello "piccolo" (ha solo 3 miliardi di parametri attivi, come un'auto compatta), mentre i suoi rivali sono giganti (come Gemini o GPT-5, che sono come camion pesanti).

Eppure, MJ1 vince su tutti:

  • Senza nemmeno essere addestrato: Se gli dai solo le istruzioni per seguire la "ricetta" (la catena di verifica), già migliora di molto.
  • Dopo l'addestramento: Diventa il miglior giudice multimodale al mondo, battendo modelli molto più grandi e costosi.

In Sintesi

Il paper ci insegna che per far sì che un'intelligenza artificiale "veda" davvero, non serve renderla più grande o più potente. Serve darle un metodo di lavoro strutturato che la costringa a guardare le prove visive prima di parlare, e addestrarla a essere coerente, non a indovinare. MJ1 è la prova che un piccolo detective metodico batte sempre un gigante distratto.