MJ1: Multimodal Judgment via Grounded Verification
Il paper presenta MJ1, un giudice multimodale addestrato con apprendimento per rinforzo che, grazie a una catena di verifica fondata sull'evidenza visiva e a una ricompensa per la coerenza controfattuale, raggiunge prestazioni superiori a modelli molto più grandi sul benchmark MMRB2 senza aumentare la scala del modello.