MJ1: Multimodal Judgment via Grounded Verification
O artigo apresenta o MJ1, um juiz multimodal de 3B parâmetros treinado com aprendizado por reforço que, ao impor uma cadeia de verificação fundamentada e consistência contrafactual, supera modelos muito maiores no benchmark MMRB2, demonstrando que a verificação fundamentada e o treinamento baseado em consistência melhoram significativamente o julgamento multimodal sem aumentar a escala do modelo.