MJ1: Multimodal Judgment via Grounded Verification
El artículo presenta MJ1, un juez multimodal de 3B parámetros entrenado con aprendizaje por refuerzo que utiliza una cadena de verificación fundamentada y una recompensa de consistencia contrafactual para lograr una precisión superior a modelos mucho más grandes en la evaluación de razonamiento y edición de imágenes, demostrando que la verificación fundamentada mejora significativamente el juicio multimodal sin aumentar la escala del modelo.