MJ1: Multimodal Judgment via Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un juez muy estricto encargado de decidir cuál de dos dibujos generados por una computadora es mejor. El problema es que, hasta ahora, estos "jueces" (que son modelos de inteligencia artificial) tenían un defecto grave: se distraían.

A medida que el juez escribía su veredicto, iba olvidando lo que veía en los dibujos. Al final, en lugar de juzgar la imagen, simplemente decía: "Este texto suena más bonito" o "Este dibujo está en el primer lugar, así que elijo el primero". Era como un juez que, en lugar de mirar las pruebas, se dejaba llevar por el ruido de la sala.

Aquí te explico cómo MJ1 (el nuevo juez creado por Haize Labs) solucionó esto, usando analogías sencillas:

1. El Problema: El Juez con "Amnesia Visual"

Imagina que un juez tiene que comparar dos fotos de un gato.

El viejo método: El juez mira las fotos, pero mientras empieza a escribir su informe largo y detallado, su cerebro se llena de palabras. Al llegar a la conclusión final, ya ha olvidado si el gato tenía orejas puntiagudas o redondas. Decide basándose en qué respuesta se veía más "elegante" al leerla, no en la foto real.
La consecuencia: El juez falla mucho, especialmente en tareas complejas como "editar una foto" o "razonar visualmente".

2. La Solución MJ1: El "Inspector de Escenas"

Los creadores de MJ1 no hicieron al juez más inteligente ni más grande (de hecho, es pequeño, como un coche compacto frente a un camión gigante). En su lugar, le dieron un nuevo manual de instrucciones y un entrenamiento especial.

A. La Cadena de Verificación (El "Paso a Paso")

En lugar de dejar que el juez escriba todo de corrido, MJ1 le obliga a seguir una receta estricta, como un detective que no puede saltarse pasos:

Observar (Ojo de Águila): Antes de decir nada, el juez tiene que describir lo que ve en las fotos. "Veo un gato azul en la foto A y un perro rojo en la B". Esto lo obliga a fijarse en la imagen antes de que su atención se desvanezca.
Extraer Acusaciones (Claims): El juez lee lo que dicen las respuestas y separa las afirmaciones. "La respuesta A dice que el gato tiene bigotes".
Verificar (El Cruce de Pruebas): Aquí viene la magia. El juez compara: "¿Dice la respuesta A que el gato tiene bigotes? Sí. ¿Lo veo en la foto? Sí. ¡Coincide!". Si la respuesta dice algo que no está en la foto, el juez lo marca como falso.
Puntuar: Solo después de hacer todo esto, el juez da su nota final.

La analogía: Es como si, antes de dar un veredicto en un juicio, el juez tuviera que sacar una lupa, examinar cada prueba física, anotar sus hallazgos en una pizarra y luego comparar esas notas con lo que dicen los abogados. No puede saltarse la pizarra.

B. El Entrenamiento: El "Truco de la Silla" (Consistencia)

Para entrenar al juez, los creadores usaron un truco genial llamado recompensa de consistencia contrafáctica.

Imagina que le muestras al juez dos fotos: la Foto A y la Foto B.

Si el juez elige la Foto A porque es mejor, ¡bien!
Pero, ¿qué pasa si cambiamos las sillas? Ponemos la Foto B a la izquierda y la Foto A a la derecha.
El viejo juez: Seguiría eligiendo la de la izquierda (la Foto B ahora), porque estaba "sesgado" por la posición.
El juez MJ1: Si elige la Foto B (que ahora está a la izquierda) solo porque está a la izquierda, pierde puntos. El entrenamiento le dice: "Oye, si la respuesta A era mejor antes, debe seguir siendo mejor aunque la pongas en otro lugar. Si cambias tu decisión solo porque cambié de sitio, es que no estás mirando las fotos de verdad".

Esto entrena al cerebro del modelo para ignorar el "ruido" de la posición y centrarse únicamente en el contenido visual.

3. Los Resultados: El Pequeño que Ganó a los Gigantes

Lo más increíble es que MJ1 es un modelo "pequeño" (tiene solo 3 mil millones de parámetros activos, como un coche deportivo ligero).

Los rivales: Modelos gigantes como Gemini-3-Pro o GPT-5 (que son como camiones de carga pesada con miles de millones de parámetros).
El resultado: MJ1 ganó. Logró un 77% de precisión, superando a los gigantes que tenían 10 o 100 veces más "cerebro".

En Resumen

MJ1 nos enseña que no necesitas ser más grande para ser mejor; necesitas ser más ordenado.

Al obligar a la inteligencia artificial a:

Mirar primero (antes de pensar).
Verificar que lo que dice coincide con lo que ve.
Ser imparcial (no elegir por la posición).

...conseguimos un juez que realmente "ve" las imágenes y no solo lee palabras. Es como pasar de un juez que lee el guion de memoria a un juez que realmente observa el crimen.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Multimodal Judgment via Grounded Verification" (Juicio Multimodal mediante Verificación Anclada), presentado por el equipo de Haize Labs.

1. El Problema: Fallo de Anclaje Visual en los Juicios Multimodales

El artículo identifica una limitación crítica en los modelos de lenguaje visuales (VLM) actuales: su incapacidad para fundamentar sus decisiones en evidencia visual real. A pesar de ser esenciales para la alineación de modelos (RLHF), la evaluación automatizada y el filtrado de datos, los "jueces" multimodales actuales tienen un rendimiento inferior al de los jueces de texto.

Benchmarks actuales: En Multimodal RewardBench 2 (MMRB2), modelos de vanguardia como Gemini-3-Pro y GPT-5 alcanzan solo un 70-76% de precisión, mientras que los mejores modelos de código abierto se estancan cerca del 64%.
Causa raíz: El problema no es la escala del modelo, sino un fallo mecánico en el procesamiento de la evidencia visual. Estudios previos (FastV, SparseVLM) demuestran que la atención a los tokens visuales decae drásticamente en las capas profundas de los transformadores. Además, los modelos tienden a sobre-atender a los priores lingüísticos, ignorando las imágenes, especialmente en tareas que requieren razonamiento visual sostenido o la comparación de múltiples imágenes.
Sesgo de posición: Los modelos actuales a menudo muestran un sesgo hacia la primera respuesta presentada (Respuesta A) independientemente del contenido visual, lo que indica que no están razonando realmente sobre las imágenes.

2. Metodología: MJ1 y la Cadena de Verificación Anclada

Los autores presentan MJ1, un juez multimodal entrenado con Aprendizaje por Refuerzo (RL) que aborda estos problemas mediante dos mecanismos principales:

A. Cadena de Verificación Anclada (Grounded Verification Chain)

En lugar de generar una puntuación final directamente tras una generación de texto extendida (donde la atención visual ya ha decaído), MJ1 fuerza al modelo a seguir una secuencia estructurada de cinco etapas:

Observación (O): El modelo extrae y describe el contenido visual de las imágenes de entrada y las respuestas antes de analizar el texto. Esto ocurre cuando la atención visual es máxima.
Extracción de Afirmaciones (C): Se descomponen las respuestas candidatas ( $R_A, R_B$ ) en afirmaciones específicas.
Verificación de Consistencia (V): Cada afirmación se verifica contra las observaciones visuales extraídas en la etapa 1. Esto genera una señal binaria (coherente o no).
Evaluación por Criterios (E): Se evalúan las respuestas contra criterios específicos de la tarea.
Puntuación (s): Finalmente, se asignan puntuaciones enteras ( $s_A, s_B$ ).

Esta estructura obliga al modelo a "anclar" su razonamiento en la evidencia visual inicial, mitigando el problema de la decadencia de la atención.

B. Recompensa de Consistencia Contrafactual

Para eliminar el sesgo de posición, se introduce una recompensa de consistencia ( $R_{cons}$ ):

Mecanismo: Durante el entrenamiento, se intercambian las entradas (la imagen de la respuesta A se asocia con B y viceversa) y se invierten las referencias en el razonamiento.
Objetivo: Si el modelo es verdaderamente anclado a la evidencia visual, su juicio debe invertirse consistentemente al cambiar el contenido. Si el modelo solo sigue una posición (ej. "siempre elijo A"), fallará esta prueba.
Entrenamiento: Se utiliza GRPO (Group Relative Policy Optimization) con una recompensa compuesta que incluye: cumplimiento de formato, precisión de la preferencia y consistencia contrafactual.

3. Contribuciones Clave

Cadena de Verificación Estructurada: Demostraron que el simple uso de un prompt estructurado (sin entrenamiento) mejora la precisión en +3.8 puntos en edición de imágenes y +1.7 en razonamiento multimodal sobre modelos base, al forzar la extracción temprana de observaciones visuales.
Recompensa de Consistencia Posicional: Extendieron el concepto de recompensas basadas en consistencia (anteriormente usado en texto) al dominio multimodal, logrando eliminar casi por completo el sesgo de posición en el entrenamiento.
Eficiencia de Parámetros: Lograron un rendimiento de vanguardia utilizando un modelo con solo 3 mil millones de parámetros activos (basado en Qwen3-VL-30B-A3B), superando a modelos con órdenes de magnitud más parámetros.

4. Resultados Experimentales

El modelo MJ1 fue evaluado en el benchmark MMRB2, que consta de cuatro sub-tareas: Texto-a-Imagen, Edición de Imagen, Generación Intercalada y Razonamiento Multimodal.

Rendimiento General: MJ1 alcanzó una precisión global del 77.0%.
Comparativa: Superó a modelos propietarios masivos como Gemini-3-Pro (76.3%) y GPT-5 (72.2%), así como a todos los modelos de código abierto existentes.
Eficiencia: Con solo 3B de parámetros activos, MJ1 supera a modelos de 30B, 72B e incluso 235B, confirmando que la "receta de entrenamiento" (grounding + RL) es más importante que la escala bruta para tareas de juicio.
Validación Empírica: Los experimentos mostraron que al desordenar las imágenes (shuffled) o eliminarlas, la consistencia y la precisión del modelo caen drásticamente, probando que el modelo depende realmente de la evidencia visual y no de atajos textuales.

5. Significado e Impacto

Este trabajo demuestra que el cuello de botella en el juicio multimodal no es la capacidad de cómputo o el tamaño del modelo, sino la arquitectura de inferencia y el objetivo de entrenamiento.

Cambio de Paradigma: Sugiere que para mejorar la alineación y evaluación de VLMs, es necesario forzar explícitamente la "verificación anclada" (grounded verification) en lugar de depender de la capacidad implícita del modelo para recordar imágenes tras largas generaciones de texto.
Escalabilidad: Ofrece una ruta eficiente para crear evaluadores de alta calidad sin necesidad de entrenar modelos masivos, lo cual es crucial para la escalabilidad económica de la alineación de IA.
Robustez: La combinación de una estructura de razonamiento forzada y recompensas de consistencia contrafactual crea modelos que son menos propensos a alucinaciones y sesgos de posición, fundamentales para sistemas de IA confiables.

En resumen, MJ1 establece un nuevo estado del arte (SOTA) en el juicio multimodal al demostrar que la estructura del razonamiento y la consistencia de la recompensa son factores determinantes para la precisión, superando a modelos mucho más grandes mediante un enfoque de "verificación anclada".