MJ1: Multimodal Judgment via Grounded Verification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um artista de IA para criar uma imagem de um "gato voando em um foguete". O artista entrega duas opções: a Opção A e a Opção B.

Agora, quem decide qual é a melhor? Geralmente, usamos outro modelo de IA, chamado de "Juiz Multimodal". O problema é que esses juízes costumam ser preguiçosos. Eles olham para a imagem, mas, como o texto é muito longo, eles acabam ignorando os detalhes visuais e apenas olham para o texto, dizendo: "Ah, a Opção A tem uma frase mais bonita, então é a vencedora". Eles não estão realmente vendo a imagem.

Os autores deste paper, do Haize Labs, criaram um novo juiz chamado MJ1 que resolve esse problema de uma forma muito inteligente. Vamos entender como ele funciona usando analogias do dia a dia.

1. O Problema: O Juiz que "Esquece" de Olhar

Imagine um juiz de concurso de culinária que, ao provar um prato, fecha os olhos e decide o vencedor apenas pelo cheiro ou pela forma como o prato foi descrito no cardápio, sem realmente olhar se o bolo queimou ou se o bolo está cru.

Em IA, isso acontece porque, quanto mais o modelo "pensa" (escreve texto), menos atenção ele dá às imagens que viu no início. É como se a imagem fosse um fantasma que desaparece conforme a conversa avança.

2. A Solução: O MJ1 e sua "Lista de Verificação"

O MJ1 não deixa o juiz decidir de cara. Em vez disso, ele força o juiz a seguir um roteiro rigoroso, como um detetive ou um auditor de qualidade.

O MJ1 usa uma Cadeia de Verificação Fundamentada. Pense nisso como um processo de 5 passos que o juiz é obrigado a seguir antes de dar a nota:

Observação (O Detetive): Antes de ler qualquer resposta, o juiz olha as imagens e descreve exatamente o que vê. "Vejo um gato azul", "Vejo um foguete vermelho". Isso garante que ele preste atenção agora, enquanto a imagem ainda está fresca na memória.
Reivindicações (O Advogado): O juiz lê o que a Opção A e a Opção B disseram. "A Opção A diz que o gato é azul".
Verificação (O Cheque de Cruzamento): Aqui é a mágica. O juiz compara o que ele viu (passo 1) com o que foi dito (passo 2). "A Opção A disse que o gato é azul, e eu vi um gato azul. Isso bate! Nota 10 para essa parte". Se a Opção B dissesse "gato verde", o juiz marca: "Mentira! Nota 0".
Avaliação (O Juri): Só depois de checar os fatos, ele avalia se a resposta seguiu as regras do jogo.
Pontuação (O Veredito): Só agora ele dá a nota final.

Por que isso é genial?
É como se você obrigasse um aluno a mostrar o "rascunho" e os cálculos antes de dar a resposta final. Se ele tentar inventar algo sem olhar a imagem, ele vai se pegar no ato na etapa de "Verificação".

3. O Treinamento: O Jogo da "Troca de Lugar"

Para treinar esse juiz, os autores usaram uma técnica de recompensa baseada em consistência.

Imagine que você está treinando um juiz de futebol. Você mostra dois times jogando (Time A e Time B). O juiz diz: "O Time A é melhor".
Agora, você troca os times de lugar no vídeo (o Time A vai para a direita, o Time B para a esquerda) e mostra de novo.

Se o juiz disser "O Time da Esquerda é melhor" (que agora é o Time B), ele é injusto e tendencioso. Ele só gosta de quem está na primeira posição.
Se o juiz disser "O Time da Direita é melhor" (que é o Time A, mesmo estando em outro lugar), ele é justo. Ele está julgando o conteúdo, não a posição.

O MJ1 é treinado para receber uma "recompensa" (um elogio do professor) apenas quando ele mantém a mesma opinião sobre o conteúdo, não importa onde a imagem esteja na tela. Isso elimina o "viés de posição".

4. O Resultado: Pequeno, mas Poderoso

O mais impressionante é o tamanho do MJ1.

Existem "gigantes" no mundo da IA, como o Gemini-3-Pro, que são como estádios de futebol cheios de pessoas (bilhões de parâmetros).
O MJ1 é como uma equipe de 3 pessoas (apenas 3 bilhões de parâmetros ativos).

Pela lógica comum, uma equipe pequena não deveria vencer um estádio inteiro. Mas, porque o MJ1 usa esse método de "detetive" (verificação fundamentada) e é treinado para ser justo (sem viés de posição), ele venceu os gigantes em testes de avaliação de imagens.

Resumo em uma frase

O MJ1 é um juiz de IA pequeno, mas extremamente disciplinado, que é obrigado a olhar a foto antes de falar, a checar se o que foi dito bate com a foto, e a não ter favoritos baseados em onde a foto está na tela. Com essa disciplina, ele supera modelos gigantes que apenas "adivinham" sem olhar direito.

Each language version is independently generated for its own context, not a direct translation.

Título: MJ1: Julgamento Multimodal via Verificação Fundamentada

Autores: Bhavesh Kumar, Dylan Feng, Leonard Tang (Haize Labs)

1. O Problema

A capacidade de avaliar se imagens geradas satisfazem a intenção do usuário é fundamental para alinhar e melhorar modelos de linguagem e visão (VLMs). No entanto, os "juízes multimodais" atuais (modelos que avaliam respostas multimodais) apresentam desempenho inferior aos juízes puramente textuais.

Limitação Atual: Em benchmarks como o Multimodal RewardBench 2 (MMRB2), modelos de ponta (como Gemini-3-Pro e GPT-5) atingem apenas 70–76% de precisão, enquanto modelos open-source saturam em cerca de 64%.
Causa Raiz: O gargalo não é o tamanho do modelo, mas uma falha mecânica no processamento de evidências visuais. Estudos anteriores mostram que, em camadas profundas de transformadores, a atenção aos tokens visuais decai drasticamente. O modelo tende a ignorar a imagem e basear-se em priors linguísticos (fluência, formatação) ou a "alucinar" conhecimento visual que se torna inacessível durante a geração extensa.
Desafio Específico: Juízes multimodais precisam processar múltiplas imagens e raciocinar de forma sustentada, mas a atenção visual desaparece antes que a pontuação final seja gerada.

2. Metodologia

Os autores propõem o MJ1, um juiz multimodal treinado com Aprendizado por Reforço (RL) que força o modelo a fundamentar suas decisões em evidências visuais concretas. A abordagem baseia-se em duas inovações principais:

A. Cadeia de Verificação Fundamentada (Grounded Verification Chain)

Para combater o decaimento da atenção visual, o MJ1 não gera uma pontuação diretamente. Em vez disso, ele segue uma sequência estruturada de cinco etapas:

Observação (O): O modelo descreve o conteúdo visual de todas as imagens (prompt e respostas) antes de analisar o texto. Isso ocorre quando a atenção aos tokens visuais é mais alta.
Extração de Afirmações (C): O modelo decompõe as respostas dos candidatos em afirmações verificáveis.
Verificação de Consistência (V): Cada afirmação é verificada contra as observações visuais geradas na etapa 1. Isso produz um sinal binário (consistente ou não), forçando o raciocínio a se ancorar na evidência visual inicial.
Avaliação por Critérios (E): As respostas são avaliadas contra critérios específicos da tarefa.
Pontuação (s): O modelo gera pontuações finais baseadas na verificação anterior.

Vantagem: Ao front-loadar (antecipar) a extração de observações visuais, o modelo preserva informações que seriam perdidas em uma geração aberta e extensa.

B. Recompensa de Consistência Contrafactual

Para eliminar o viés de posição (tendência de escolher a primeira resposta apresentada), os autores introduzem uma recompensa baseada em consistência:

Mecanismo: Durante o treinamento, as entradas (Imagem A vs. Imagem B) e as referências nas respostas são trocadas (swap).
Recompensa ( $R_{cons}$ ): O modelo recebe uma recompensa apenas se a sua decisão de preferência se inverter corretamente após a troca. Se o modelo continuar escolhendo a "posição A" independentemente do conteúdo, a recompensa é zero.
Objetivo: Isso força o modelo a basear sua decisão no conteúdo visual e textual, e não na ordem de apresentação.

C. Pipeline de Treinamento

O modelo base utilizado é o Qwen3-VL-30B-A3B (um modelo Mixture-of-Experts com 30B parâmetros totais, mas apenas 3B ativos por token).

Fase SFT (Cold-start): Ajuste fino supervisionado em 10k traços de raciocínio destilados para estabelecer o formato e a capacidade básica de julgamento.
Fase GRPO (Reinforcement Learning): Otimização usando o algoritmo GRPO com uma recompensa composta:
- $R_{format}$ : Conformidade com a estrutura XML exigida.
- $R_{correct}$ : Precisão da preferência em relação ao ground truth.
- $R_{cons}$ : Recompensa de consistência contrafactual (inversão correta ao trocar as entradas).

3. Contribuições Principais

Cadeia de Verificação Estruturada: Demonstra que decompor o julgamento em observação → afirmação → verificação → pontuação melhora a precisão sem necessidade de treinamento adicional (+3.8 pontos em Edição de Imagem e +1.7 em Raciocínio Multimodal no modelo base).
Mecanismo de Consistência Posicional: Estende o conceito de recompensas de consistência (usado em texto) para o domínio multimodal, eliminando efetivamente o viés de posição onde o modelo preferia a resposta "A" duas vezes mais que a "B" antes do treinamento.
Eficiência de Parâmetros: Prova que a qualidade do julgamento multimodal depende mais da arquitetura de treinamento e do raciocínio fundamentado do que do tamanho massivo do modelo.

4. Resultados

O MJ1 foi avaliado no benchmark MMRB2, que contém quatro sub-tarefas: Texto-para-Imagem (T2I), Edição de Imagem, Geração Intercalada e Raciocínio Multimodal.

Desempenho Geral: O MJ1 alcançou 77.0% de precisão geral.
Comparação: Superou o Gemini-3-Pro (76.3%) e o GPT-5 (72.2%), que são modelos proprietários massivos.
Eficiência: O MJ1 utiliza apenas 3B parâmetros ativos, superando modelos com ordens de magnitude mais parâmetros (como o Qwen3-VL-235B e o Gemini-3-Pro).
Consistência: Houve ganhos consistentes em todas as quatro sub-tarefas, indicando que a abordagem generaliza bem para diferentes dimensões de avaliação.

Tabela de Comparação (Precisão Média no MMRB2):

MJ1 (3B ativos): 77.0%
Gemini-3-Pro: 76.3%
GPT-5: 72.2%
Qwen3-VL-235B: 62.9%

5. Significado e Conclusão

O trabalho demonstra que a falha atual dos juízes multimodais não é falta de capacidade computacional, mas sim uma falha de arquitetura no raciocínio visual.

Validação Empírica: Experimentos mostraram que, sem treinamento, a simples estruturação do prompt (cadeia de verificação) já melhora a precisão. Além disso, a recompensa de consistência correlaciona-se diretamente com o alinhamento do raciocínio visual: quando as imagens são embaralhadas (perdendo a conexão com o texto), a consistência do modelo cai drasticamente, provando que ele não está apenas "alucinando" coerência textual.
Impacto: O MJ1 estabelece um novo estado da arte (SOTA) em julgamento multimodal, provando que técnicas de verificação fundamentada e treinamento baseado em consistência podem superar modelos muito maiores, oferecendo uma solução escalável e eficiente para a avaliação de modelos de IA generativa multimodal.