Each language version is independently generated for its own context, not a direct translation.
Imagine que você pediu a um artista de IA para criar uma imagem de um "gato voando em um foguete". O artista entrega duas opções: a Opção A e a Opção B.
Agora, quem decide qual é a melhor? Geralmente, usamos outro modelo de IA, chamado de "Juiz Multimodal". O problema é que esses juízes costumam ser preguiçosos. Eles olham para a imagem, mas, como o texto é muito longo, eles acabam ignorando os detalhes visuais e apenas olham para o texto, dizendo: "Ah, a Opção A tem uma frase mais bonita, então é a vencedora". Eles não estão realmente vendo a imagem.
Os autores deste paper, do Haize Labs, criaram um novo juiz chamado MJ1 que resolve esse problema de uma forma muito inteligente. Vamos entender como ele funciona usando analogias do dia a dia.
1. O Problema: O Juiz que "Esquece" de Olhar
Imagine um juiz de concurso de culinária que, ao provar um prato, fecha os olhos e decide o vencedor apenas pelo cheiro ou pela forma como o prato foi descrito no cardápio, sem realmente olhar se o bolo queimou ou se o bolo está cru.
Em IA, isso acontece porque, quanto mais o modelo "pensa" (escreve texto), menos atenção ele dá às imagens que viu no início. É como se a imagem fosse um fantasma que desaparece conforme a conversa avança.
2. A Solução: O MJ1 e sua "Lista de Verificação"
O MJ1 não deixa o juiz decidir de cara. Em vez disso, ele força o juiz a seguir um roteiro rigoroso, como um detetive ou um auditor de qualidade.
O MJ1 usa uma Cadeia de Verificação Fundamentada. Pense nisso como um processo de 5 passos que o juiz é obrigado a seguir antes de dar a nota:
- Observação (O Detetive): Antes de ler qualquer resposta, o juiz olha as imagens e descreve exatamente o que vê. "Vejo um gato azul", "Vejo um foguete vermelho". Isso garante que ele preste atenção agora, enquanto a imagem ainda está fresca na memória.
- Reivindicações (O Advogado): O juiz lê o que a Opção A e a Opção B disseram. "A Opção A diz que o gato é azul".
- Verificação (O Cheque de Cruzamento): Aqui é a mágica. O juiz compara o que ele viu (passo 1) com o que foi dito (passo 2). "A Opção A disse que o gato é azul, e eu vi um gato azul. Isso bate! Nota 10 para essa parte". Se a Opção B dissesse "gato verde", o juiz marca: "Mentira! Nota 0".
- Avaliação (O Juri): Só depois de checar os fatos, ele avalia se a resposta seguiu as regras do jogo.
- Pontuação (O Veredito): Só agora ele dá a nota final.
Por que isso é genial?
É como se você obrigasse um aluno a mostrar o "rascunho" e os cálculos antes de dar a resposta final. Se ele tentar inventar algo sem olhar a imagem, ele vai se pegar no ato na etapa de "Verificação".
3. O Treinamento: O Jogo da "Troca de Lugar"
Para treinar esse juiz, os autores usaram uma técnica de recompensa baseada em consistência.
Imagine que você está treinando um juiz de futebol. Você mostra dois times jogando (Time A e Time B). O juiz diz: "O Time A é melhor".
Agora, você troca os times de lugar no vídeo (o Time A vai para a direita, o Time B para a esquerda) e mostra de novo.
- Se o juiz disser "O Time da Esquerda é melhor" (que agora é o Time B), ele é injusto e tendencioso. Ele só gosta de quem está na primeira posição.
- Se o juiz disser "O Time da Direita é melhor" (que é o Time A, mesmo estando em outro lugar), ele é justo. Ele está julgando o conteúdo, não a posição.
O MJ1 é treinado para receber uma "recompensa" (um elogio do professor) apenas quando ele mantém a mesma opinião sobre o conteúdo, não importa onde a imagem esteja na tela. Isso elimina o "viés de posição".
4. O Resultado: Pequeno, mas Poderoso
O mais impressionante é o tamanho do MJ1.
- Existem "gigantes" no mundo da IA, como o Gemini-3-Pro, que são como estádios de futebol cheios de pessoas (bilhões de parâmetros).
- O MJ1 é como uma equipe de 3 pessoas (apenas 3 bilhões de parâmetros ativos).
Pela lógica comum, uma equipe pequena não deveria vencer um estádio inteiro. Mas, porque o MJ1 usa esse método de "detetive" (verificação fundamentada) e é treinado para ser justo (sem viés de posição), ele venceu os gigantes em testes de avaliação de imagens.
Resumo em uma frase
O MJ1 é um juiz de IA pequeno, mas extremamente disciplinado, que é obrigado a olhar a foto antes de falar, a checar se o que foi dito bate com a foto, e a não ter favoritos baseados em onde a foto está na tela. Com essa disciplina, ele supera modelos gigantes que apenas "adivinham" sem olhar direito.