VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

O artigo apresenta o VOILA, um novo benchmark em larga escala que avalia a capacidade de raciocínio analógico e compreensão perceptiva de Modelos de Linguagem Multimodal (MLLMs), revelando que, apesar de avanços recentes, esses modelos ainda apresentam desempenho significativamente inferior ao humano em tarefas que exigem mapeamento de relações abstratas entre imagens.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

Publicado 2026-02-26
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas que só consegue "ler" o que está escrito em um livro. Agora, imagine que esse amigo aprendeu a "ver" fotos também. Ele se tornou um MLLM (um Modelo de Linguagem Multimodal). Ele é ótimo em descrever uma foto ("Olha, tem um cachorro correndo!") ou responder perguntas simples sobre ela.

Mas será que ele realmente entende o que está acontecendo? Será que ele consegue pensar como um humano, fazendo conexões entre coisas diferentes?

É exatamente sobre isso que o artigo VOILA trata. Os autores criaram um "exame de inteligência" visual para ver se essas IAs conseguem fazer raciocínio por analogia.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Que é VOILA? (O Exame de "Complete a Sequência")

Pense em um jogo de "Complete a Sequência" que você vê em revistas de lógica, mas com fotos em vez de desenhos.

  • O Cenário: Você mostra três fotos para a IA:
    1. Foto A: Um cachorro correndo.
    2. Foto B: Um gato correndo.
    3. Foto C: Um coelho correndo.
  • A Pergunta: "Se A virou B (cachorro virou gato, mas a ação 'correr' ficou igual), o que acontece com C?"
  • A Resposta Esperada: A IA deve gerar uma nova foto (Foto D) mostrando um coelho correndo (ou talvez mudando a ação, dependendo da regra).

O VOILA é um banco de dados gigante com milhões desses "quebra-cabeças". A diferença é que, ao contrário de testes antigos onde a IA escolhia entre 4 opções (A, B, C ou D), no VOILA a IA precisa criar a resposta do zero (gerar a imagem ou descrevê-la). É como pedir para ela pintar o quadro final, não apenas apontar para ele.

2. A Dificuldade: O "Distração" (O Palhaço no Circo)

O teste tem duas versões:

  • VOILA-ND (Sem Distração): Tudo é claro. Se o cachorro vira gato, o coelho vira... bem, você entende a lógica.
  • VOILA-WD (Com Distração): Aqui entra a parte difícil. Imagine que na Foto A o cachorro está usando um chapéu, e na Foto B o gato não usa chapéu. Mas a regra do jogo é apenas sobre a espécie do animal, não sobre o chapéu. O chapéu é uma distração.

A IA precisa ignorar o chapéu e focar apenas na regra principal (cachorro -> gato). É como se você estivesse tentando resolver uma equação matemática, mas alguém estivesse gritando "Olhe para o céu!" no seu ouvido. A IA precisa ter foco para não se confundir.

3. O Que Eles Descobriram? (A IA Está "Desconectada")

Os autores testaram as IAs mais modernas do mundo (como o GPT-4o e o LLaMa 3.2) nesse teste. Os resultados foram um pouco decepcionantes, mas reveladores:

  • O Humano vs. A Máquina: Humanos acertaram cerca de 70% das vezes. As melhores IAs acertaram apenas 13% a 29%.
    • Analogia: É como se você estivesse ensinando um robô a cozinhar. Ele consegue cortar a cebola perfeitamente (descrever a imagem), mas quando você pede para ele "fritar a cebola até dourar e depois adicionar o tomate", ele joga a panela no fogo e esquece o tomate.
  • O Problema da "Cadeia de Pensamento": As IAs falharam principalmente na hora de aplicar a regra. Elas conseguiam ver as fotos, mas não conseguiam conectar o ponto A ao ponto B e depois ao ponto C.
  • O Efeito do Formato: Quando as fotos eram mostradas uma de cada vez (sequencialmente), a IA se saía melhor. Quando as fotos eram coladas em uma única imagem (um "colagem"), a IA ficava confusa, como se não conseguisse separar os elementos. É como tentar ler três livros diferentes ao mesmo tempo, colados na mesma página.

4. A Solução Mágica? (Passo a Passo)

Os pesquisadores descobriram que, se eles pediam para a IA pensar passo a passo (uma técnica chamada "Least-to-Most"), ela melhorava um pouco.

  • Sem ajuda: "Me diga a resposta!" -> A IA chuta.
  • Com ajuda: "Primeiro, descreva as fotos. Depois, diga o que mudou. Depois, aplique essa mudança na terceira foto. Agora, gere a resposta." -> A IA acerta um pouco mais.

Isso mostra que a IA não "entende" o todo de uma vez; ela precisa ser guiada como uma criança aprendendo a andar, um degrau de cada vez.

5. Conclusão: Onde Estamos?

O VOILA nos diz uma coisa importante: Nossas IAs atuais são ótimas "observadoras", mas péssimas "pensadoras".

Elas conseguem ver que há um cachorro na foto, mas têm muita dificuldade em entender por que o cachorro está ali e como isso se relaciona com o gato da foto ao lado. Elas ainda não têm o "senso comum" ou a capacidade de raciocínio abstrato que um humano tem.

Resumo da Ópera:
O VOILA é um teste de lógica visual que mostra que, embora as IAs sejam incríveis em descrever o mundo, elas ainda estão longe de entender as regras invisíveis que conectam as coisas. Elas precisam de muito mais treino para deixar de ser apenas "câmeras inteligentes" e se tornarem "detetives inteligentes".

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →