Multimodal Large Language Models as Image Classifiers

Este artigo demonstra que o desempenho aparentemente inferior dos Modelos de Linguagem Multimodal (MLLMs) em tarefas de classificação é majoritariamente um artefato de protocolos de avaliação falhos e de ruídos nos dados de referência, os quais, quando corrigidos, revelam que esses modelos podem superar ou igualar modelos supervisionados e ainda auxiliar significativamente na curadoria de grandes conjuntos de dados.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas

Publicado 2026-03-09
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de super-heróis da inteligência artificial (chamados de Modelos de Linguagem Multimodais, ou MLLMs). Eles são incríveis: conseguem conversar, escrever poemas e entender o que está em uma foto. Mas, para saber se eles são realmente bons em "olhar" e identificar objetos, os cientistas precisam colocá-los em um teste.

O problema é que, até agora, o teste estava cheio de armadilhas e erros, e os resultados pareciam contraditórios. Alguns diziam que os super-heróis eram ruins, outros diziam que eram ótimos.

Este artigo é como uma investigação policial que descobriu onde estavam as falhas no teste e como corrigi-las. Aqui está a explicação simples:

1. O Problema: O Mapa Estava Errado

Imagine que você está pedindo para um turista (o modelo de IA) identificar uma cidade em uma foto.

  • O Erro do Mapa (Ground Truth): O mapa que os cientistas usavam (o ImageNet) estava cheio de erros. Às vezes, a foto mostrava um cachorro, mas o mapa dizia "gato". Às vezes, a foto tinha dois cachorros, mas o mapa só permitia um nome.
  • A Consequência: Quando o turista acertava a foto (dizendo "cachorro"), mas o mapa dizia "gato", o sistema marcava como erro. Isso fazia os modelos parecerem piores do que realmente eram.

A Solução: Os autores pegaram 625 categorias de fotos e reanotaram tudo, como se fossem corrigir um mapa antigo e cheio de rasuras. Com esse novo mapa mais limpo, os modelos de IA melhoraram drasticamente (até 10% a mais de acerto!).

2. As Três Formas de Fazer o Teste

Os pesquisadores testaram os modelos de três jeitos diferentes, como se fossem três tipos de jogo:

  • Jogo 1: "Aberto" (Open-World)

    • A analogia: Você mostra a foto e pergunta: "O que é isso?". O modelo pode responder qualquer coisa ("Um gato laranja", "Um tigre", "Um animal peludo").
    • O problema: Como o modelo fala livremente, é difícil comparar a resposta dele com a lista de respostas certas.
    • A descoberta: Se usarmos um "tradutor inteligente" (que converte a resposta em uma busca matemática), esse jogo funciona muito bem, às vezes até melhor do que os métodos antigos.
  • Jogo 2: "Múltipla Escolha" (Multiple-Choice)

    • A analogia: É como um programa de TV. Você vê a foto e tem 4 opções: A) Cachorro, B) Gato, C) Carro, D) Avião.
    • O problema: Os cientistas antigos usavam opções de distração muito fáceis (como colocar "Banana" como distração para "Cachorro"). Isso inflava a nota dos modelos.
    • A descoberta: Quando eles criaram distrações difíceis (como "Lobo" ou "Raposa" para "Cachorro"), a nota dos modelos caiu bastante. Isso mostra que o teste anterior estava dando notas infladas demais.
  • Jogo 3: "Fechado" (Closed-World)

    • A analogia: Você mostra a foto e diz: "Escolha apenas um nome desta lista de 1.000 palavras".
    • O problema: Às vezes, o modelo, mesmo com ordens estritas, inventava um nome que não estava na lista (alucinação). Os testes antigos descartavam essas respostas como erro.
    • A Solução Criativa (CW+): Eles criaram um sistema onde, se o modelo inventar um nome, o sistema procura o nome da lista que mais se parece com o que foi dito. Isso salvou muitas respostas que antes eram consideradas erradas.

3. A Grande Revelação: A Culpa não é só do Modelo

O estudo mostrou que muita gente achava que os modelos de IA eram ruins em classificação de imagens. Mas a culpa era da "sujeira" nos dados de treinamento e nos testes.

  • A Metáfora do Aluno: Imagine um aluno estudando para uma prova com um livro de exercícios cheio de erros. Quando ele tira nota baixa, o professor diz: "Você é burro". Mas, na verdade, o livro estava errado. Quando corrigiram o livro (os dados), a nota do aluno subiu e a diferença entre ele e os "alunos tradicionais" (modelos antigos de visão computacional) diminuiu muito.
  • Sensibilidade: Os modelos mais modernos (que aprendem de forma mais flexível) foram os que mais se beneficiaram de corrigir os erros nas fotos. Isso prova que eles são sensíveis à qualidade do que aprendem.

4. A IA como "Co-piloto" para Humanos

No final, os pesquisadores fizeram um teste interessante: eles mostraram as fotos difíceis para humanos e para a IA ao mesmo tempo.

  • O Resultado: Em cerca de 50% dos casos difíceis, os humanos concordaram com a IA ou usaram a sugestão da IA para corrigir o rótulo da foto.
  • A Lição: A IA não precisa substituir o humano, mas pode ser um super-assistente que aponta onde os humanos podem ter cometido erros ao rotular milhões de fotos.

Resumo em uma frase

Este trabalho nos ensina que, para julgar se a Inteligência Artificial é boa, precisamos primeiro garantir que o "chão" (os dados e os testes) esteja limpo e justo; quando fazemos isso, descobrimos que esses modelos são muito mais capazes do que pensávamos e podem nos ajudar a criar bancos de dados melhores.