Benchmarking Deflection and Hallucination in Large Vision-Language Models

Este artigo apresenta o VLM-DeflectionBench, um novo benchmark dinâmico e extensível que avalia a capacidade de Grandes Modelos Visuais-Linguísticos de lidar com evidências conflitantes ou insuficientes e de gerar deflexões apropriadas, superando as limitações de obsolescência e de avaliação comportamental dos benchmarks existentes.

Nicholas Moratelli, Christopher Davis, Leonardo F. R. Ribeiro, Bill Byrne, Gonzalo Iglesias

Publicado 2026-04-15
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive superinteligente (o Modelo de Visão e Linguagem) que consegue ver fotos e ler livros ao mesmo tempo. O objetivo desse detetive é responder perguntas complexas, como "Que tipo de árvore é essa na foto e qual é o seu habitat?".

Para responder, o detetive não deve apenas "adivinhar" com base no que já sabe de cor (sua memória interna), mas deve pesquisar em uma biblioteca de documentos e imagens para encontrar a resposta exata.

O problema é que, até agora, os testes para esses detetives tinham dois defeitos graves:

  1. Eles estavam ficando obsoletos: Os detetives estavam tão inteligentes que, em vez de pesquisar na biblioteca, eles respondiam de cabeça, usando apenas a memória. O teste deixava de ser difícil.
  2. Eles não sabiam dizer "não sei": Quando a biblioteca não tinha a resposta, ou quando havia informações contraditórias (uma foto de um gato e um texto dizendo que é um cachorro), o detetive muitas vezes inventava uma resposta falsa (uma alucinação) em vez de admitir que não sabia.

Os autores deste artigo criaram um novo "campo de treinamento" chamado VLM-DeflectionBench para resolver isso. Vamos usar analogias para entender como funciona:

1. O Filtro de "Memória vs. Pesquisa" (A Pipeline Dinâmica)

Imagine que você quer testar se um aluno realmente sabe pesquisar ou se ele apenas decorou o livro.

  • O Problema: Se você fizer uma pergunta fácil, o aluno responde de cabeça.
  • A Solução do Artigo: Eles criaram um "filtro mágico". Antes de usar uma pergunta no teste, eles perguntam a vários outros "super-alunos" (modelos de IA): "Você consegue responder isso sem olhar nos livros?".
    • Se a resposta for "Sim", a pergunta é descartada (porque é fácil demais).
    • Se a resposta for "Não", a pergunta é mantida.
    • Resultado: O teste só contém perguntas que exigem pesquisa real. Isso garante que o teste continue difícil mesmo quando os detetives ficarem mais inteligentes no futuro.

2. O Cenário da "Biblioteca Barulhenta" (Alucinação vs. Desvio)

Agora, imagine que você dá ao detetive uma pergunta e três tipos de "papelada" (contexto):

  • Cenário Perfeito: A resposta certa está no papel.
  • Cenário Realista: A resposta certa está misturada com 10 papéis errados e confusos.
  • Cenário Adversário: Todos os 10 papéis são mentiras ou distrações.

O teste mede duas coisas:

  • Alucinação (O Perigo): O detetive vê os papéis errados, ignora a verdade e inventa uma resposta confiante. É como um aluno que, vendo uma pergunta difícil, inventa uma resposta para não ficar em silêncio.
  • Desvio/Abstenção (O Ideal): O detetive percebe que os papéis não ajudam ou são contraditórios e diz: "Desculpe, com base no que tenho aqui, não consigo responder com segurança". Isso é chamado de deflection (desvio). É preferível dizer "não sei" do que mentir.

3. O Que Eles Descobriram? (Os Resultados)

Os autores testaram 20 dos melhores detetives do mundo (incluindo os famosos da Google, Anthropic, etc.) e descobriram coisas preocupantes:

  • Eles são teimosos: Mesmo quando os papéis (evidências) são ruins ou mentirosos, a maioria dos modelos prefere inventar uma resposta a admitir que não sabe. Eles têm medo de ficar em silêncio.
  • O Texto manda na Imagem: Se você mostrar uma foto de um cachorro, mas colocar um texto ao lado dizendo "Isso é um gato", os modelos tendem a acreditar no texto e ignorar a foto. Eles são "cegos" para a imagem quando o texto é convincente.
  • Pedir para ser mais cuidadoso não ajuda: Quando os pesquisadores disseram aos modelos: "Por favor, só responda se tiver 100% de certeza", os modelos ficaram tão assustados que pararam de responder até mesmo quando tinham a resposta certa! Eles viraram "medrosos" demais.

4. Por que isso importa?

Hoje, estamos colocando esses detetives em hospitais, tribunais e carros autônomos.

  • Se um carro autônomo "alucina" e acha que há um pedestre onde não há, ele freia bruscamente.
  • Se um médico usa uma IA que "alucina" um remédio que não existe, é perigoso.

O grande aprendizado deste trabalho é: Não basta saber responder. É preciso saber quando NÃO responder.

Resumo em uma frase

Os autores criaram um teste inteligente que força os robôs a admitirem quando não têm informações suficientes, provando que, hoje em dia, a maioria deles ainda prefere inventar mentiras confiantes a admitir que estão perdidos.

A lição final: Para ter confiança em uma IA, não queremos apenas que ela seja "certa", queremos que ela seja honesta sobre o que sabe e o que não sabe.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →