MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

O artigo propõe o método MAP, uma técnica de decodificação sem treinamento que mitiga alucinações em Modelos de Linguagem e Visão Grandes ao interpretar os estados ocultos como mapas semânticos 2D e aplicar operações de atenção em nível de mapa para melhorar a consistência factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive superinteligente (o Modelo de Linguagem e Visão Grande, ou LVLM) que olha para uma foto e descreve o que vê. O problema é que, às vezes, esse detetive é muito confiante, mas alucina. Ele pode dizer que há um "cachorro" na foto quando, na verdade, só tem um "gato", ou inventar cores e objetos que não existem.

Até agora, os cientistas tentavam consertar isso olhando para o detetive de duas formas limitadas:

  1. Olhando apenas uma camada de pensamento: "O que ele pensou neste exato momento?"
  2. Olhando apenas uma linha de raciocínio: "O que ele pensou na etapa anterior?"

O artigo "MAP" (Processamento de Atenção em Nível de Mapa) propõe uma ideia genial: pare de olhar apenas uma linha ou uma camada. Olhe para o "Mapa Completo" de todo o pensamento do detetive.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Detetive com "Visão de Túnel"

Imagine que o cérebro do modelo é um prédio de 32 andares (camadas), e em cada andar há uma sala com 100 pessoas (tokens/palavras) conversando.

  • Os métodos antigos perguntavam: "O que a pessoa no 10º andar está dizendo?" ou "O que a pessoa no 3º andar disse antes?". Eles ignoravam que a resposta correta poderia estar misturada em vários andares e vários lugares ao mesmo tempo.
  • A descoberta do MAP: Os pesquisadores descobriram que a "verdade" sobre a imagem não está escondida em um único lugar. Ela está espalhada como poeira de ouro por todo o prédio, em todos os andares e em todas as salas. Se você olhar apenas um canto, perde a informação.

2. A Solução: O "Mapa Semântico 2D"

O MAP transforma todo o processo de pensamento do modelo em um Mapa Gigante 2D (uma grade).

  • Eixo Vertical: Os andares do prédio (camadas de profundidade).
  • Eixo Horizontal: As pessoas na sala (posição das palavras).

Em vez de focar em um único ponto, o MAP olha para todo o mapa para encontrar as pistas que confirmam a realidade da imagem.

3. Como o MAP Funciona (As Duas Ferramentas Mágicas)

O MAP usa duas estratégias principais para limpar a alucinação:

A. Atenção em "X" (Criss-Cross Attention)

Imagine que você está no meio de uma sala de reuniões e quer saber a verdade.

  • Método antigo: Você pergunta apenas para quem está sentado à sua direita (mesmo andar) ou apenas para quem está no andar de cima (mesma coluna).
  • Método MAP: Você olha para o formato de um "X" ou de uma cruz. Você pergunta para todos que estão na mesma linha (mesmo andar) e na mesma coluna (mesmo andar de cima/baixo) que você.
  • O efeito: Ao cruzar essas informações, o modelo consegue reunir todas as "poeiras de ouro" (informações fiéis) que estão espalhadas no mapa. Ele diz: "Ei, a maioria das pessoas na minha linha e na minha coluna concorda que é um gato, não um cachorro. Vamos seguir essa pista!"

B. Fusão Global e Local (O Conselho de Sabedoria)

Depois de reunir as informações, o MAP faz uma última verificação:

  • Visão Local: O que o modelo "sentiu" no momento exato de gerar a palavra? (Detalhes finos).
  • Visão Global: O que o modelo "sentiu" olhando para o mapa inteiro de uma vez? (Contexto geral).
  • A Fusão: O MAP pega a opinião do especialista local e a do especialista global e as mistura. É como se você tivesse um conselho de sábios: um que vê os detalhes do microscópio e outro que vê a foto inteira. Juntos, eles tomam uma decisão muito mais precisa do que qualquer um sozinho.

4. Por que isso é incrível?

  • Não precisa de treino: O MAP é como colocar óculos novos no detetive. Você não precisa reeducá-lo (o que é caro e demorado), apenas muda a forma como ele olha para as informações enquanto ele está falando.
  • Funciona em tudo: Funciona bem para perguntas simples ("Quantos cachorros tem?") e para conversas longas e abertas ("Descreva a cena").
  • Rápido: Mesmo olhando para todo o mapa, o método é inteligente o suficiente para não deixar o computador lento.

Resumo em uma frase

O MAP é como dar ao modelo de IA um mapa completo de todo o seu próprio pensamento, permitindo que ele cruze informações de diferentes momentos e profundidades para descobrir a verdade e parar de inventar coisas que não estão na foto.

É como passar de um detetive que só olha uma única pista para um detetive que tem um quadro de investigações completo, conectando todas as evidências para chegar à verdade.