MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive superinteligente (o Modelo de Linguagem e Visão Grande, ou LVLM) que olha para uma foto e descreve o que vê. O problema é que, às vezes, esse detetive é muito confiante, mas alucina. Ele pode dizer que há um "cachorro" na foto quando, na verdade, só tem um "gato", ou inventar cores e objetos que não existem.

Até agora, os cientistas tentavam consertar isso olhando para o detetive de duas formas limitadas:

Olhando apenas uma camada de pensamento: "O que ele pensou neste exato momento?"
Olhando apenas uma linha de raciocínio: "O que ele pensou na etapa anterior?"

O artigo "MAP" (Processamento de Atenção em Nível de Mapa) propõe uma ideia genial: pare de olhar apenas uma linha ou uma camada. Olhe para o "Mapa Completo" de todo o pensamento do detetive.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Detetive com "Visão de Túnel"

Imagine que o cérebro do modelo é um prédio de 32 andares (camadas), e em cada andar há uma sala com 100 pessoas (tokens/palavras) conversando.

Os métodos antigos perguntavam: "O que a pessoa no 10º andar está dizendo?" ou "O que a pessoa no 3º andar disse antes?". Eles ignoravam que a resposta correta poderia estar misturada em vários andares e vários lugares ao mesmo tempo.
A descoberta do MAP: Os pesquisadores descobriram que a "verdade" sobre a imagem não está escondida em um único lugar. Ela está espalhada como poeira de ouro por todo o prédio, em todos os andares e em todas as salas. Se você olhar apenas um canto, perde a informação.

2. A Solução: O "Mapa Semântico 2D"

O MAP transforma todo o processo de pensamento do modelo em um Mapa Gigante 2D (uma grade).

Eixo Vertical: Os andares do prédio (camadas de profundidade).
Eixo Horizontal: As pessoas na sala (posição das palavras).

Em vez de focar em um único ponto, o MAP olha para todo o mapa para encontrar as pistas que confirmam a realidade da imagem.

3. Como o MAP Funciona (As Duas Ferramentas Mágicas)

O MAP usa duas estratégias principais para limpar a alucinação:

A. Atenção em "X" (Criss-Cross Attention)

Imagine que você está no meio de uma sala de reuniões e quer saber a verdade.

Método antigo: Você pergunta apenas para quem está sentado à sua direita (mesmo andar) ou apenas para quem está no andar de cima (mesma coluna).
Método MAP: Você olha para o formato de um "X" ou de uma cruz. Você pergunta para todos que estão na mesma linha (mesmo andar) e na mesma coluna (mesmo andar de cima/baixo) que você.
O efeito: Ao cruzar essas informações, o modelo consegue reunir todas as "poeiras de ouro" (informações fiéis) que estão espalhadas no mapa. Ele diz: "Ei, a maioria das pessoas na minha linha e na minha coluna concorda que é um gato, não um cachorro. Vamos seguir essa pista!"

B. Fusão Global e Local (O Conselho de Sabedoria)

Depois de reunir as informações, o MAP faz uma última verificação:

Visão Local: O que o modelo "sentiu" no momento exato de gerar a palavra? (Detalhes finos).
Visão Global: O que o modelo "sentiu" olhando para o mapa inteiro de uma vez? (Contexto geral).
A Fusão: O MAP pega a opinião do especialista local e a do especialista global e as mistura. É como se você tivesse um conselho de sábios: um que vê os detalhes do microscópio e outro que vê a foto inteira. Juntos, eles tomam uma decisão muito mais precisa do que qualquer um sozinho.

4. Por que isso é incrível?

Não precisa de treino: O MAP é como colocar óculos novos no detetive. Você não precisa reeducá-lo (o que é caro e demorado), apenas muda a forma como ele olha para as informações enquanto ele está falando.
Funciona em tudo: Funciona bem para perguntas simples ("Quantos cachorros tem?") e para conversas longas e abertas ("Descreva a cena").
Rápido: Mesmo olhando para todo o mapa, o método é inteligente o suficiente para não deixar o computador lento.

Resumo em uma frase

O MAP é como dar ao modelo de IA um mapa completo de todo o seu próprio pensamento, permitindo que ele cruze informações de diferentes momentos e profundidades para descobrir a verdade e parar de inventar coisas que não estão na foto.

É como passar de um detetive que só olha uma única pista para um detetive que tem um quadro de investigações completo, conectando todas as evidências para chegar à verdade.

Each language version is independently generated for its own context, not a direct translation.

Título: MAP: Processamento de Atenção em Nível de Mapa para Mitigação de Alucinações em Modelos Grandes Visão-Linguagem (LVLMs)

1. O Problema: Alucinações em LVLMs

Os Modelos Grandes Visão-Linguagem (LVLMs) demonstraram capacidades notáveis em tarefas multimodais, como Resposta a Perguntas Visuais (VQA) e Grounding Visual. No entanto, eles sofrem frequentemente de alucinações visuais, onde o modelo gera respostas linguisticamente corretas, mas factualmente inconsistentes com a imagem de entrada (ex.: descrever objetos inexistentes, relações espaciais erradas ou quantidades incorretas).

Limitações das Abordagens Atuais:
- Métodos baseados em fine-tuning (SFT, RLHF) são computacionalmente caros e pouco escaláveis.
- Métodos de decodificação sem treinamento (training-free) existentes focam em paradigmas unidimensionais:
  - Inter-camada: Comparam estados ocultos entre diferentes camadas do modelo (ex.: contrastive decoding).
  - Intra-camada: Refinam representações de tokens dentro de uma única camada (ex.: realocação de tokens âncora).
- A Lacuna: Essas abordagens ignoram informações fiéis que podem estar dispersas além dessas regiões unidimensionais específicas, limitando a eficácia na mitigação de alucinações.

2. Metodologia: A Abordagem MAP

Os autores propõem uma nova perspectiva: interpretar todos os estados ocultos do modelo como um Mapa Semântico Bidimensional (2D), estruturado pelas dimensões de Camada (Layer) e Posição (Token).

A análise empírica (usando logit-lens) revelou que informações factuais não estão localizadas apenas em camadas finais ou posições específicas, mas estão amplamente dispersas por todo o mapa 2D. Baseado nisso, o MAP (Map-Level Attention Processing) foi desenvolvido com três componentes principais:

A. Operações em Nível de Mapa (Map-Level Operations)
O método define vizinhanças semânticas estruturadas no mapa 2D para agregar informações dispersas. Em vez de tratar o processo de inferência como uma sequência linear ou pilha de camadas isoladas, ele trata o conjunto de estados ocultos como uma matriz onde cada token tem vizinhos em sua linha (mesma camada, diferentes posições) e coluna (mesma posição, diferentes camadas).

B. Atenção Cruzada Camada a Camada (Layer-Wise Criss-Cross Attention)

Mecanismo: Para cada token de ancoragem $h_{t,j}$ (na camada $j$ e posição $t$ ), o modelo define uma vizinhança "cruzada" ( $M_c$ ) que inclui todos os tokens da mesma camada $j$ e da mesma posição $t$ em outras camadas.
Processo: Uma função de agregação coleta informações desses vizinhos cruzados. A representação refinada é atualizada residualmente:
$\hat{h}_{u,j} = (1 - \alpha) \cdot \mathcal{F}(h_{t,j}, M_c) + \alpha \cdot h_{u,j}$
Vantagem: Isso permite que o modelo capture dependências tanto inter-camada quanto intra-camada simultaneamente, refinando progressivamente os estados ocultos durante a decodificação. O custo computacional é reduzido ao usar apenas o último token como query.

C. Fusão Global-Local de Logits (Global-Local Logit Fusion)

Motivação: Logits locais (baseados em tokens refinados) podem ser bons para detalhes específicos, enquanto logits globais (baseados em atenção em todo o mapa final) capturam contexto mais amplo.
Implementação: O método aplica uma atenção global no mapa final para gerar um token globalmente aprimorado ( $\tilde{h}_{t,n}$ ). Os logits finais são uma fusão ponderada dos logits do token refinado local ( $\hat{h}_{t,n}$ ) e do token global ( $\tilde{h}_{t,n}$ ):
$\text{logit}_{\text{final}} = \frac{1}{2} (\phi(\tilde{h}_{t,n}) + \phi(\hat{h}_{t,n}))$
Resultado: Essa fusão equilibra evidências locais finas com informações contextuais globais, aumentando a robustez.

3. Principais Contribuições

Nova Perspectiva Paradigmática: Propõe tratar o processo de inferência de LVLMs como um mapa semântico 2D, demonstrando que informações úteis para mitigar alucinações existem fora das regiões tradicionais inter/intra-camada.
Método de Decodificação Sem Treinamento (MAP): Apresenta uma técnica que não requer fine-tuning, utilizando:
- Módulo de Atenção Cruzada Camada a Camada.
- Estratégia de Fusão Global-Local de Logits.
Validação Empírica Robusta: Demonstração de eficácia em arquiteturas diversas (LLaVA, mPLUG-Owl, InstructBLIP) e em tarefas de geração fechada e aberta.

4. Resultados Experimentais

O método foi avaliado em três benchmarks principais: POPE (alucinações de objetos), MME (avaliação abrangente) e MMHal-Bench (geração aberta).

Desempenho no MME:
- No modelo LLaVA-1.5, o MAP alcançou 1529.3, superando o baseline (Vanilla) em 37.7 pontos e superando métodos anteriores como DAMO (1513.5) e DCLA (1520.1).
- Também obteve ganhos significativos no mPLUG-Owl2 (1466.4) e InstructBLIP (1302.7).
Desempenho no POPE:
- O MAP superou a maioria das linhas de base em cenários aleatórios, populares e adversariais. No subconjunto adversarial do GQA, superou a decodificação VCD em 4.47% no LLaVA-1.5.
Geração Aberta (MMHal-Bench):
- Alcançou a pontuação geral mais alta (2.4), mostrando desempenho equilibrado em todas as sub-tarefas, enquanto outros métodos exibiram instabilidade em tarefas específicas.
Eficiência Computacional:
- O MAP é eficiente: a latência de decodificação foi de 26.69 ms/token, inferior à do DAMO (38.69 ms) e DCLA (28.60 ms).
- A complexidade computacional foi reduzida de $O(n^2)$ para $O(n)$ ao consultar apenas o último token, em vez de toda a sequência.
Generalização:
- O método demonstrou robustez ao ser aplicado em modelos mais avançados e maiores, como Qwen2.5-VL-7B, InternVL2.5-8B e InternVL3-14B, melhorando consistentemente suas pontuações no MME.

5. Significado e Conclusão

O trabalho MAP representa um avanço significativo na mitigação de alucinações em LVLMs ao mudar o foco de representações unidimensionais para uma visão holística bidimensional dos estados ocultos.

Impacto Prático: Por ser um método de decodificação sem treinamento (training-free), é facilmente aplicável a modelos existentes sem o custo proibitivo de retreinamento, tornando-o ideal para aplicações do mundo real que exigem alta precisão (ex.: diagnóstico médico, manufatura industrial, direção autônoma).
Insight Teórico: O estudo revela que a "verdade" factual em LVLMs não está concentrada em camadas finais ou tokens específicos, mas é uma propriedade emergente distribuída por todo o espaço latente 2D, acessível através de mecanismos de atenção cruzada apropriados.

Em suma, o MAP oferece uma solução eficiente, robusta e generalizável para um dos maiores obstáculos na confiabilidade dos modelos de inteligência artificial multimodal.