Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

O artigo propõe o PADE, um método livre de treinamento que mitiga alucinações em Modelos de Linguagem Visuais Grandes ao identificar e realçar regiões visuais semanticamente centrais por meio da dinâmica de atenção positiva interna, utilizando escalonamento adaptativo e compensação de tokens de sistema para garantir consistência e precisão.

Guangtao Lyu, Qi Liu, Chenghao Xu, Jiexi Yan, Muli Yang, Xueting Li, Fen Fang, Cheng Deng

Publicado 2026-02-18
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, capaz de "ver" fotos e conversar sobre elas. Esse é o modelo LVLM (Large Vision Language Model). O problema é que, às vezes, esse assistente é um pouco alucinado. Ele pode olhar para uma foto de uma maçã vermelha e dizer: "Essa maçã é azul", ou inventar que há um cachorro na foto quando não há.

Os pesquisadores deste artigo descobriram por que isso acontece e criaram uma solução simples e barata para consertar, chamada PADE.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: O "Ruído" que Cega o Assistente

Imagine que o cérebro do assistente é uma sala cheia de pessoas (os "tokens" ou pedaços de informação) conversando.

  • O que deveria acontecer: As pessoas que falam sobre a maçã na foto deveriam ser as mais ouvidas.
  • O que acontece na realidade: Existem algumas pessoas barulhentas e irrelevantes na sala (chamadas de "Attention Sinks" ou "Poços de Atenção"). Elas não falam nada útil sobre a foto, mas gritam tão alto que o assistente acaba prestando atenção nelas em vez da maçã. É como tentar ouvir um amigo numa festa barulhenta onde alguém está gritando música no microfone o tempo todo.

Métodos antigos tentavam consertar isso de duas formas ruins:

  1. Pedir ajuda a um especialista externo: Como chamar um segurança da festa para dizer quem está falando. Isso é caro e lento.
  2. Olhar apenas para quem está gritando mais alto: Mas o problema é que os "gritos" irrelevantes (os Poços de Atenção) são os mais altos! Então, eles só pioram a confusão.

2. A Descoberta: A "Dança" da Atenção

Os pesquisadores notaram algo interessante. Em vez de olhar para quem está gritando agora (o sinal estático), eles olharam para como a atenção muda enquanto o assistente pensa.

  • A Analogia da Dança: Imagine que a maçã na foto é um dançarino. No início da música, ele pode estar quieto. Mas, conforme a música avança (camadas do modelo), ele começa a dar passos mais firmes e consistentes em direção ao centro.
  • Os "Poços de Atenção" (o ruído) são como alguém pulando aleatoriamente e sem ritmo.
  • O PADE (Positive Attention Dynamics) é como um coreógrafo que ignora quem está gritando e foca apenas nos passos consistentes e positivos que levam à maçã. Ele percebe: "Ah, a atenção para a maçã aumentou de um momento para o outro, isso é importante!".

3. A Solução: O "PADE" (O Coreógrafo Inteligente)

O PADE é uma técnica que não precisa de treinamento novo nem de ajuda externa. Ele funciona em três passos mágicos durante a conversa:

  1. Mapear a Dança (PAD): Ele cria um mapa que mostra apenas onde a atenção aumentou de verdade entre as camadas do pensamento. Isso destaca a maçã e ignora o ruído aleatório.
  2. Ajustar o Volume (MAD Scaling): Às vezes, o sinal é muito fraco ou muito forte. O PADE usa uma régua inteligente (chamada Desvio Absoluto Mediano) para ajustar o volume da "voz" da maçã para o nível perfeito, sem distorcer o resto da conversa.
  3. Não Esquecer o Pedido (Compensação de Token do Sistema): Se você aumentar muito a atenção na maçã, o assistente pode esquecer o que você pediu (ex: "Descreva a foto"). O PADE faz um truque: ele tira um pouquinho da atenção de uma parte "chatinha" do sistema (que não muda a resposta) e joga essa atenção extra na maçã. Assim, ele vê a maçã melhor, mas ainda lembra do seu pedido.

4. O Resultado

Com o PADE, o assistente:

  • Vê melhor: Ele foca nas partes importantes da foto (a maçã, o cachorro, o carro).
  • Alucina menos: Ele para de inventar coisas que não estão lá.
  • É rápido: Como não precisa chamar um "segurança" externo ou refazer a conta várias vezes, ele responde na mesma velocidade que antes.

Resumo em uma frase:
O PADE ensina o assistente a ignorar o barulho da festa e a focar na "dança" consistente dos objetos reais na foto, garantindo que ele descreva o que realmente vê, e não o que imagina.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →