AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

O artigo propõe o AdaIAT, um método que aumenta adaptativamente a atenção aos tokens de texto gerado com base em padrões de atenção observados, reduzindo significativamente as alucinações em Modelos de Linguagem e Visão de Grande Escala (LVLMs) sem comprometer a coerência linguística ou causar descrições repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng, Jin Li, Z. Jane Wang, Xiangui Kang

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, capaz de olhar para uma foto e descrevê-la em detalhes. Esse é o modelo chamado LVLM (Modelo de Linguagem e Visão de Grande Escala). O problema é que, às vezes, esse assistente "alucina": ele inventa coisas que não estão na foto, como dizer que há um cachorro quando só há um gato, ou descreve cores erradas.

Para consertar isso, os cientistas tentaram uma solução simples: gritar mais alto para a imagem. Eles aumentaram o "volume" da atenção que a IA dá aos pixels da foto. Funcionou para reduzir as invenções, mas criou um novo problema: a IA começou a ficar repetitiva e entediante, como um disco riscado, dizendo a mesma coisa várias vezes e esquecendo o que já havia dito antes.

É aqui que entra o AdaIAT, a nova solução proposta por este artigo. Vamos entender como funciona com algumas analogias:

1. O Problema do "Discos Riscado"

Imagine que a IA está contando uma história sobre uma foto.

  • O método antigo (PAI/HGAI): Era como se alguém batesse na mesa e gritasse: "OLHE PARA A FOTO! OLHE PARA A FOTO!" a cada frase. A IA parava de ouvir a si mesma. Ela esquecia o que acabou de dizer e repetia: "Há um relógio. Há um relógio. Há um relógio..."
  • A descoberta: Os pesquisadores notaram algo curioso. Quando a IA acerta (descreve algo real), ela presta muita atenção no que ela mesma acabou de escrever. Quando ela erra (alucina), ela ignora o que escreveu e foca demais na foto de forma desequilibrada.

2. A Solução: "Escute a Si Mesmo" (IAT)

Em vez de gritar apenas para a foto, o novo método (IAT) diz: "Ei, preste atenção no que você acabou de dizer!".

  • A Analogia: Imagine que você está descrevendo uma festa. Se você prestar atenção no que acabou de dizer ("Tem música alta"), isso ajuda você a lembrar do contexto e descrever melhor o que vem a seguir ("...e por isso as pessoas estão dançando").
  • Ao aumentar a atenção para o texto gerado (o que a IA já escreveu), ela usa esse contexto para se manter coerente. Isso evita que ela invente coisas (alucine) e, ao mesmo tempo, impede que ela repita a mesma frase como um papagaio.

3. O "Pulo do Gato" Inteligente (AdaIAT)

A primeira versão (IAT) já era boa, mas era um pouco "bruta". Ela aumentava o volume da atenção para o texto em todos os momentos, o que poderia atrapalhar a IA quando ela já estava fazendo um bom trabalho.

É aí que entra o AdaIAT (Adaptative IAT). Pense nele como um regulador de volume inteligente ou um maestro de orquestra:

  • O Maçador (Threshold): O AdaIAT vigia a IA. Se ele percebe que a IA está prestando pouca atenção no que ela mesma escreveu (o que pode levar a uma alucinação), ele intervém e aumenta o volume. Se a IA já está focada e fazendo um bom trabalho, ele não faz nada, deixando a IA funcionar naturalmente.
  • O Maestro (Amplificação Adaptativa): Nem todos os "cérebros" (chamados de cabeças de atenção) da IA funcionam da mesma forma. Alguns são especialistas em cores, outros em formas. O AdaIAT ajusta o volume de cada um individualmente. Se um "cérebro" precisa de um empurrãozinho, ele recebe. Se outro já está no ritmo perfeito, ele não é perturbado.

Resumo da Ópera

O AdaIAT é como um professor muito sábio que ensina a IA a:

  1. Não inventar: Usando o que ela já disse para guiar o que vai dizer a seguir.
  2. Não repetir: Mantendo a conversa fluida e natural.
  3. Não atrapalhar: Intervindo apenas quando necessário e de forma personalizada para cada parte do cérebro da IA.

O Resultado: A IA descreve as fotos com muito mais precisão (menos alucinações), mas continua falando de forma criativa, variada e natural, sem parecer um robô repetitivo. É o equilíbrio perfeito entre ser preciso e ser um bom contador de histórias.