Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, capaz de "ver" imagens e responder perguntas sobre elas. Esse é o que chamamos de Modelo de Visão-Linguagem (LVLM). O problema é que, às vezes, esse assistente é um pouco "alucinado": ele vê um cachorro na foto e jura que é um gato, ou inventa detalhes que não existem, porque ele confia mais no que aprendeu na escola (o texto) do que no que está vendo na foto agora.

Até pouco tempo, os cientistas sabiam como ele errava. Era como se ele tivesse um "vício" de pensar demais ou de ignorar a imagem. Mas, com os modelos mais novos e inteligentes (como o Qwen2.5-VL-7B mencionado no texto), esses velhos truques de erro sumiram. Eles não erram mais da mesma forma previsível. E, pior ainda, as "correções" antigas que funcionavam nos modelos velhos agora só fazem os novos modelos ficarem piores, como tentar consertar um carro moderno com as ferramentas de um trator.

É aqui que entra a solução proposta neste artigo: o ICLA (Mecanismo de Auto-correção Interna usando Atenção de Camadas).

A Analogia: A Reunião de Equipes

Para entender como o ICLA funciona, imagine que o modelo de IA é como uma grande empresa com vários andares (camadas).

O Problema (Antigo): Antigamente, o modelo funcionava como uma linha de montagem onde cada funcionário (camada) recebia o trabalho do anterior, fazia uma pequena alteração e passava adiante. Se o funcionário do último andar (a camada final) cometesse um erro, não havia como voltar e corrigir. Ele apenas entregava o resultado errado.
O Novo Modelo (ICLA): O ICLA muda as regras da empresa. Agora, em cada andar, o funcionário tem um telefone direto para todos os andares anteriores.
- Antes de tomar uma decisão final, o funcionário do andar atual liga para os colegas dos andares 1, 2, 3... até o anterior.
- Ele pergunta: "Ei, vocês viram isso antes? O que vocês acharam?"
- Ele reúne as melhores informações de todos os andares anteriores, filtra o que é relevante e corrige sua própria visão antes de passar a resposta adiante.

Como isso funciona na prática?

Sem "Alucinação" Externa: O modelo não precisa de um professor humano ou de outra IA para dizer "isso está errado". Ele mesmo se corrige internamente.
Foco no Momento Certo: O modelo é inteligente o suficiente para saber quem ligar. Ele não liga para todos os andares de qualquer jeito. Ele usa um "filtro" (chamado de atenção diagonal) para garantir que está comparando a mesma parte da imagem em diferentes momentos de processamento. É como se ele dissesse: "Vou perguntar ao andar 5 sobre o que ele viu exatamente no canto esquerdo da foto, não sobre o canto direito".
Leve e Rápido: A grande vantagem é que essa "reunião de correção" não custa quase nada. O modelo adiciona apenas uma quantidade minúscula de "cérebro extra" (menos de 0,2 milhões de parâmetros, o que é nada comparado aos bilhões que o modelo já tem). É como adicionar um pequeno bloco de notas a um supercomputador.

Os Resultados

Os autores testaram essa ideia em dois modelos: um mais antigo (LLaVA) e um supermoderno (Qwen2.5).

Nos modelos antigos, o ICLA funcionou muito bem, batendo todos os outros métodos de correção.
Nos modelos modernos, onde os métodos antigos falhavam e deixavam o modelo pior, o ICLA brilhou. Ele conseguiu fazer o modelo moderno ver a imagem com muito mais clareza, reduzindo as alucinações e melhorando a precisão nas respostas.

Resumo da Ópera

Imagine que você está tentando adivinhar o que há dentro de uma caixa fechada.

O modelo antigo: Tentava adivinhar baseado apenas no formato da caixa (o texto), ignorando o peso ou o som (a imagem).
O método antigo de correção: Era como alguém gritando de fora: "Ei, olhe a imagem!". Mas nos modelos novos, esse grito confundia o sistema.
O ICLA: É como se o próprio cérebro do modelo tivesse um "espelho interno". A cada passo do pensamento, ele olha para trás, revisa o que viu nos passos anteriores, ajusta a própria interpretação e só então dá a resposta final.

Em suma, o ICLA ensina o modelo a confiar mais em si mesmo e revisar seu próprio trabalho em tempo real, tornando-o muito mais confiável, especialmente nos modelos de IA mais avançados e complexos de hoje.

Each language version is independently generated for its own context, not a direct translation.

Título: Auto-correção Interna no Modelo: Aproveitando a Atenção de Camadas para Mitigar Alucinações em Grandes Modelos Visuais-Linguísticos (LVLMs)

1. O Problema

Os Grandes Modelos Visuais-Linguísticos (LVLMs) avançaram significativamente em tarefas multimodais, mas continuam sofrendo com o problema de alucinação, onde o texto gerado não é fundamentado na entrada visual (descrevendo objetos ou relações inexistentes na imagem).

O artigo identifica uma mudança crítica no cenário atual:

Obsolescência de Padrões Antigos: Em modelos mais avançados (como o Qwen2.5-VL-7B), os padrões de alucinação previamente observados (como viés linguístico excessivo e o fenômeno de "superpensamento" ou overthinking) tornaram-se menos consistentes ou inexistem.
Falha das Técnicas Atuais: Métodos de mitigação projetados para esses padrões antigos (como Decodificação Contrastiva, DoLA, VCD) não apenas falham em melhorar os modelos modernos, mas frequentemente causam uma degradação significativa de desempenho (como mostrado no Gráfico 1 do artigo), tornando-se ineficazes ou até prejudiciais.

2. Metodologia: ICLA (Internal self-Correction utilizing Layer Attention)

Para superar a dependência de padrões específicos de alucinação, os autores propõem o ICLA, um mecanismo de auto-correção interna que opera diretamente nos estados ocultos (hidden states) durante a geração, sem sinais de correção externos.

Arquitetura e Funcionamento:

Mecanismo de Atenção Cruzada entre Camadas: Em vez de apenas processar informações dentro de uma única camada de transformer, o ICLA permite que cada camada recupere seletivamente informações de todas as camadas anteriores.
Processo de Refinamento:
1. O estado oculto da camada atual atua como a Query.
2. Os estados ocultos de todas as camadas anteriores (desde uma camada inicial $k_0$ ) atuam como Keys e Values.
3. Isso permite que a camada atual "releia" e refine sua representação com base no contexto acumulado das camadas anteriores.
Máscara de Atenção Diagonal: Para evitar vazamento de informação e contaminação cruzada de posições, aplica-se uma máscara diagonal na dimensão do token. Isso garante que o token na posição $i$ da camada atual só atenda ao token na mesma posição $i$ das camadas anteriores, preservando a coerência temporal/espacial.
Eficiência Paramétrica: O módulo de Atenção Cruzada entre Camadas (CLA) compartilha parâmetros em toda a rede e opera em um espaço latente (com redução de dimensão), introduzindo apenas 0,2M (no LLaVA1.5-7B) e 0,1M (no Qwen2.5-VL-7B) de parâmetros adicionais.

3. Contribuições Principais

Descoberta Crítica: Evidenciam que os padrões de alucinação e as técnicas de mitigação baseadas nesses padrões não são mais eficazes para LVLMs de última geração.
Proposta de ICLA: Introduzem um mecanismo de auto-correção adaptativo que não depende de padrões pré-definidos, permitindo que o modelo refine internamente suas representações iterativamente.
Validação em Modelos Avançados: Demonstram que o ICLA é eficaz não apenas em modelos base (LLaVA1.5), mas especialmente em modelos complexos e avançados (Qwen2.5-VL-7B), onde outras falham.

4. Resultados Experimentais

Os testes foram realizados nos modelos LLaVA1.5-7B e Qwen2.5-VL-7B em diversos benchmarks de alucinação (POPE, MME, MMMU, LLaVA-Bench).

Desempenho no LLaVA1.5-7B: O ICLA superou consistentemente todas as baselines (incluindo DoLA, VCD, DeCo, DAMO), alcançando o melhor desempenho em MME, LLaVA-Bench e MMMU.
Desempenho no Qwen2.5-VL-7B (Cenário Crítico):
- A maioria dos métodos existentes causou queda de desempenho em relação ao modelo Vanilla.
- O ICLA obteve melhorias notáveis:
  - +22 pontos no benchmark MME.
  - 90.2% de precisão no LLaVA-Bench (vs. 87.0% do Vanilla).
  - 69.2% no MMMU (vs. 67.5% do Vanilla).
Eficiência: O custo computacional de inferência é mínimo (apenas 0,07% a 0,37% de sobrecarga), e o treinamento é rápido (apenas 3 épocas em duas GPUs).

5. Significado e Conclusão

O trabalho é significativo por mudar o paradigma de mitigação de alucinações:

Independência de Padrões: Ao contrário de métodos que tentam corrigir "superpensamento" ou "viés linguístico" específicos, o ICLA oferece uma solução adaptativa que funciona mesmo quando esses padrões não são observáveis.
Análise de Dinâmica Interna: A análise dos pesos de atenção revela que o ICLA aprende a recuperar informações de camadas intermediárias e profundas específicas (ex: camadas 19-21 e 24-25 no Qwen), ignorando camadas que não contribuem para a correção. Isso sugere que a auto-correção eficaz depende de uma integração dinâmica e não uniforme entre camadas.
Futuro: O ICLA demonstra ser uma ferramenta robusta para melhorar a confiabilidade de LVLMs cada vez mais complexos, onde as falhas são sutis e difíceis de modelar com regras fixas.

Em resumo, o ICLA propõe que a solução para alucinações em modelos modernos não é forçar correções externas, mas permitir que o modelo se auto-corrija através de uma atenção inteligente e estruturada entre suas próprias camadas internas.

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

A Analogia: A Reunião de Equipes

Como isso funciona na prática?

Os Resultados

Resumo da Ópera

Título: Auto-correção Interna no Modelo: Aproveitando a Atenção de Camadas para Mitigar Alucinações em Grandes Modelos Visuais-Linguísticos (LVLMs)

1. O Problema

2. Metodologia: ICLA (Internal self-Correction utilizing Layer Attention)

Arquitetura e Funcionamento:

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies