Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, capaz de ver fotos e descrevê-las com palavras. Esse assistente é chamado de LVLM (Modelo de Linguagem e Visão Grande). Ele é incrível, mas tem um defeito chato: ele às vezes "alucina".

O que é alucinar? É quando o assistente vê uma foto de uma mesa com maçãs e, de repente, descreve que ali também tem um cachorro, um carro ou um chapéu, mesmo que nada disso esteja na imagem. Ele inventa coisas que não existem.

O artigo que você enviou apresenta uma solução genial para esse problema chamada CIPHER. Vamos explicar como funciona usando uma analogia simples.

O Problema: O "Sonho" do Assistente

Pense no assistente como um artista que tenta pintar uma descrição baseada na foto. Às vezes, a mente dele "viaja" e adiciona detalhes que ele acha que deveriam estar lá, mas não estão. Isso acontece porque ele aprendeu com muitos dados e, às vezes, confunde o que é real com o que é provável.

A Solução: CIPHER (O Detetive de Realidade)

Os autores criaram o CIPHER (que significa algo como "Perturbações de Imagem Contrafactuais para Extração e Remoção de Alucinação"). A ideia é genial porque não precisa reeducar o assistente (o que seria caro e demorado). Em vez disso, eles usam um truque de "engenharia reversa" durante o momento em que o assistente está falando.

Aqui está como eles fazem isso, passo a passo:

1. A Fase de Treino (O Laboratório de Mentiras)

Antes de usar o assistente no mundo real, os pesquisadores fazem um experimento em laboratório:

Eles pegam uma foto real (ex: uma mesa com frutas).
Eles usam uma IA geradora de imagens (como o Stable Diffusion) para criar uma versão falsa da mesma foto. Eles mudam a foto levemente para adicionar coisas que não deveriam estar lá (ex: adicionar uvas que não existem), mas mantêm o resto da foto igual.
Eles mostram a foto real e a foto falsa para o assistente, pedindo a mesma descrição.
O Pulo do Gato: Eles analisam o "cérebro" (os dados internos) do assistente enquanto ele olha para a foto falsa. Eles descobrem que, quando o assistente vê algo que não é real, seus dados internos se movem em uma direção específica. É como se o cérebro dele "caminhasse" para um lugar chamado "Mundo das Mentiras".

Eles mapeiam esse "caminho da mentira" e o guardam em um banco de dados.

2. A Fase de Uso (O Filtro de Realidade)

Agora, quando você usa o assistente para descrever uma foto real:

O assistente começa a processar a imagem.
Antes de ele escrever a próxima palavra, o sistema CIPHER olha para o que está acontecendo no "cérebro" do assistente.
Se o assistente começar a "caminhar" na direção que eles mapearam como "Mundo das Mentiras" (a direção da alucinação), o sistema empurra esses dados de volta para o caminho da realidade.
É como se houvesse um guarda invisível que, ao ver o assistente prestes a inventar um cachorro, o segura e diz: "Ei, olhe de novo, não tem cachorro aqui!".

Por que isso é especial?

É Rápido: Diferente de outros métodos que exigem que o assistente leia a foto várias vezes (o que deixa tudo lento), o CIPHER faz isso em uma única passada, como um filtro de água.
Não Muda a Personalidade: O assistente continua sendo inteligente e criativo, apenas deixa de inventar coisas que não estão na foto. Ele continua descrevendo bem, mas com mais precisão.
Foca no Visual: Muitos métodos anteriores tentavam consertar apenas as palavras que o assistente escrevia. O CIPHER entende que a raiz do problema muitas vezes está na imagem que o assistente está "vendo" internamente, e ataca diretamente ali.

Resumo em uma frase

O CIPHER é como um corretor de realidade em tempo real que, ao detectar que o cérebro da IA está prestes a inventar uma mentira baseada na imagem, aplica um "empurrãozinho" matemático para trazê-la de volta à verdade, sem precisar reescrever o código do assistente.

O resultado? Um assistente que vê o mundo exatamente como ele é, sem adicionar cachorros invisíveis ou chapéus que não existem.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression" (Combate a Alucinações com Contrafactuais: Perturbações Guiadas por Difusão para Supressão de Alucinações em LVLMs), apresentado em português.

1. O Problema: Alucinações em Modelos de Visão-Linguagem (LVLMs)

Os Grandes Modelos de Visão-Linguagem (LVLMs), como LLaVA e MiniGPT-4, integram codificadores visuais com Grandes Modelos de Linguagem (LLMs) para realizar tarefas multimodais. Embora tenham desempenho impressionante, eles sofrem frequentemente de alucinações: geram descrições ou respostas que contêm objetos, atributos ou cenas que não estão presentes na imagem de entrada.

A literatura anterior identificou que as alucinações surgem tanto de tendências generativas do componente de linguagem quanto de um "ancoramento visual" (visual grounding) fraco. A maioria dos métodos de mitigação existentes foca em alucinações induzidas pelo texto ou requer treinamento pesado (re-treinamento do modelo), o que é custoso e pouco escalável. Métodos de tempo de teste (test-time) existentes muitas vezes dependem de múltiplas passagens de inferência (aumentando o custo computacional) ou ignoram especificamente as raízes visuais das alucinações.

2. Metodologia: CIPHER

Os autores propõem o CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal), um método sem treinamento (training-free) que atua durante a inferência para suprimir alucinações induzidas pela visão. O método opera em duas fases principais:

Fase 1: Offline (Construção do Subespaço de Alucinação)

O objetivo é identificar a direção no espaço de características (feature space) que corresponde a alucinações visuais.

Geração do Dataset OHC-25K:
- A partir de 5.000 pares imagem-legenda do conjunto MSCOCO, o sistema gera 25.000 imagens contrafactuais.
- Perturbação da Legenda: Um modelo GPT-3.5 altera a legenda original, inserindo objetos plausíveis, mas incorretos (ex: adicionar "uvas" em uma imagem de legumes).
- Edição da Imagem via Difusão: A imagem original é codificada no espaço latente de um modelo de Difusão Estável (Stable Diffusion). Aplica-se um processo de difusão parcial (adição de ruído) e, em seguida, um processo reverso de denoising condicionado à legenda alterada.
- O resultado é uma imagem visualmente coerente com a original, mas contendo os objetos "alucinados" descritos na nova legenda.
Extração de Direções de Alucinação:
- O LVLM processa tanto o par original (Imagem $I$ , Legenda $C$ ) quanto o par contrafactual (Imagem $\tilde{I}$ , Legenda $C$ ).
- Calcula-se a diferença entre os estados ocultos (hidden states) gerados pelos pares: $\delta = \tilde{h} - h$ .
- Essas vetores de diferença são empilhados e submetidos à Decomposição em Valores Singulares (SVD).
- Os vetores singulares à direita correspondentes aos maiores valores singulares formam uma base que define o subespaço de alucinação (Hallucination Subspace). Este subespaço captura as direções sistemáticas onde o modelo tende a "alucinar" objetos visuais.

Fase 2: Inferência (Supressão em Tempo Real)

Durante a geração de texto (inferência):

Para cada passo de decodificação e camadas selecionadas do LVLM, o estado oculto atual ( $h_{test}$ ) é projetado no complemento ortogonal do subespaço de alucinação identificado na fase offline.
Matematicamente, remove-se a componente do estado oculto que se alinha com a direção de alucinação:
$h_{clean} = h_{test} - \sum_{j=1}^{r} \langle h_{test}, v_j \rangle v_j$
Onde $v_j$ são os vetores da base de alucinação.
Isso força o modelo a gerar respostas que não contêm os padrões de ativação associados a objetos visuais inexistentes, sem alterar os pesos do modelo.

3. Principais Contribuições

Foco na Modalidade Visual: Diferente de métodos anteriores que focam em perturbações textuais, o CIPHER identifica e remove especificamente as alucinações originadas da modalidade visual, utilizando imagens contrafactuais geradas por difusão.
Dataset OHC-25K: Criação de um novo dataset de 25.000 pares imagem-legenda contrafactuais, onde a semântica visual é alterada para contradizer a legenda original, permitindo a extração precisa de direções de alucinação.
Método Sem Treinamento e Eficiente: O método não requer re-treinamento do modelo, ajuste de parâmetros ou múltiplas passagens de inferência (forward passes). A supressão ocorre via uma projeção linear leve (single forward pass), mantendo a latência de inferência equivalente à decodificação padrão (greedy/beam search).
Eficácia Comprovada: Demonstração de que as perturbações visuais geram um subespaço de alucinação mais distinto e separável do que perturbações puramente textuais.

4. Resultados Experimentais

O CIPHER foi avaliado em múltiplos benchmarks (CHAIR, Offline POPE, MMHal-Bench, LLaVA-Bench) em três modelos populares: LLaVA-1.5, MiniGPT-4 e mPLUG-Owl2.

Redução de Alucinação (CHAIR):
- No benchmark CHAIR (mede a porcentagem de frases com objetos alucinados), o CIPHER obteve consistentemente os melhores resultados.
- Exemplo no LLaVA-1.5: Redução do CHAIRS de 20,40% (baseline) para 13,05%, superando o segundo melhor método (Nullu) em 2,15 pontos percentuais.
- No MiniGPT-4, reduziu o CHAIRS de 32,40% para 18,48%.
Preservação de Qualidade (BLEU e Precisão):
- O método não degradou a fluência do texto (pontuações BLEU mantidas ou melhoradas).
- No benchmark Offline POPE (OPOPE), o CIPHER alcançou a maior precisão e pontuação F1 em todos os modelos, indicando que remove objetos falsos sem remover objetos reais.
Eficiência Computacional:
- O CIPHER manteve a mesma taxa de transferência (throughput) da decodificação padrão (0,70 itens/segundo), enquanto métodos concorrentes como OPERA e HALC tiveram quedas drásticas de velocidade (0,10 e 0,05 itens/segundo, respectivamente) devido a múltiplas passagens de inferência.
Análise de Ablação:
- Estudos mostraram que perturbações visuais (difusão) criam um subespaço de alucinação mais separável (maior precisão em classificação linear) do que perturbações textuais.
- O uso de passos de difusão intermediários ($0.5T$) foi identificado como ideal para equilibrar a fidelidade estrutural e a alteração semântica.

5. Significância e Conclusão

O trabalho CIPHER representa um avanço significativo na mitigação de alucinações em LVLMs ao abordar a raiz visual do problema de forma eficiente. Ao demonstrar que é possível "apagar" as direções de alucinação no espaço latente sem re-treinar o modelo, o método oferece uma solução prática e escalável para melhorar a confiabilidade (faithfulness) de sistemas multimodais em aplicações do mundo real.

A principal inovação reside na utilização de modelos de difusão para gerar dados de treinamento sintéticos (contrafactuais) que expõem as falhas de ancoragem visual do modelo, permitindo a extração de um "subespaço de alucinação" que pode ser neutralizado matematicamente durante a inferência. Isso estabelece um novo paradigma onde a correção de alucinações visuais não depende de mais dados anotados manualmente ou de arquiteturas complexas, mas sim de intervenções inteligentes no espaço de características.