Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-robô de inteligência artificial chamado MLLM (Modelo de Linguagem Multimodal). Esse robô é incrível: ele vê fotos e descreve o que está nelas, ou responde perguntas sobre elas. Ele é muito inteligente, mas tem um defeito de nascença: ele alucina.

O que é alucinar para um robô? É quando ele inventa coisas que não estão na foto. Por exemplo, você mostra uma foto de uma mesa com um garfo e uma colher, e o robô diz: "Vejo um garfo, uma colher e uma cerveja". Mas não há cerveja nenhuma! Ele apenas "adivinha" a cerveja porque, no mundo real, garfos e cervejas costumam aparecer juntos.

Os autores deste paper (Shan Wang e equipe) criaram uma solução inteligente para consertar isso sem precisar reprogramar o robô do zero. Eles chamam o método de GACD.

Vamos entender como funciona usando uma analogia simples:

1. O Problema: O Robô que "Ouve" mais do que "Vê"

O robô tem dois "ouvidos" principais:

O Ouvido do Texto: Ele lê o que você perguntou e o que ele já escreveu antes.
O Ouvido da Imagem: Ele analisa os pixels da foto.

O problema é que o robô tende a confiar demais no Ouvido do Texto e pouco no Ouvido da Imagem. Ele é como um aluno que, em uma prova, ignora o gráfico que o professor mostrou e responde apenas o que "acha que deve estar lá" baseado no que estudou de cor.

Além disso, ele sofre de um "viés de coincidência". Se ele vê um "cachorro", ele automaticamente pensa em "coleira", mesmo que a coleira não esteja na foto. É como se ele tivesse um livro de regras mentais que diz: "Sempre que tem cachorro, tem coleira".

2. A Solução: O "Espelho de Gradiente" (GACD)

Os pesquisadores criaram um sistema que funciona como um espelho de auto-reflexão para o robô, ativado no momento em que ele está escrevendo a resposta (antes de ele terminar a frase).

Eles usam uma técnica matemática (gradientes) para fazer uma pergunta ao robô a cada palavra que ele vai gerar:

"Quanto essa palavra que você está pensando em escrever depende realmente do que você vê na foto, e quanto depende apenas do que você leu ou adivinhou?"

3. Como o GACD age (A Analogia do Maestro)

Imagine que o robô é uma orquestra.

Os Textos são os violinos (muito altos e dominantes).
A Imagem são os violoncelos (muitas vezes abafados).
As Alucinações são quando os violinos tocam uma nota que não combina com a música.

O método GACD atua como um Maestro Mágico que faz duas coisas:

Silencia os "Fantasmas" (Viés de Coocorrência):
Se o robô está prestes a escrever "cerveja" porque viu um "garfo", o Maestro olha para a foto. Ele percebe que a "cerveja" não tem nenhum som (nenhum pixel) correspondente na imagem. Então, ele abaixa o volume da palavra "cerveja" e aumenta o volume das palavras que realmente têm pixels na foto (como "garfo" e "prato"). Ele diz: "Ei, essa 'cerveja' é só um eco da sua imaginação, pare de tocar isso!".
Reequilibra a Orquestra (Viés Texto-Visual):
O Maestro percebe que os violinos (texto) estão gritando muito alto. Então, ele pega os violoncelos (imagem) e aumenta o volume deles para que fiquem tão fortes quanto os violinos. Assim, o robô é forçado a olhar para a foto antes de escrever a próxima palavra.

4. O Fim da História: Parar na Hora Certa

O robô também tem um problema de "falta de foco" em textos longos. Quanto mais ele escreve, mais ele esquece a foto original.
O GACD tem um termômetro de foco. Se o robô começar a escrever e perceber que a "influência da imagem" caiu muito (ou seja, ele está escrevendo apenas baseado no que já escreveu, sem olhar para a foto), o sistema diz: "Pare! Você está inventando demais. Vamos encerrar a frase aqui." Isso evita que ele continue inventando coisas sem sentido.

Por que isso é legal?

Sem Reescola: Não precisa treinar o robô de novo (o que seria caro e demorado). É como dar um "óculos de realidade aumentada" para ele usar apenas na hora de responder.
Funciona em Qualquer Robô: Funciona em vários modelos diferentes (LLaVA, InstructBLIP, etc.).
Resultado: O robô passa a ser muito mais honesto. Ele descreve o que realmente vê, em vez de o que acha que vê.

Resumo em uma frase:
O GACD é um "detetive interno" que vigia o robô em tempo real, garantindo que ele olhe para a foto antes de falar, silenciando as invenções baseadas em estereótipos e forçando-o a confiar no que seus olhos (a câmera) realmente veem.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Alucinações em Modelos de Linguagem Multimodal (MLLMs)

Os Modelos de Linguagem Multimodal (MLLMs) alcançaram desempenho impressionante em diversas tarefas, mas permanecem suscetíveis a alucinações, onde o texto gerado não é fundamentado corretamente nas entradas visuais. O artigo identifica que essas alucinações derivam de dois vieses fundamentais:

Viés Texto-Visual (Text-Visual Bias): O modelo confia excessivamente no prompt de entrada e nas saídas anteriores (texto), negligenciando a modalidade visual durante a geração. Esse problema se agrava em sequências longas, onde o modelo tende a "esquecer" as pistas visuais.
Viés de Coocorrência (Co-occurrence Bias): O modelo aprende correlações estatísticas espúrias dos dados de treinamento. Por exemplo, se "cadeira" e "mesa" aparecem frequentemente juntas, o modelo pode prever erroneamente a presença de uma "mesa" apenas porque vê uma "cadeira", mesmo que a mesa não esteja na imagem.

As soluções existentes geralmente dependem de:

Ajuste Fino (Fine-tuning): Custoso e requer dados adicionais.
Modelos Auxiliares: Redes de segmentação ou detecção que introduzem novos pontos de falha e dependem de supervisão específica.
Heurísticas Uniformes: Métodos que aplicam pesos iguais a todos os recursos visuais, sem capacidade de ajustar o viés em nível de token individual.

2. Metodologia: GACD (Gradient-based Influence-Aware Constrained Decoding)

Os autores propõem o GACD, um método baseado em inferência (inference-time) que não requer ajuste fino nem modelos auxiliares. O núcleo da abordagem é a estimativa de viés utilizando gradientes de primeira ordem para entender a contribuição de cada token (visual e textual) para a saída atual.

A. Estimação de Influência de Token (Baseada em Taylor)

O método utiliza uma expansão de Taylor de primeira ordem em torno de um ponto de referência para aproximar como pequenas perturbações nos tokens de entrada afetam os logits de saída. A importância de cada token é quantificada pela norma Manhattan (L1) do seu gradiente:

Calcula-se a influência de tokens visuais ( $t_v$ ), tokens do prompt ( $t_p$ ) e tokens de saída anteriores ( $y_{<m}$ ) sobre o logit do próximo token.
Isso permite uma decomposição granular de como cada recurso contribui para a decisão do modelo.

B. Componentes Principais do GACD

Agrupamento de Tokens Visuais Consciente de Objetos (Object-aware Visual Token Grouping):
- Durante a geração, o sistema detecta substantivos (nomes de objetos) já emitidos na saída ( $y_{<m}$ ).
- Para cada substantivo mencionado, identifica-se o token visual com a maior influência associado a ele.
- Os tokens visuais são divididos em dois grupos:
  - $t_o$ (Relacionados ao Objeto): Tokens visuais ligados a objetos já mencionados.
  - $t_u$ (Não Relacionados): Tokens visuais que não estão ligados a objetos mencionados anteriormente.
Decodificação Ponderada por Influência Específica de Âncora (Anchor-specific Influence-weighted Decoding):
- O método estende a Decodificação Contrastiva. Ele gera logits negativos ( $z^o_m$ ) usando apenas os tokens relacionados aos objetos mencionados ( $t_o$ ) e o texto, excluindo os tokens não relacionados ( $t_u$ ).
- Ajusta-se os logits originais ( $z^*_m$ ) com um peso $\alpha_m$ :
  $\hat{z}_m = (1 + \alpha_m) z^*_m - \alpha_m z^o_m$
- Objetivo 1 (Reduzir Viés de Coocorrência): Ao subtrair a influência dos tokens relacionados aos objetos já mencionados ( $t_o$ ) e amplificar os não relacionados ( $t_u$ ), o método força o modelo a buscar evidências visuais para novos objetos, evitando prever objetos baseados apenas em correlações estatísticas com objetos já vistos.
- Objetivo 2 (Reduzir Viés Texto-Visual): O peso $\alpha_m$ é calculado dinamicamente para que a influência dos tokens visuais ( $t_u$ ) corresponda ao nível dominante de influência textual (seja do prompt ou da saída anterior). Isso reequilibra a contribuição entre visão e texto.
Critério de Parada Dependente da Amostra (Sample-dependent Early Stopping):
- Para evitar a geração contínua de alucinações em sequências longas, o método monitora a razão de influência visual. Se a influência visual cair abaixo de um limiar $\epsilon$ após o token de fim de sequência (EOS), a geração é interrompida.

3. Contribuições Principais

Método de Inferência sem Ajuste Fino: Uma abordagem que mitiga alucinações em MLLMs pré-treinados sem necessidade de retreinamento, dados adicionais ou modelos externos.
Estimação de Viés Baseada em Gradientes: Utiliza a sensibilidade de gradientes (via expansão de Taylor) para quantificar e ajustar granularmente a influência de tokens visuais e textuais individuais.
Módulos Complementares:
- Supressão de características visuais espúrias correlacionadas com a saída atual (combate ao viés de coocorrência).
- Reequilíbrio das contribuições cruzadas (visão vs. texto) para fortalecer a fundamentação visual (combate ao viés texto-visual).
Desempenho Superior: Resultados robustos em múltiplos benchmarks, demonstrando redução de alucinações sem sacrificar a riqueza de detalhes (informatividade).

4. Resultados Experimentais

O GACD foi avaliado em tarefas generativas (descrição de imagens, VQA) e discriminativas (verificação de existência de objetos) em conjuntos de dados como AMBER, MSCOCO, POPE e LLaVA-QA90.

Redução de Alucinações:
- Redução de até 33% em alucinações ao nível de frase e 32% ao nível de instância (métricas CHAIR).
- Redução de até 57% em alucinações de coocorrência.
- Aumento de 92% na precisão em tarefas de VQA (LLaVA-QA90).
Preservação de Informação:
- Diferente de métodos que cortam a geração para reduzir alucinações, o GACD mantém o recall (cobertura de objetos) e a detalhamento. Houve apenas uma queda média de 1,1% no recall, comparado a quedas maiores em outros métodos.
- Aumento de até 45% na métrica de "detalhes" (detailedness).
Eficiência:
- O método é computacionalmente eficiente, adicionando apenas uma passagem de gradiente sobre um conjunto pequeno de tokens, com aumento de tempo de execução comparável a métodos de decodificação contrastiva existentes (ex: VCD).
Generalização:
- Funciona bem em diversas arquiteturas (LLaVA-v1.5/1.6, InstructBLIP, mPLUG-Owl2, InternVL2, Qwen2-VL).
- A melhoria é mais pronunciada em modelos com menor razão de influência visual inicial, validando a premissa de que o método corrige o desequilíbrio de viés.

5. Significado e Impacto

O trabalho é significativo porque oferece uma solução transparente e interpretável para o problema das alucinações. Ao invés de tratar o modelo como uma caixa preta, o GACD utiliza a "auto-reflexão" (análise de gradientes internos) para identificar e corrigir ativamente os vieses durante a inferência.

Praticidade: Pode ser aplicado a qualquer MLLM existente sem custo de treinamento.
Segurança e Confiabilidade: Aumenta a confiança em aplicações críticas (como diagnóstico médico ou sistemas para deficientes visuais) ao garantir que as descrições geradas sejam fielmente fundamentadas na imagem.
Equilíbrio: Resolve o dilema comum entre reduzir alucinações e manter a riqueza de detalhes, provando que é possível corrigir o modelo sem torná-lo "silencioso" ou impreciso.

Em resumo, o GACD representa um avanço na capacidade de controlar o comportamento de modelos multimodais em tempo de execução, utilizando a matemática dos gradientes para alinhar a geração de texto com a realidade visual.

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

1. O Problema: O Robô que "Ouve" mais do que "Vê"

2. A Solução: O "Espelho de Gradiente" (GACD)

3. Como o GACD age (A Analogia do Maestro)

4. O Fim da História: Parar na Hora Certa

Por que isso é legal?

1. O Problema: Alucinações em Modelos de Linguagem Multimodal (MLLMs)

2. Metodologia: GACD (Gradient-based Influence-Aware Constrained Decoding)

A. Estimação de Influência de Token (Baseada em Taylor)

B. Componentes Principais do GACD

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics