NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô super inteligente que consegue ver fotos e descrevê-las para você. Esse robô é uma mistura de "olhos" (que veem a imagem) com um "cérebro de escritor" (que sabe falar e escrever muito bem).

O problema é que, às vezes, esse robô começa a alucinar. Ele olha para uma foto de um cachorro e diz: "Vejo um cachorro, um gato e um dinossauro voando!". Na foto, só tem o cachorro. O robô inventou o resto. Isso é perigoso, especialmente se ele estiver dirigindo um carro ou ajudando em um hospital.

O artigo que você enviou, chamado NoLan, resolve esse problema de uma forma muito inteligente e simples. Vamos explicar como funciona usando uma analogia do dia a dia.

O Grande Mistério: Quem está mentindo?

Os cientistas queriam saber: quem está inventando essas coisas?

São os olhos (o encoder de visão) que não veem o objeto direito?
Ou é o cérebro de escritor (o decodificador de linguagem) que está tão acostumado a contar histórias que ele inventa coisas que não estão lá?

A Descoberta:
Eles descobriram que os olhos estão certos! O robô vê o cachorro perfeitamente. O problema é o cérebro de escritor.

Imagine que o cérebro do robô é um ator de teatro que decorou milhares de roteiros. Se você perguntar "O que tem na sala?", ele tende a responder com base no que geralmente tem em salas, e não no que você está mostrando. Se ele está acostumado a ver "cachorros e gatos juntos" em filmes, ele vai inventar o gato, mesmo que a foto só tenha o cachorro. O cérebro dele é muito forte e "empurra" a resposta para o que ele acha que deve estar lá.

A Solução: O "NoLan" (Sem Alucinação de Linguagem)

O método NoLan funciona como um filtro de realidade que entra em ação na hora que o robô vai escrever a resposta. Ele não precisa reeducar o robô (o que seria caro e demorado). Ele apenas ajusta a resposta no último segundo.

Aqui está como ele faz isso, passo a passo:

A Pergunta Dupla:
Imagine que você pergunta ao robô: "O que tem na foto?"
- Passo A: O robô olha a foto E a pergunta e pensa na resposta.
- Passo B: O robô ignora a foto e só olha a pergunta, pensando: "Se eu não visse nada, o que eu diria que é provável que exista?" (Isso é o "viés de linguagem").
O Confronto (A Lógica do Detetive):
O NoLan compara as duas respostas mentais.
- Se o robô, ao olhar a foto, pensa muito diferente do que ele pensaria apenas com a pergunta, ótimo! A foto está guiando a resposta.
- Se as duas respostas são iguais (o robô diz "dinossauro" tanto olhando a foto quanto sem olhar), o NoLan percebe: "Ei! Você está apenas repetindo o que sabe de cor, ignorando a foto!".
O Ajuste Fino:
O NoLan pega essa resposta e diminui o volume das palavras que o cérebro "inventou" (os preconceitos de linguagem) e aumenta o volume do que a foto realmente mostra. É como se ele dissesse ao robô: "Ei, pare de contar a história que você decorou e olhe para a foto de verdade!".

Por que isso é incrível?

É Grátis e Rápido: Você não precisa treinar o robô de novo. É como colocar um óculos especial nele na hora que ele vai falar.
Funciona em Qualquer Robô: Funciona com modelos grandes e pequenos, como o LLaVA e o Qwen.
Resultados Reais: Nos testes, o robô parou de inventar objetos. Se a foto tem 6 anões, ele diz "6", e não inventa um "7º anão" só porque em contos de fadas tem 7.

Resumo em uma frase

O NoLan é como um editor de texto em tempo real que vigia o robô e corta as invenções dele, garantindo que ele descreva exatamente o que vê na foto, e não o que ele acha que deveria ver.

É uma solução simples para um problema complexo: fazer a inteligência artificial ser mais honesta com o que seus olhos veem.

Each language version is independently generated for its own context, not a direct translation.

Título: NoLan: Mitigando Alucinações de Objetos em Grandes Modelos Visão-Linguagem via Supressão Dinâmica de Priors de Linguagem

1. O Problema: Alucinações de Objetos em LVLMs

Os Grandes Modelos Visão-Linguagem (LVLMs) revolucionaram a interpretação de imagens, mas sofrem de um problema crítico conhecido como alucinação de objetos. Isso ocorre quando o modelo gera texto descrevendo objetos que não estão presentes na imagem de entrada.

Impacto: Essas alucinações levam a desinformação e riscos em aplicações de alto risco, como robótica, sistemas autônomos e saúde.
Causa Desconhecida: A comunidade científica debatía se a origem dessas alucinações residia no codificador de visão (que falha em perceber o objeto) ou no decodificador de linguagem (que gera texto baseado em probabilidades estatísticas do treinamento, ignorando a imagem).

2. Metodologia e Descobertas Fundamentais

2.1 Análise Causal (Experimentos Preliminares)

Os autores realizaram uma série de experimentos analíticos para identificar a fonte das alucinações:

Teste do Codificador de Visão: Eles isolaram o codificador de visão (CLIP) de um LVLM (LLaVA) e verificaram se ele conseguia detectar a presença de objetos em imagens onde o modelo completo falhava (alucinava).
- Resultado: O codificador de visão manteve alta precisão (83%) na detecção de objetos, mesmo nos casos de alucinação.
- Conclusão 1: O problema não é a incapacidade de ver, mas sim a interpretação do que foi visto.
Teste do Decodificador de Linguagem: Compararam a distribuição de probabilidade de saída do LVLM (com imagem + texto) contra a distribuição do decodificador de linguagem puro (apenas texto).
- Resultado: Quando ocorrem alucinações, a divergência entre a distribuição multimodal e a unimodal (texto apenas) diminui drasticamente. Isso indica que a saída do modelo é dominada pelos priors de linguagem (o conhecimento estatístico do LLM) em vez da evidência visual.
- Conclusão 2: As alucinações são predominantemente causadas pela forte influência dos priors de linguagem do decodificador, que "sobrescrevem" a informação visual.

2.2 A Solução: NoLan (No-Language-Hallucination Decoding)

Baseado na descoberta de que os priors de linguagem são o culpado, os autores propõem o NoLan, um framework simples, sem necessidade de treinamento (training-free), que atua durante a fase de inferência.

Mecanismo de Funcionamento:
O NoLan utiliza uma estratégia de decodificação contrastiva para suprimir dinamicamente os priors de linguagem:

Entradas Duplas: Para cada passo de geração de token, o modelo executa duas passagens de forward:
- $l_m$ : Logits da entrada multimodal (Imagem + Texto).
- $l_u$ : Logits da entrada unimodal (Apenas Texto, sem a imagem).
Cálculo da Modulação: A diferença entre as duas distribuições é usada para ajustar a probabilidade de saída.
- Se a distribuição multimodal for muito similar à unimodal (alta probabilidade de alucinação), a supressão do prior de linguagem é aumentada.
- A fórmula básica é: $l_{\Delta} = \alpha \times (l_m - l_u)$ .
- A distribuição final é: $p_{nolan} = \text{softmax}(l_m + l_{\Delta})$ .

Variações do Método:

NoLan-Base: Utiliza um parâmetro de modulação ( $\alpha$ ) fixo (padrão = 1). É simples e eficaz.
NoLan-Plus: Introduz um mecanismo de ajuste dinâmico. O valor de $\alpha$ $α$ é calculado automaticamente para cada token com base na Divergência de Kullback-Leibler (KL) simétrica entre $l_m$ $l_{m}$ e $l_u$ $l_{u}$ .
- Se a divergência for baixa (sinal de forte prior de linguagem/alucinação), o sistema aumenta a supressão.
- Se a divergência for alta (o modelo está confiando na imagem), a supressão é reduzida.

3. Contribuições Principais

Diagnóstico Preciso: Demonstraram empiricamente que as alucinações de objetos em LVLMs são causadas principalmente pelos priors do decodificador de linguagem, e não por falhas no codificador de visão.
Framework NoLan: Propuseram uma solução plug-and-play, sem treinamento, que mitiga alucinações ao contrastar distribuições de saída multimodal e unimodal.
Modelagem Dinâmica de Priors: Diferente de métodos anteriores que assumem um prior uniforme, o NoLan modela o prior de linguagem de forma específica para cada token, utilizando a divergência KL para ajustar a supressão dinamicamente.
Eficiência: O método não requer dados adicionais, ajuste fino (fine-tuning) ou ferramentas externas (como outros modelos pré-treinados), tornando-o computacionalmente eficiente.

4. Resultados Experimentais

Os autores avaliaram o NoLan em diversos benchmarks e modelos (LLaVA-1.5, InstructBLIP, Qwen-VL).

Benchmarks de Alucinação (POPE):
- O NoLan superou consistentemente a decodificação regular e métodos de estado da arte como VCD (Visual Contrastive Decoding), M3ID e VDD.
- No benchmark POPE (MSCOCO), o NoLan-Plus melhorou a precisão do LLaVA-1.5 7B em até 8.38 pontos e o F1-score em 8.78 pontos.
- Em comparação com o VCD, o NoLan-Plus superou em 88,9% dos casos avaliados.
Outros Benchmarks:
- MME: Melhorias consistentes em tarefas de nível de objeto (existência, contagem) e atributos (posição, cor).
- LLaVA-Bench: Estudos de caso mostraram redução significativa de objetos alucinados (ex: "mala" ou "caminhão" aparecendo erroneamente em vez de "táxi") sem perder a riqueza e coerência do texto gerado.
- MM-Vet e HallusionBench: O método melhorou a capacidade de geração aberta e a robustez contra ilusões visuais e raciocínio falho.
Eficiência: O NoLan-Base é mais rápido e consome menos memória que VCD e VDD, pois evita a necessidade de processar imagens distorcidas ou realizar pós-processamento complexo.

5. Significado e Conclusão

O trabalho NoLan oferece uma mudança de paradigma na compreensão e mitigação de alucinações em modelos multimodais. Ao identificar que o "ruído" vem da linguagem e não da visão, e ao propor um mecanismo de correção leve e dinâmico durante a inferência, os autores fornecem uma solução escalável e acessível.

A importância do trabalho reside em:

Segurança e Confiabilidade: Reduzir alucinações é crucial para a adoção de LVLMs em cenários críticos (saúde, automação).
Simplicidade: Elimina a necessidade de custosos processos de re-treinamento ou fine-tuning, permitindo que modelos existentes sejam corrigidos imediatamente.
Generalização: Funciona bem em diferentes arquiteturas e tamanhos de modelos (de 7B a 13B+), demonstrando robustez.

Em suma, o NoLan estabelece que a supressão inteligente e dinâmica dos priors de linguagem é a chave para alinhar as respostas dos LVLMs com a realidade visual apresentada.

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

O Grande Mistério: Quem está mentindo?

A Solução: O "NoLan" (Sem Alucinação de Linguagem)

Por que isso é incrível?

Resumo em uma frase

Título: NoLan: Mitigando Alucinações de Objetos em Grandes Modelos Visão-Linguagem via Supressão Dinâmica de Priors de Linguagem

1. O Problema: Alucinações de Objetos em LVLMs

2. Metodologia e Descobertas Fundamentais

2.1 Análise Causal (Experimentos Preliminares)

2.2 A Solução: NoLan (No-Language-Hallucination Decoding)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora