NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

O artigo apresenta o NoLan, um framework sem treinamento que mitiga alucinações de objetos em Modelos de Linguagem e Visão Grandes (LVLMs) suprimindo dinamicamente os priores linguísticos do decodificador, identificando-os como a principal causa do problema.

Lingfeng Ren, Weihao Yu, Runpeng Yu, Xinchao Wang

Publicado 2026-02-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô super inteligente que consegue ver fotos e descrevê-las para você. Esse robô é uma mistura de "olhos" (que veem a imagem) com um "cérebro de escritor" (que sabe falar e escrever muito bem).

O problema é que, às vezes, esse robô começa a alucinar. Ele olha para uma foto de um cachorro e diz: "Vejo um cachorro, um gato e um dinossauro voando!". Na foto, só tem o cachorro. O robô inventou o resto. Isso é perigoso, especialmente se ele estiver dirigindo um carro ou ajudando em um hospital.

O artigo que você enviou, chamado NoLan, resolve esse problema de uma forma muito inteligente e simples. Vamos explicar como funciona usando uma analogia do dia a dia.

O Grande Mistério: Quem está mentindo?

Os cientistas queriam saber: quem está inventando essas coisas?

  1. São os olhos (o encoder de visão) que não veem o objeto direito?
  2. Ou é o cérebro de escritor (o decodificador de linguagem) que está tão acostumado a contar histórias que ele inventa coisas que não estão lá?

A Descoberta:
Eles descobriram que os olhos estão certos! O robô vê o cachorro perfeitamente. O problema é o cérebro de escritor.

Imagine que o cérebro do robô é um ator de teatro que decorou milhares de roteiros. Se você perguntar "O que tem na sala?", ele tende a responder com base no que geralmente tem em salas, e não no que você está mostrando. Se ele está acostumado a ver "cachorros e gatos juntos" em filmes, ele vai inventar o gato, mesmo que a foto só tenha o cachorro. O cérebro dele é muito forte e "empurra" a resposta para o que ele acha que deve estar lá.

A Solução: O "NoLan" (Sem Alucinação de Linguagem)

O método NoLan funciona como um filtro de realidade que entra em ação na hora que o robô vai escrever a resposta. Ele não precisa reeducar o robô (o que seria caro e demorado). Ele apenas ajusta a resposta no último segundo.

Aqui está como ele faz isso, passo a passo:

  1. A Pergunta Dupla:
    Imagine que você pergunta ao robô: "O que tem na foto?"

    • Passo A: O robô olha a foto E a pergunta e pensa na resposta.
    • Passo B: O robô ignora a foto e só olha a pergunta, pensando: "Se eu não visse nada, o que eu diria que é provável que exista?" (Isso é o "viés de linguagem").
  2. O Confronto (A Lógica do Detetive):
    O NoLan compara as duas respostas mentais.

    • Se o robô, ao olhar a foto, pensa muito diferente do que ele pensaria apenas com a pergunta, ótimo! A foto está guiando a resposta.
    • Se as duas respostas são iguais (o robô diz "dinossauro" tanto olhando a foto quanto sem olhar), o NoLan percebe: "Ei! Você está apenas repetindo o que sabe de cor, ignorando a foto!".
  3. O Ajuste Fino:
    O NoLan pega essa resposta e diminui o volume das palavras que o cérebro "inventou" (os preconceitos de linguagem) e aumenta o volume do que a foto realmente mostra. É como se ele dissesse ao robô: "Ei, pare de contar a história que você decorou e olhe para a foto de verdade!".

Por que isso é incrível?

  • É Grátis e Rápido: Você não precisa treinar o robô de novo. É como colocar um óculos especial nele na hora que ele vai falar.
  • Funciona em Qualquer Robô: Funciona com modelos grandes e pequenos, como o LLaVA e o Qwen.
  • Resultados Reais: Nos testes, o robô parou de inventar objetos. Se a foto tem 6 anões, ele diz "6", e não inventa um "7º anão" só porque em contos de fadas tem 7.

Resumo em uma frase

O NoLan é como um editor de texto em tempo real que vigia o robô e corta as invenções dele, garantindo que ele descreva exatamente o que vê na foto, e não o que ele acha que deveria ver.

É uma solução simples para um problema complexo: fazer a inteligência artificial ser mais honesta com o que seus olhos veem.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →