VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente superinteligente, chamado LVLM (um modelo de linguagem grande com visão), que consegue "ver" fotos e conversar sobre elas. O problema é que, às vezes, esse assistente é muito confiante, mas está totalmente errado. Ele pode olhar para uma foto de um gato e dizer, com total certeza: "Isso é um cachorro comendo pizza", porque na internet ele leu tantas vezes que "cachorro come pizza" que o cérebro dele assumiu isso como verdade, ignorando a foto real.

Esse fenômeno é chamado de alucinação.

Aqui entra o grande problema: como fazemos esse assistente perceber que ele está mentindo (ou alucinando) antes de entregar a resposta? Métodos antigos tentavam perguntar ao próprio assistente: "Você tem certeza?". Mas, como o assistente é muito bom em falar, ele diz "Sim, tenho 100% de certeza!", mesmo quando está olhando para a foto errada. Ele confia mais no que "ouviu" na internet (o conhecimento de linguagem) do que no que está "vendo" na foto.

A Solução: VAUQ (O "Detetive da Realidade Visual")

Os autores criaram uma nova ferramenta chamada VAUQ. Pense nela como um teste de realidade que o assistente faz consigo mesmo, sem precisar de um professor externo.

A ideia central é simples: "Se a resposta depende da foto, tirar a foto deve deixar o assistente confuso."

O VAUQ funciona em duas etapas principais, que podemos comparar a um jogo de "Esconde-Esconde":

1. A Pontuação de Informação da Imagem (O "O que a foto me diz?")

O VAUQ pergunta: "Quanto a sua resposta muda se eu não te mostrar a foto?"

Se o assistente responde "É um gato" e, ao esconder a foto, ele continua dizendo "É um gato" (porque leu isso em um livro), a pontuação de confiança visual é baixa. Ele está alucinando.
Se, ao esconder a foto, o assistente fica confuso e diz "Não tenho ideia, pode ser um gato ou um cachorro", isso significa que a foto era essencial para a resposta. A confiança visual é alta.

2. O Mascaramento da "Zona Central" (O "Foco no Importante")

Aqui está o truque genial. Às vezes, o assistente olha para a foto inteira, mas só presta atenção no fundo (como uma parede branca) e ignora o objeto principal.
O VAUQ usa uma "lente mágica" (baseada em onde o assistente olha mais intensamente) para cobrir com um adesivo preto as partes mais importantes da foto (o "núcleo" da imagem).

Analogia: Imagine que você está tentando adivinhar o que tem dentro de uma caixa fechada. O VAUQ abre uma pequena janela na caixa. Se você consegue ver o que tem lá e adivinhar corretamente, ótimo. Mas o VAUQ vai cobrir essa janela com um adesivo.
- Se, ao cobrir a janela, você ainda consegue adivinhar o que tem dentro com certeza, é porque você estava chutando (alucinando).
- Se, ao cobrir a janela, você entra em pânico e não sabe mais o que é, é porque você estava realmente usando a visão para responder.

O Resultado Final

O VAUQ combina essas duas informações para dar uma nota de "Veracidade":

Nota Baixa (Boa): O assistente ficou confuso quando a parte importante da foto foi coberta. Isso significa que ele estava realmente olhando para a foto. A resposta é provável de estar correta.
Nota Alta (Ruim): O assistente continuou confiante mesmo com a parte importante da foto coberta. Isso significa que ele estava apenas "chutando" baseado no que aprendeu na internet, ignorando a realidade visual. A resposta provavelmente é uma alucinação.

Por que isso é incrível?

Não precisa de treino: O VAUQ não precisa ensinar o assistente de novo. Ele apenas usa o assistente que já existe, como um teste de autoavaliação.
É rápido: Diferente de outros métodos que precisam gerar 10 respostas diferentes para ver qual é a melhor, o VAUQ faz isso quase instantaneamente.
Funciona em qualquer lugar: Funciona bem em perguntas simples, complexas e em diferentes tipos de modelos de inteligência artificial.

Em resumo: O VAUQ é como um "teste de realidade" que força a inteligência artificial a admitir: "Ei, se eu não olhar para a foto, eu não sei a resposta!". Isso nos ajuda a confiar mais nas respostas que vêm da visão e menos nas que vêm apenas da imaginação da máquina.

Each language version is independently generated for its own context, not a direct translation.

Título: VAUQ: Quantificação de Incerteza Consciente de Visão para Autoavaliação de Modelos de Linguagem e Visão Grandes (LVLMs)

1. Problema e Motivação

Os Modelos de Linguagem e Visão Grandes (LVLMs) demonstraram avanços notáveis em tarefas multimodais, mas continuam propensos a alucinações (geração de informações incorretas ou não fundamentadas na imagem). Isso limita sua aplicação segura em cenários do mundo real.

Limitação das Métodos Atuais: As abordagens existentes de autoavaliação baseadas em LLMs (como entropia, confiança verbalizada ou consistência semântica) dependem fortemente de priors linguísticos. Elas avaliam a incerteza com base na fluência do texto, ignorando se a resposta está realmente fundamentada na evidência visual.
O Fenômeno de Dominação de Priors: Em cenários onde a imagem contradiz o conhecimento linguístico comum (ex: imagens contrafactuais), os LVLMs podem manter alta confiança (baixa incerteza) em respostas erradas, pois o modelo ignora a imagem e confia apenas no padrão estatístico do texto.
Necessidade: É necessário um método de autoavaliação que quantifique explicitamente quanto a saída do modelo depende da evidência visual, distinguindo entre confiança baseada em "alucinação linguística" e confiança baseada em "fundamentação visual".

2. Metodologia: VAUQ

O VAUQ (Vision-Aware Uncertainty Quantification) é um framework de autoavaliação sem treinamento (training-free) que mede a confiança do modelo com base no uso da evidência visual. A abordagem central baseia-se na premissa de que evidências visuais informativas e corretamente utilizadas devem reduzir a incerteza preditiva do modelo.

O método consiste em dois componentes principais:

A. Pontuação de Informação da Imagem (Image-Information Score - IS)
O IS quantifica a redução na incerteza preditiva atribuída à entrada visual.

Calcula-se a entropia condicional da distribuição preditiva do modelo com a imagem ( $H(y | v, t)$ ) e sem a imagem ( $H(y | \emptyset, t)$ ).
A fórmula básica é: $IS_{blank} = H(y | \emptyset, t) - H(y | v, t)$ .
Um IS alto indica que a imagem reduziu significativamente a incerteza, sugerindo uma fundamentação visual forte.

B. Estratégia de Mascaramento de Região Central (Core-Region Masking)
Para evitar que o IS seja influenciado por correlações espúrias (ex: ruído de fundo ou artefatos) e focar nas regiões semanticamente relevantes:

O VAUQ utiliza um mecanismo não supervisionado para identificar as regiões mais importantes da imagem.
Agrega-se os pesos de atenção visual do modelo (especificamente das camadas intermediárias a tardias do transformador, onde a alinhamento visual-semântico é mais forte).
Selecionam-se os $K\%$ de patches de imagem com maior atenção e cria-se um conjunto mascarado ( $v_{masked}$ ) removendo essas regiões centrais.
Calcula-se um IScore comparando a entropia com a imagem completa versus a imagem com as regiões centrais mascaradas. Se o modelo continuar confiante mesmo após remover a evidência visual crítica, o IScore será baixo (indicando alucinação).

C. Pontuação Final VAUQ
A pontuação final ( $s_{VAUQ}$ ) combina a entropia preditiva e o IScore ponderado:
$s_{VAUQ}(x, y) = H(y | v, t) - \alpha \cdot IS_{core}$
Onde $\alpha$ é um hiperparâmetro.

Interpretação: O termo de entropia mede a incerteza geral. O termo subtraído (IScore) penaliza a confiança que não é sustentada pela evidência visual central. Se o modelo depende de priores linguísticos, o IScore será baixo, resultando em uma pontuação VAUQ mais alta (indicando maior risco de alucinação).

3. Contribuições Principais

Framework VAUQ: Propõe um novo método de quantificação de incerteza consciente de visão que permite autoavaliação confiável sem depender de modelos externos ou supervisão adicional.
Métrica Teórica e Estratégia de Mascaramento: Introduz uma pontuação baseada em teoria da informação (IS) combinada com uma estratégia de mascaramento de região central não supervisionada, capturando o uso visual de forma livre de rótulos e sem treinamento.
Desempenho Superior: Realiza experimentos extensivos em múltiplos LVLMs (LLaVA, Qwen2.5-VL, InternVL3.5) e benchmarks, demonstrando superioridade consistente sobre métodos baseados apenas em texto e métodos específicos de LVLM.

4. Resultados Experimentais

Os experimentos foram conduzidos em quatro conjuntos de dados: ViLP (focado em priores linguísticos e contrafactuais), MMVet, VisualCoT e CVBench.

Desempenho Geral: O VAUQ superou consistentemente os métodos state-of-the-art (como Entropia Semântica, EigenScore e VL-Uncertainty) em todos os modelos e conjuntos de dados avaliados.
Cenários Contrafactuais: No conjunto de dados ViLP, onde a fundamentação visual é crítica para distinguir respostas corretas de alucinações, o VAUQ alcançou uma melhoria de +13,3% na AUROC (Área Sob a Curva ROC) em comparação com os melhores métodos existentes.
Eficiência: Ao contrário de métodos que exigem múltiplas amostragens (como Entropia Semântica ou VL-Uncertainty), o VAUQ é computacionalmente eficiente, exigindo apenas um número constante de passagens forward adicionais. Isso resultou em uma redução de 94,6% no tempo de inferência por amostra comparado ao VL-Uncertainty, mantendo alta precisão.
Análise de Componentes: A ablação mostrou que o mascaramento de regiões centrais é crucial; métodos que mascaram aleatoriamente ou a imagem inteira performam pior. A combinação de entropia e IScore oferece uma avaliação robusta tanto para dados factuais quanto contrafactuais.

5. Significado e Impacto

O trabalho aborda uma lacuna crítica na segurança e confiabilidade dos LVLMs.

Segurança em Produção: O VAUQ fornece um sinal de autoavaliação leve e interpretável que pode ser usado para detecção de alucinações em tempo real, permitindo a seleção de predições (selective prediction) ou a intervenção humana em cenários de alto risco.
Mudança de Paradigma: Demonstra que a avaliação de incerteza em modelos multimodais não pode ser tratada apenas como um problema de linguagem; é essencial medir explicitamente a contribuição da informação visual.
Generalização: A capacidade do VAUQ de transferir hiperparâmetros entre diferentes distribuições de dados sugere que ele é uma solução prática e escalável para a implantação de LVLMs no mundo real.

Em resumo, o VAUQ estabelece um novo padrão para a autoavaliação de LVLMs, garantindo que a confiança do modelo seja justificada não apenas pela fluência do texto, mas pela fundamentação real na imagem.

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

A Solução: VAUQ (O "Detetive da Realidade Visual")

1. A Pontuação de Informação da Imagem (O "O que a foto me diz?")

2. O Mascaramento da "Zona Central" (O "Foco no Importante")

O Resultado Final

Por que isso é incrível?

Título: VAUQ: Quantificação de Incerteza Consciente de Visão para Autoavaliação de Modelos de Linguagem e Visão Grandes (LVLMs)

1. Problema e Motivação

2. Metodologia: VAUQ

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Skeleton-based Coherence Modeling in Narratives

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets