VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation
O artigo apresenta o VAUQ, um framework de quantificação de incerteza consciente da visão que utiliza uma pontuação baseada na redução de incerteza preditiva devido à entrada visual e uma estratégia de mascaramento de regiões centrais para permitir uma autoavaliação precisa e sem treinamento de respostas geradas por Modelos de Linguagem e Visão Grandes (LVLMs), superando os métodos existentes ao mitigar alucinações.