VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding
O artigo apresenta o VirtueBench, um novo benchmark projetado para avaliar a confiabilidade de Modelos Visão-Linguagem em vídeos longos ao distinguir entre casos respondíveis e não respondíveis, revelando que a maioria dos modelos atuais tende a adivinhar em vez de recusar respostas honestamente sob incerteza.