VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding
Dit paper introduceert VirtueBench, een benchmark die de betrouwbaarheid van Vision-Language-modellen onder onzekerheid evalueert door te testen of ze eerlijk kunnen weigeren te antwoorden wanneer essentiële frames ontbreken, in plaats van onbetrouwbare gokkern te maken die de huidige evaluatiemethoden vertekenen.