VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images
Die Arbeit stellt VB vor, ein neues Benchmark-System, das die Fähigkeit von Vision-Language-Modellen testet, Sichtbarkeit in Bildern zu beurteilen und bei Unsicherheit eine Antwort zu verweigern, wobei kontrollierte minimale Änderungen genutzt werden, um die Robustheit und Begründungsfähigkeit der Modelle zu evaluieren.