VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
Die Arbeit stellt VLM-SubtleBench vor, einen Benchmark, der Vision-Language-Modelle anhand feiner Unterschiede in vielfältigen Domänen wie Industrie, Medizin und Luftaufnahmen bewertet und dabei signifikante Leistungslücken im Vergleich zum menschlichen Urteilsvermögen aufdeckt.