UNICBench: UNIfied Counting Benchmark for MLLM
Die Arbeit stellt UNICBench vor, ein einheitliches Benchmark und Evaluierungstoolkit für multimodale Large Language Models, das erstmals das Zählen über Bilder, Texte und Audiodateien hinweg mit präzisen Ground-Truth-Daten und einer standardisierten Evaluierungsprotokoll rigoros bewertet und dabei signifikante Lücken in der reasoning-Fähigkeit aktueller Modelle aufzeigt.