UNICBench: UNIfied Counting Benchmark for MLLM

Dit paper introduceert UNICBench, het eerste geünificeerde meermodale benchmark- en evaluatietoolkit voor het tellen in multimodale grote taalmodellen (MLLMs), dat een rigoureuze analyse mogelijk maakt van 45 state-of-the-art modellen op basis van 5.300 afbeeldingen, 872 documenten en 2.069 audiofragmenten, waarbij significante prestatiekloven worden blootgelegd bij complexe redeneertaken.

Chenggang Rong, Tao Han, Zhiyuan Zhao, Yaowu Fan, Jia Wan, Song Guo, Yuan Yuan, Junyu Gao

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe, super slimme robot hebt die alles kan zien, horen en lezen. Je vraagt hem: "Hoeveel appels liggen er in deze foto?" of "Hoe vaak hoor ik een hond blaffen in dit geluidsfragment?" of "Hoeveel keer komt het woord 'vrijdag' voor in dit lange document?"

Het lijkt simpel, maar voor kunstmatige intelligentie (AI) is het tellen van dingen een enorme uitdaging. Soms telt de robot 10 appels terwijl er maar 3 zijn, of hij zegt: "Ik kan dat niet doen" terwijl het antwoord gewoon 5 is.

De auteurs van dit paper hebben een oplossing bedacht: UNICBench. Laten we uitleggen wat dat is, alsof we het in een koffiehuis bespreken.

1. Het Probleem: De "Telmotor" is nog niet klaar

Tot nu toe hadden we verschillende tests voor AI, maar ze waren allemaal gescheiden. Er was een test voor het tellen van mensen in een drukke straat (foto's), een test voor het tellen van woorden in een boek (tekst), en een test voor het tellen van geluiden (audio). Maar er was geen enkele, grote test die alles samenbracht.

Het is alsof je een auto wilt testen, maar je rijdt hem alleen maar op een racebaan, en daarna alleen maar op een modderpad, en daarna alleen maar in de sneeuw. Je weet niet of hij écht goed is in alles.

2. De Oplossing: UNICBench (De "Grote Test" voor AI)

De onderzoekers hebben UNICBench gebouwd. Dit is een enorme, uitgebreide testset die AI's op drie manieren uitdaagt:

  • Foto's: Van een paar vogels op een tak tot duizenden mensen in een menigte.
  • Tekst: Van een kort e-mailtje tot een heel boek of een juridisch contract.
  • Geluid: Van een klapdeur tot een gesprek waar tien mensen door elkaar praten.

Ze hebben 14.301 vragen gemaakt. Dat is alsof ze een gigantisch examen hebben opgezet voor de slimste robots ter wereld.

3. De Drie Niveaus van Moeilijkheid

De test is niet zomaar een lijstje. Het is opgebouwd als een videogame met drie levels:

  • Level 1: De "Kijk-en-Tel" (Patroon)
    • Voorbeeld: "Hoeveel rode ballen zie je?"
    • Analogie: Dit is als het tellen van appels in een mand. Je hoeft alleen maar te kijken en te tellen. De meeste AI's doen dit redelijk goed.
  • Level 2: De "Filter-En-Tel" (Semantiek)
    • Voorbeeld: "Hoeveel mannen in rode shirts zie je?" of "Hoeveel unieke namen staan er in deze lijst?"
    • Analogie: Dit is als een zoektocht in een supermarkt. Je moet niet alleen tellen, maar ook filteren: "Alleen de mannen, en alleen die met een rode shirt." De AI moet nu echt begrijpen wat het ziet.
  • Level 3: De "Redeneer-en-Tel" (Redenering)
    • Voorbeeld: "Hoeveel mappen in deze screenshot zijn gemaakt in 2022, maar niet in de map 'Archief'?" of "Hoeveel vragen zijn er gesteld in dit gesprek, maar alleen door de vrouw?"
    • Analogie: Dit is als een detective die een dossier moet oplossen. Je moet regels toepassen, logisch nadenken en soms zelfs twee dingen bij elkaar optellen of aftrekken. Dit is waar de meeste AI's het grootst falen.

4. Wat hebben ze ontdekt? (De Uitslag)

Toen ze 45 van de slimste AI's (zoals GPT-4, Claude, Gemini en Qwen) op deze test zetten, zagen ze een interessant patroon:

  • Basis is goed: De AI's zijn heel goed in het tellen van simpele dingen (Level 1).
  • De valkuil: Zodra het iets moeilijker wordt (Level 2 en 3), gaan ze de mist in. Ze tellen te veel, te weinig, of ze vergeten de regels.
  • Geluid is het lastigst: Het tellen van geluiden (zoals wie praat er wanneer?) is voor de AI's het moeilijkst. Het is alsof je probeert te tellen hoeveel mensen er in een drukke bar praten terwijl de muziek hard staat.
  • De "Weigeren"-probleem: Veel AI's zeggen liever: "Ik kan dat niet doen" of "Dat is veiligheidsrisico", in plaats van een gokje te wagen. Dit is frustrerend, want de test wil zien of ze het kunnen, niet of ze het durven.

5. Waarom is dit belangrijk?

Dit paper is als een stethoscoop voor de AI-wereld. Het laat zien dat onze robots nog niet zo slim zijn als we denken als het gaat om het tellen van dingen in de echte wereld.

  • Voor een supermarkt die wil weten hoeveel producten er op de plank liggen.
  • Voor politie die wil weten hoeveel mensen er in een menigte zijn.
  • Voor journalisten die snel cijfers uit een rapport moeten halen.

De boodschap is: "We hebben een betere meetlat nodig." Met UNICBench kunnen onderzoekers nu precies zien waar hun AI's falen en hoe ze die "telmotor" kunnen verbeteren.

Kortom: De AI's zijn slim, maar ze zijn nog niet perfect in het tellen. UNICBench is de nieuwe, strenge schooltest die ze dwingt om te leren tellen, niet alleen maar te raden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →