TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

De auteurs introduceren TACIT, een nieuw programmatiek visueel redeneerbenchmark met 10 taken over 6 domeinen die generatieve en discriminatieve modellen evalueren via deterministische computer-vision verificatie en meerkeuzevragen met structureel plausibele distractors, om zo de beperkingen van bestaande benchmarks op te lossen.

Daniel Nobrega Medeiros

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot wilt testen om te zien of hij echt denkt of dat hij alleen maar gokt op basis van wat hij eerder heeft gezien.

De meeste huidige tests voor kunstmatige intelligentie (AI) zijn als een quiz in een taal die de robot misschien niet perfect spreekt. Als de robot de vraag goed beantwoordt, weten we niet of hij het plaatje heeft begrepen of dat hij gewoon slimme taaltrucs heeft gebruikt.

TACIT is een nieuwe, slimme test die dit probleem oplost. Het is als een visuele puzzelwedstrijd zonder woorden, ontworpen door Daniel Nobrega Medeiros. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Geen Woorden, Alleen Beelden (De "Stomme" Test)

Stel je voor dat je een kind een puzzel geeft, maar je mag geen woord zeggen. Je wijst alleen naar een plaatje met pijltjes, kleuren en vormen. Het kind moet de oplossing tekenen.

  • Hoe TACIT werkt: De robot krijgt geen tekstuele instructies (geen "maak een lijn van A naar B"). Alles is visueel. Als de robot de oplossing maakt, weten we zeker dat hij het plaatje heeft "begrepen" en niet gewoon een tekstboek heeft gelezen.

2. Twee Manieren om te Testen: Bouwen vs. Kiezen

TACIT test de robot op twee verschillende manieren, alsof je iemand twee soorten examens geeft:

  • Track 1: De Bouwer (Generatief)
    De robot moet de oplossing zelf tekenen. Hij krijgt een doolhof en moet het juiste pad uittekenen.
    • De metafoor: Het is alsof je de robot vraagt om een huis te bouwen. Als hij het huis niet kan bouwen, heeft hij het niet echt begrepen, zelfs niet als hij er goed uitziet.
  • Track 2: De Kiezer (Discriminatief)
    De robot krijgt de puzzel én vijf mogelijke oplossingen. Hij moet de juiste aanklikken.
    • De metafoor: Dit is meerkeuze. Iemand kan een meerkeuzevraag goed beantwoorden door te gokken of door slimme hints te zien, zonder het onderliggende principe te begrijpen.

Het geheim: Als een robot Track 2 (kiezen) goed doet, maar Track 1 (bouwen) slecht, weten we dat hij alleen maar herkent wat hij al kent, maar niet echt kan creëren. Dat is een groot verschil in intelligentie!

3. De "Bijna-Good" Valstrikken

In de meerkeuze-test (Track 2) zijn de foutieve antwoorden niet stom. Ze zijn slim bedacht.

  • De analogie: Stel je voor dat je een foto van een auto ziet. De goede oplossing is een rode auto. De foutieve opties zijn bijna perfect: één heeft een wiel dat net iets te klein is, een andere heeft een deur die net iets scheef staat.
  • Waarom? De robot moet heel precies kijken. Hij kan niet zeggen "oh, het is een auto, dus dat is goed". Hij moet zien waarom die ene auto fout is. Dit dwingt de robot om echt na te denken over de structuur van de afbeelding.

4. De Rekenmachine als Scheidsrechter

Bij veel tests moet een mens (of een andere AI) kijken of het antwoord goed is. Dat is subjectief: "Vind jij dit een goede oplossing?"

  • TACIT's oplossing: Er is geen menselijke scheidsrechter. Een computerprogramma kijkt puur naar de wiskunde en de regels.
    • Voorbeeld: Bij een doolhof kijkt de computer niet of de lijn "mooi" is. Hij kijkt puur: "Is er een verbinding van start naar finish zonder door muren te gaan?" Ja of nee. Geen discussie, geen gevoelens.

5. Wat voor Puzzels zijn het?

De test bestaat uit 10 verschillende soorten hersenkrakers, variërend van:

  • Doolhoven (waar je door verschillende lagen moet reizen).
  • Patroonpuzzels (zoals de bekende Raven-test, waar je het volgende plaatje in een rij moet raden).
  • Logische netwerken (waar je knopen moet kleuren zonder dat twee naast elkaar dezelfde kleur hebben).
  • Knooppunten (is dit touw een knoop of gewoon een lus?).

Waarom is dit belangrijk?

Vroeger dachten we dat AI slim was omdat hij goede antwoorden gaf op tekstvragen. TACIT laat zien dat we moeten kijken of AI echt visueel redeneert. Het is een manier om te zien of de robot een "denker" is die problemen kan oplossen, of alleen maar een "naar-geheugen-speler" die patronen herkent.

Kortom: TACIT is de eerlijke, woordloze, wiskundige test die eindelijk laat zien of een robot echt slim is, of dat hij alleen maar goed kan doen alsof.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →