Interactive Benchmarks

Deze paper introduceert 'Interactive Benchmarks', een nieuw evaluatiekader dat de intelligentie van modellen meet door hun vermogen om actief informatie te verwerven en te redeneren binnen interactieve scenario's zoals bewijzen en spelletjes, waardoor de beperkingen van traditionele benchmarks worden overwonnen.

Baoqing Yue, Zihan Zhu, Yifan Zhang, Jichen Feng, Hufei Yang, Mengdi Wang

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot examen doet voor een slimme computer. Tot nu toe waren die examens vrij saai: je kreeg een vraag, de computer gaf een antwoord, en je keek of het goed was. Denk aan een meerkeuzetoets of een wiskundepuzzel waar je direct het antwoord moet raden.

Het probleem? De computers zijn zo goed geworden dat ze deze toetsen uit hun hoofd hebben geleerd. Ze weten het antwoord niet omdat ze het begrijpen, maar omdat ze het ergens op internet hebben gezien. Het is alsof een student de antwoorden van het examen heeft gestolen in plaats van te leren.

De auteurs van dit paper (Interactive Benchmarks) zeggen: "Hé, laten we het examen veranderen!" Ze willen niet zien of een computer iets kan zeggen, maar of het kan doen en leren terwijl het bezig is.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het oude probleem: De "Stille Lezer"

Stel je voor dat je een detective bent die een moord moet oplossen.

  • De oude manier: Je krijgt een dossier met alle feiten op een vel papier. Je moet direct zeggen wie de dader is. Als je het fout hebt, is het klaar.
  • Het probleem: Als je het antwoord al kent (van een andere detective), maak je het fout niet. Maar als je echt moet nadenken, faal je omdat je niet mag vragen: "Was de dader links of rechts?" of "Kijkte hij naar het raam?"

Deze paper zegt: "Echte intelligentie is niet het antwoord geven, maar het vragen stellen om het antwoord te vinden."

2. De nieuwe manier: "Interactieve Benchmarks"

De auteurs hebben een nieuw soort examen bedacht dat bestaat uit twee soorten spellen. Het is alsof je de computer niet laat zitten, maar laat spelen.

Spel 1: Het "20 Vragen" Raadsel (Interactive Proofs)

Stel je voor dat je een raadsel hebt, maar je mag niet direct raden. Je moet een "rechter" (een slimme, alleswetende computer) vragen stellen.

  • De regels: Je mag maar 20 vragen stellen. Elke vraag kost tijd.
  • Het doel: Je moet slimme vragen stellen om het antwoord te vinden.
    • Slecht: "Is de dader een man?" (Te breed).
    • Goed: "Was de dader in de kamer toen het licht uitging?" (Slim, want dit sluit veel mogelijkheden uit).
  • De les: De paper laat zien dat veel slimme computers hier slecht in zijn. Ze proberen het antwoord te raden zonder te vragen, of ze stellen domme vragen. De slimste modellen leren pas het antwoord als ze actief informatie gaan "jagen".

Voorbeeld uit het paper: Een raadsel over een man die zijn broer doodt.

  • Zonder vragen: De computer raadt totaal verkeerd.
  • Met vragen: De computer vraagt: "Sliepen ze in hetzelfde bed?" -> "Ja." -> "Was de middelste broer de enige die overleefde?" -> "Ja." -> "Ah! Hij wilde weer tussen twee broers slapen!" -> Oplossing gevonden!

Spel 2: Het Poker- en Vertrouwensspel (Interactive Games)

Hier is er geen rechter die het antwoord kent. De computer moet spelen tegen andere computers in een spel waar je niet alles ziet.

  • Poker: Je moet bluffen, risico's nemen en bedenken wat de ander denkt. Het is alsof je een pokerspeler bent die niet alleen naar zijn eigen kaarten kijkt, maar ook naar de houding van de tegenstander.
  • Vertrouwensspel: Je moet beslissen of je samenwerkt of verraadt. Als je te vaak verraadt, stoppen de anderen met samenwerken. Als je te vaak samenwerkt, worden ze je uitbuiten.
  • De les: De paper laat zien dat zelfs de slimste computers moeite hebben om een lange strategie te bedenken. Ze zijn vaak te kortzichtig of te agressief.

3. Wat zeggen de resultaten?

De auteurs hebben de slimste computers van de wereld (zoals GPT-5, Gemini, Grok, etc.) op deze nieuwe examens getest.

  • Het nieuws: De computers zijn nog niet zo slim als we denken.
  • De vergelijking: Het is alsof je een Formule 1-auto hebt die op een rechte weg (de oude toetsen) razendsnel is, maar zodra je hem op een kronkelend bergpad zet (de interactieve spellen), begint hij te slippen en weet hij niet waar hij moet sturen.
  • Conclusie: Er is nog heel veel ruimte voor verbetering. De computers moeten leren om actief te zijn: te vragen, te twijfelen, te bluffen en hun strategie aan te passen.

Samenvatting in één zin

Deze paper zegt: "Stop met testen of computers antwoorden kunnen opzeggen; test in plaats daarvan of ze kunnen nadenken terwijl ze informatie verzamelen, net als een echte detective of een pokerspeler."

Het is een oproep om de AI niet langer te zien als een antwoordmachine, maar als een speler die moet leren spelen.