ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Dit paper introduceert ARC-AGI-3, een interactieve benchmark voor agente intelligentie die abstracte, taalvrije omgevingen gebruikt om de aanpassingsvermogen van AI-systemen te testen, waarbij menselijke prestaties (100% succes) scherp contrasteren met de huidige prestaties van geavanceerde AI-systemen (minder dan 1%).

ARC Prize Foundation

Gepubliceerd 2026-03-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🚀 De Nieuwe Uitdaging: ARC-AGI-3

Stel je voor dat je een computer wilt testen op zijn "intelligentie". De afgelopen jaren hebben we computers laten spelen met puzzels waarbij ze patronen moesten vinden in rasters (zoals een digitaal kruiswoordraadsel). Dat was ARC-AGI-1 en ARC-AGI-2.

Maar nu, in 2026, is de wereld veranderd. Computers zijn slim geworden in het onthouden van patronen en het gebruiken van enorme hoeveelheden kennis. Ze kunnen nu heel goed code schrijven of wiskundige problemen oplossen, zolang ze maar genoeg voorbeelden hebben gezien.

ARC-AGI-3 is de nieuwe test. Het is niet meer een statische puzzel, maar een interactief avontuur.


🎮 Het Concept: Een Videospel zonder Handleiding

Stel je voor dat je een videospel start, maar er is geen handleiding, geen tekst, en niemand vertelt je wat je doel is. Je ziet alleen een scherm met een wereld erop.

  • Je doel: Je moet zelf ontdekken wat je moet doen. Moet je de blokken stapelen? Moet je een pad vinden? Moet je een dier redden?
  • De regels: Je moet zelf de regels van de wereld bedenken door te kijken wat er gebeurt als je iets doet.
  • De test: Hoe snel en slim kun je dit doen?

In het paper noemen ze dit agente-intelligentie. Het gaat niet alleen om "rekenen", maar om:

  1. Verkennen: De wereld verkennen om informatie te vinden.
  2. Modelleren: Een beeld vormen van hoe de wereld werkt.
  3. Doelen stellen: Zelf beslissen wat je wilt bereiken.
  4. Plannen: Een route maken om daar te komen.

🏃‍♂️ De Score: Snelheid en Efficiëntie

In de oude tests was het belangrijk of je de puzzel oplossde. Bij ARC-AGI-3 is het belangrijk hoe je het oplost.

De score wordt bepaald door actie-efficiëntie.

  • Vergelijking: Stel je voor dat je een doolhof moet lopen.
    • Een mens loopt het in 10 stappen.
    • Een domme robot loopt er 100 stappen, loopt tegen muren op en draait in cirkels.
    • Een slimme robot loopt het ook in 10 stappen.

De robot die 100 stappen doet, scoort slecht, zelfs als hij het doolhof uiteindelijk vindt. De test straft "brute force" (zomaar alles proberen) af. Je moet slim plannen.

De "Menselijke Standaard":
De test wordt vergeleken met mensen. Als een mens het in 10 stappen doet, moet de AI ook ongeveer in 10 stappen kunnen. Als de AI 100 stappen nodig heeft, scoort hij bijna niets.

📉 Waarom is dit zo moeilijk voor AI?

Het paper geeft een interessant inzicht:

  • De oude AI's waren als een bibliotheek: Ze konden alles vinden wat ze al hadden gelezen. Als je ze een vraag stelde die ze niet kenden, faalden ze.
  • De nieuwe AI's (zoals de grote modellen van 2026) zijn als een slimme student die veel heeft gelezen. Ze kunnen redeneren en patronen herkennen. Maar als ze in een hele nieuwe situatie terechtkomen waar ze nog nooit over hebben gehoord, en ze moeten zelf de regels bedenken... dan komen ze vast te zitten.

Het probleem:
De AI's proberen vaak te "knoeien" met de regels. Ze proberen te raden wat de makers van de test wilden, in plaats van de wereld zelf te begrijpen. Ze gebruiken "kortsluitingen" (zoals het onthouden van hoe eerdere puzzels eruitzagen), maar ARC-AGI-3 is zo ontworpen dat die trucs niet werken. Elke puzzel is uniek en nieuw.

🏆 De Resultaten (Maart 2026)

De resultaten zijn opvallend:

  • Mensen: Kunnen 100% van de puzzels oplossen. Ze vinden de regels snel en spelen slim.
  • De slimste AI's: Scoren minder dan 1%. Ze kunnen de puzzels vaak niet oplossen, of ze doen er zo lang over dat ze faalt.

Dit betekent dat er nog een enorme kloof is tussen wat computers nu kunnen en wat een menselijk kind kan als het in een nieuwe situatie belandt.

🛠️ Hoe hebben ze dit gemaakt?

Om deze test te bouwen, hebben ze een eigen "game studio" opgericht. Ze hebben:

  1. Spellen ontworpen die alleen gebruik maken van basis logica (zwaartekracht, vormen, objecten), zonder taal of culturele symbolen (geen woorden, geen "groen betekent gaan").
  2. Gecontroleerd of mensen de spellen konden oplossen. Als een mens het niet kon, was de puzzel te moeilijk of onduidelijk.
  3. Geautomatiseerde tests gedaan om te zorgen dat je niet per ongeluk kon winnen door zomaar te klikken.

💡 De Conclusie

ARC-AGI-3 is een nieuwe maatstaf voor echte intelligentie. Het is niet meer over "hoeveel weet je?", maar over "hoe snel kun je iets nieuws leren?".

Het paper concludeert dat we nog ver weg zijn van een echte "Algemene Kunstmatige Intelligentie" (AGI) die net zo flexibel is als een mens. Zolang AI's vastlopen in nieuwe, onbekende situaties zonder handleiding, is er nog veel werk te doen.

Kort samengevat:
ARC-AGI-3 is een videospel zonder handleiding voor de slimste computers ter wereld. Tot nu toe zijn de computers er slecht in, terwijl mensen het makkelijk vinden. Het bewijst dat computers nog niet echt "slim" zijn in het aanpassen aan het onbekende.