ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Each language version is independently generated for its own context, not a direct translation.

🚀 De Nieuwe Uitdaging: ARC-AGI-3

Stel je voor dat je een computer wilt testen op zijn "intelligentie". De afgelopen jaren hebben we computers laten spelen met puzzels waarbij ze patronen moesten vinden in rasters (zoals een digitaal kruiswoordraadsel). Dat was ARC-AGI-1 en ARC-AGI-2.

Maar nu, in 2026, is de wereld veranderd. Computers zijn slim geworden in het onthouden van patronen en het gebruiken van enorme hoeveelheden kennis. Ze kunnen nu heel goed code schrijven of wiskundige problemen oplossen, zolang ze maar genoeg voorbeelden hebben gezien.

ARC-AGI-3 is de nieuwe test. Het is niet meer een statische puzzel, maar een interactief avontuur.

🎮 Het Concept: Een Videospel zonder Handleiding

Stel je voor dat je een videospel start, maar er is geen handleiding, geen tekst, en niemand vertelt je wat je doel is. Je ziet alleen een scherm met een wereld erop.

Je doel: Je moet zelf ontdekken wat je moet doen. Moet je de blokken stapelen? Moet je een pad vinden? Moet je een dier redden?
De regels: Je moet zelf de regels van de wereld bedenken door te kijken wat er gebeurt als je iets doet.
De test: Hoe snel en slim kun je dit doen?

In het paper noemen ze dit agente-intelligentie. Het gaat niet alleen om "rekenen", maar om:

Verkennen: De wereld verkennen om informatie te vinden.
Modelleren: Een beeld vormen van hoe de wereld werkt.
Doelen stellen: Zelf beslissen wat je wilt bereiken.
Plannen: Een route maken om daar te komen.

🏃‍♂️ De Score: Snelheid en Efficiëntie

In de oude tests was het belangrijk of je de puzzel oplossde. Bij ARC-AGI-3 is het belangrijk hoe je het oplost.

De score wordt bepaald door actie-efficiëntie.

Vergelijking: Stel je voor dat je een doolhof moet lopen.
- Een mens loopt het in 10 stappen.
- Een domme robot loopt er 100 stappen, loopt tegen muren op en draait in cirkels.
- Een slimme robot loopt het ook in 10 stappen.

De robot die 100 stappen doet, scoort slecht, zelfs als hij het doolhof uiteindelijk vindt. De test straft "brute force" (zomaar alles proberen) af. Je moet slim plannen.

De "Menselijke Standaard":
De test wordt vergeleken met mensen. Als een mens het in 10 stappen doet, moet de AI ook ongeveer in 10 stappen kunnen. Als de AI 100 stappen nodig heeft, scoort hij bijna niets.

📉 Waarom is dit zo moeilijk voor AI?

Het paper geeft een interessant inzicht:

De oude AI's waren als een bibliotheek: Ze konden alles vinden wat ze al hadden gelezen. Als je ze een vraag stelde die ze niet kenden, faalden ze.
De nieuwe AI's (zoals de grote modellen van 2026) zijn als een slimme student die veel heeft gelezen. Ze kunnen redeneren en patronen herkennen. Maar als ze in een hele nieuwe situatie terechtkomen waar ze nog nooit over hebben gehoord, en ze moeten zelf de regels bedenken... dan komen ze vast te zitten.

Het probleem:
De AI's proberen vaak te "knoeien" met de regels. Ze proberen te raden wat de makers van de test wilden, in plaats van de wereld zelf te begrijpen. Ze gebruiken "kortsluitingen" (zoals het onthouden van hoe eerdere puzzels eruitzagen), maar ARC-AGI-3 is zo ontworpen dat die trucs niet werken. Elke puzzel is uniek en nieuw.

🏆 De Resultaten (Maart 2026)

De resultaten zijn opvallend:

Mensen: Kunnen 100% van de puzzels oplossen. Ze vinden de regels snel en spelen slim.
De slimste AI's: Scoren minder dan 1%. Ze kunnen de puzzels vaak niet oplossen, of ze doen er zo lang over dat ze faalt.

Dit betekent dat er nog een enorme kloof is tussen wat computers nu kunnen en wat een menselijk kind kan als het in een nieuwe situatie belandt.

🛠️ Hoe hebben ze dit gemaakt?

Om deze test te bouwen, hebben ze een eigen "game studio" opgericht. Ze hebben:

Spellen ontworpen die alleen gebruik maken van basis logica (zwaartekracht, vormen, objecten), zonder taal of culturele symbolen (geen woorden, geen "groen betekent gaan").
Gecontroleerd of mensen de spellen konden oplossen. Als een mens het niet kon, was de puzzel te moeilijk of onduidelijk.
Geautomatiseerde tests gedaan om te zorgen dat je niet per ongeluk kon winnen door zomaar te klikken.

💡 De Conclusie

ARC-AGI-3 is een nieuwe maatstaf voor echte intelligentie. Het is niet meer over "hoeveel weet je?", maar over "hoe snel kun je iets nieuws leren?".

Het paper concludeert dat we nog ver weg zijn van een echte "Algemene Kunstmatige Intelligentie" (AGI) die net zo flexibel is als een mens. Zolang AI's vastlopen in nieuwe, onbekende situaties zonder handleiding, is er nog veel werk te doen.

Kort samengevat:
ARC-AGI-3 is een videospel zonder handleiding voor de slimste computers ter wereld. Tot nu toe zijn de computers er slecht in, terwijl mensen het makkelijk vinden. Het bewijst dat computers nog niet echt "slim" zijn in het aanpassen aan het onbekende.

Each language version is independently generated for its own context, not a direct translation.

Titel: ARC-AGI-3: Een nieuwe uitdaging voor frontlijn agente intelligentie

Datum: 27 maart 2026
Auteurs: ARC Prize Foundation (o.a. François Chollet, Gregory Kamradt, Mike Knoop)

1. Het Probleem

De huidige staat van de kunst (SOTA) in kunstmatige intelligentie, met name Large Reasoning Models (LRMs) zoals GPT-5 en Gemini 3, toont aanzienlijke vooruitgang in redeneren binnen bekende domeinen. Echter, deze systemen lijken vast te zitten in een vorm van "gefragmenteerde intelligentie" die sterk afhankelijk is van domeinspecifieke kennis en verifieerbare feedback.

De voorgaande benchmarks, ARC-AGI-1 (2019) en ARC-AGI-2 (2025), waren gericht op statische taken en het afleiden van regels uit input-output paren. Hoewel deze benchmarks oorspronkelijk ontworpen waren om memorisatie te voorkomen, zijn ze door de schaalvergroting van trainingsdata en het gebruik van synthetische data-generatie (waarbij modellen zelf taken genereren en oplossen) nu kwetsbaar geworden voor "overfitting" en hogere niveau shortcuts. Frontlijnmodellen scoren nog steeds onder de 1% op de privé-testsets van ARC-AGI-1 en 2, maar de benchmarks verliezen hun vermogen om echte generalisatie te meten omdat ze niet langer "out-of-distribution" (OOD) zijn ten opzichte van de trainingsdata.

Er is een dringende behoefte aan een benchmark die agente intelligentie meet: het vermogen van een systeem om actief te exploreren, doelen af te leiden zonder instructies, interne wereldmodellen te bouwen en effectieve actieplannen te maken in interactieve, onbekende omgevingen.

2. Methodologie

2.1 Benchmark Design: ARC-AGI-3

ARC-AGI-3 verschuift van statische raster-taken naar interactieve, beurtelings (turn-based) omgevingen.

Omgeving: Agents zien een 64x64 raster met 16 kleuren. De omgeving verandert niet asynchroon; de agent moet een actie kiezen per beurt.
Actieruimte: Beperkt tot vijf basisacties, een 'Undo'-actie, en het selecteren van een cel via coördinaten. De complexiteit ligt in de logica, niet in de besturing.
Core Knowledge Priors: Alle omgevingen zijn gebaseerd op aangeboren menselijke kennis (objectiviteit, basisgeometrie, fysica, agent-achtigheid) en vermijden taal, cijfers of culturele symbolen.
Doel: De agent moet autonoom de wincondities en mechanica van een nieuwe omgeving afleiden zonder expliciete instructies.

2.2 Ontwikkelingsproces en Validatie

Game Studio: Een interne studio ontwikkelde de omgevingen volgens strikte ontwerpprincipes: nieuwheid, menselijke oplosbaarheid (binnen ~20 min), en complexiteit door compositie van mechanica.
Validatie:
- Deterministische tests: Random agents spelen tot 1.000.000 stappen om te garanderen dat niveaus niet per ongeluk te winnen zijn.
- Grafische state-space analyse: De omgeving wordt gemodelleerd als een gerichte graaf om de waarschijnlijkheid van succes met een random policy te schatten (doel: < 1/10.000 kans op toevalswinst).
Dataset:
- Public Demo Set (25 omgevingen): Voor demonstratie en community-toegang.
- Semi-Private Set (55 omgevingen): Voor API-tests.
- Fully Private Set (55 omgevingen): Voor de officiële wedstrijd, strikt bewaakt om data-lekkage te voorkomen.

2.3 Scoring: Relative Human Action Efficiency (RHAE)

Intelligentie wordt gedefinieerd als efficiëntie (minimale resource-gebruik), niet alleen het oplossen van een taak.

Metriek: Het aantal acties (beurten) dat nodig is om een omgeving te voltooien bij de eerste kennismaking.
Menselijke Baseline: Gebaseerd op de tweedebeste menselijke prestatie (om outliers te elimineren).
Berekening:
- Per niveau-score: $S_{l,e} = \min(1.0, \frac{h_{l,e}}{a_{l,e}})^2$ $S_{l, e} = min (1.0, \frac{h _{l, e}}{a _{l, e}})^{2}$
  - Waarbij $h$ het aantal acties van de menselijke baseline is en $a$ het aantal acties van de AI.
  - De kwadratische macht straft inefficiëntie zwaarder (een factor 10 inefficiëntie levert slechts 1% score op).
- Gewogen gemiddelde: Latere niveaus binnen een omgeving wegen zwaarder dan tutorial-niveaus.
- Totale Score: Het gemiddelde van alle omgevingsscores.
Cutoff: AI-systemen worden gestopt na 5x het menselijke aantal acties per niveau om kosten te beheersen en "brute force" te straffen.

2.4 Evaluatie Protocol

Officiële Leaderboard: Meet prestaties van modellen via een algemene API zonder specifieke "harnesses" (externe hulpprogramma's) of taakspecifieke instructies. Dit simuleert een mens die voor het eerst de testzaal binnenkomt.
Community Leaderboard: Staat harness-gedreven resultaten toe (voor economische automatisatie), maar deze worden niet gezien als bewijs van AGI.

3. Belangrijkste Resultaten

Menselijke Prestaties: Mensen kunnen 100% van de omgevingen oplossen zonder voorafgaande training. De mediane tijd voor een succesvolle poging is ongeveer 8 minuten.
AI Prestaties (Maart 2026): Frontlijnmodellen scoren extreem laag op de officiële leaderboard:
- Gemini 3.1 Pro Preview: 0,37%
- GPT-5.4 (High): 0,26%
- Opus 4.6 (Max): 0,25%
- Grok-4.20: 0,00%
Observatie: Zelfs geavanceerde modellen met "Chain-of-Thought" redeneren worstelen met het autonoom afleiden van doelen en het plannen van acties in onbekende omgevingen. Ze zijn vaak afhankelijk van menselijke scaffolding of harnesses om ook maar enigszins te presteren.
Overfitting Bewijs: Analyse toont aan dat modellen soms interne kennis van de ARC-AGI-datastructuur gebruiken (bijv. kleurcodering) zonder dat deze expliciet in de prompt staat, wat aangeeft dat eerdere benchmarks niet meer volledig "out-of-distribution" zijn.

4. Bijdragen

Paradigmaverschuiving naar Agente Intelligentie: ARC-AGI-3 is de eerste benchmark die systematisch het vermogen meet om doelen te infereren en plannen te maken in interactieve, dynamische omgevingen zonder instructies.
Efficiëntie als Definitie van Intelligentie: Door gebruik te maken van Action Efficiency (aantal stappen) in plaats van alleen succes/fout, wordt "brute force" gestraft en wordt het vermogen tot snelle adaptatie en planning centraal gesteld.
Robuustheid tegen Overfitting: Door de combinatie van interactieve omgevingen, strikte OOD-ontwerpprincipes, en een gescheiden privé-testset, creëert ARC-AGI-3 een veiliger meetlat voor echte generalisatie dan statische datasets.
RHAE Metriek: Een nieuwe, wiskundig onderbouwde scoringmethode die menselijke prestaties als de gouden standaard gebruikt en inefficiëntie kwadratisch straft.
Open Science Framework: De publicatie van de volledige methodologie, de open-source "harness" die 100% scoort op de publieke set (om overfitting te demonstreren), en de scheiding tussen officiële en community leaderboards.

5. Significantie

ARC-AGI-3 markeert een kritiek punt in de evaluatie van AGI. Het paper concludeert dat hoewel AI-systemen uitstekend zijn geworden in het automatiseren van bekende taken (zoals coderen in verifieerbare domeinen), ze nog steeds fundamenteel tekortschieten in het aanpassen aan "unknown unknowns" (onbekende onbekenden).

De benchmark benadrukt dat ware algemene intelligentie niet gaat over het oplossen van specifieke problemen met veel rekenkracht, maar over het efficiënt verwerven van nieuwe vaardigheden in volledig nieuwe contexten. De enorme kloof tussen menselijke en AI-prestaties (100% vs <1%) toont aan dat we nog ver verwijderd zijn van menselijk niveau AGI. ARC-AGI-3 biedt een gestructureerde, interactieve omgeving om deze kloof te bestuderen en te dichten, en fungeert als een noodzakelijke evolutie in de meetinstrumenten voor AI, gezien de toenemende capaciteit van modellen om statische benchmarks te "hacken".