ARC-AGI-2 Technical Report

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-2: Hoe een AI-puzzelmeester leerde om te denken in plaats van te onthouden

Stel je voor dat je een enorme doos met puzzels krijgt. Elke puzzel bestaat uit een rooster met gekleurde blokjes. Je ziet een paar voorbeelden: "Als ik dit doe, gebeurt dat." Je moet dan raden wat er gebeurt als je een nieuwe puzzel krijgt die je nog nooit hebt gezien. Dit is de ARC-puzzel (Abstraction and Reasoning Corpus).

De meeste computers zijn geweldig in het herkennen van patronen als ze duizenden voorbeelden hebben gezien (zoals het herkennen van een kat op een foto). Maar bij ARC moeten ze het doen met slechts een paar voorbeelden en moeten ze de regels achter de puzzel begrijpen, niet alleen de plaatjes onthouden. Het is alsof je iemand leert koken door alleen drie recepten te tonen, en dan vraagt je: "Maak nu een nieuw gerecht."

De auteurs van dit rapport hebben een slimme AI gebouwd die deze puzzels veel beter oplost dan ooit tevoren. Hier is hoe ze dat deden, vertaald in alledaagse termen:

1. De Vertaler: Van Plaatjes naar Woorden

Computers die goed zijn in taal (zoals ChatGPT) zijn vaak beter in redeneren dan computers die alleen naar plaatjes kijken. De auteurs hebben hun puzzels daarom vertaald naar een taal die zo'n computer begrijpt.

De Analogie: Stel je voor dat je een Lego-constructie hebt. In plaats van een foto te maken, beschrijf je het met woorden: "Een rode steen, dan een blauwe, dan een groene." Ze hebben een heel compacte taal bedacht (slechts 125 woorden) zodat de computer de hele puzzel in één keer kan "lezen" zonder vergeten te worden wat er aan het begin stond.

2. De Oefenmethode: "Kijk eens van een andere kant"

De grootste valkuil voor AI is dat het de volgorde van de woorden onthoudt in plaats van de regel. Als je een rij blokjes van links naar rechts leest, denkt de AI misschien dat de regel "links" is. Maar wat als de regel eigenlijk "rood wordt blauw" is, ongeacht de richting?

De Analogie: Stel je voor dat je een spiegelbeeld van een schilderij bekijkt. Als je het schilderij omdraait, spiegelt of draait, is het nog steeds hetzelfde schilderij, alleen anders gepositioneerd.
De Oplossing: De AI kreeg duizenden oefenpuzzels, maar elke puzzel werd op 8 verschillende manieren gedraaid, gespiegeld of door een "slang" (een zigzag-lijn) gelezen. Hierdoor leerde de AI: "Ah, de regel is niet 'links', de regel is 'verander de kleur'." Het leerde de essentie, niet de positie.

3. De "Oefenmoment" voor elke puzzel (Test-Time Training)

Dit is misschien wel het slimste stukje. Normaal gesproken studeer je voor een examen, en dan ga je het maken. Je mag niet meer studeren tijdens het examen.

De Analogie: Stel je voor dat je een puzzel moet oplossen, maar je mag tijdens het oplossen een paar minuten extra oefenen met exact diezelfde puzzel. Je probeert de regels te snappen terwijl je kijkt naar de voorbeelden.
De Oplossing: Voor elke nieuwe puzzel die de AI moet oplossen, geeft het systeem de AI een mini-cursus van slechts een paar seconden. De AI past zich heel snel aan (met een techniek die "LoRA" heet, alsof je een klein notitieboekje toevoegt aan zijn hoofd) om de specifieke regels van die ene puzzel te begrijpen. Daarna lost hij de puzzel op.

4. De Jury: "Wat zou een ander denken?"

Als de AI een antwoord geeft, hoe weet je dan of het goed is? Soms denkt de AI dat een antwoord goed is, maar is het toeval.

De Analogie: Stel je voor dat je een antwoord hebt op een vraag. Je vraagt het aan 8 vrienden, maar je draait de vraag voor elke vriend een beetje anders (een beetje linksom, een beetje rechtsom). Als al 8 vrienden hetzelfde antwoord geven, dan weet je: "Dit is het juiste antwoord." Als ze allemaal verschillende antwoorden geven, is het waarschijnlijk een gok.
De Oplossing: De AI genereert veel mogelijke antwoorden. Dan draait het die antwoorden en de puzzel zelf op alle mogelijke manieren. Als een antwoord onder alle verschillende hoeken en spiegelingen logisch blijft, krijgt het een hoge score. Als het antwoord "instort" als je het spiegelt, wordt het weggegooid.

5. De Filter: "Doe niet raar"

Soms bedenkt de AI iets dat technisch mogelijk is, maar logisch onzin is (bijvoorbeeld: een antwoord dat meer kleuren heeft dan de puzzel toestaat).

De Analogie: Het is alsof je een chef-kok bent die een gerecht moet maken. De AI probeert een gerecht te maken, maar de filter is de inspecteur die zegt: "Je mag geen blauwe aardappelen gebruiken, dat bestaat niet in deze keuken."
De Oplossing: Er zijn simpele regels ingebouwd die onmogelijke antwoorden direct verwijderen voordat ze zelfs maar worden beoordeeld.

Het Resultaat

Door deze stappen te combineren – vertalen naar taal, oefenen vanuit alle hoeken, kort studeren voor elke puzzel, en een strenge jury – is deze AI in staat om veel moeilijker puzzels op te lossen dan voorheen.

Het is alsof ze een student hebben getraind die niet alleen uit het hoofd leert, maar die echt begrijpt hoe de wereld werkt, en die tijdens het examen even snel zijn notities kan raadplegen om de regels van de specifieke vraag te checken. Ze zijn hiermee dichter bij het menselijke vermogen om te redeneren gekomen.

Kortom: Ze hebben de AI niet slimmer gemaakt door meer data te geven, maar door hem te leren anders te kijken naar de data.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het rapport "ARC-AGI-2 Technical Report" in het Nederlands.

Probleemstelling

De Abstract Reasoning Corpus (ARC) is een benchmark ontworpen door François Chollet om algemene intelligentie (AGI) te evalueren. In tegenstelling tot traditionele machine learning-taken die vertrouwen op grote datasets en patroonherkenning, vereist ARC dat modellen abstracte redeneerregels afleiden uit slechts een paar voorbeelden (few-shot learning). De uitdagingen zijn:

Minimale trainingsexamples: Modellen kunnen niet vertrouwen op statistische overfitting.
Abstractie en generalisatie: Taken variëren sterk in type (ruimtelijke transformaties, telling, logica) en vereisen het begrijpen van onderliggende principes in plaats van memorisatie.
Beperkte compute-omgeving: Voor de Kaggle-evaluatie (ARC-AGI-2) zijn de middelen strikt beperkt (4x L4 GPU's, 12 uur voor 240 taken), wat grote modellen en brute-force benaderingen onuitvoerbaar maakt.

Methodologie

Het team presenteert een transformer-gebaseerd systeem dat neurale inferentie combineert met structurele priors en online aanpassing. De pijlers van hun aanpak zijn:

1. Architectuur en Encoding

Model: Ze gebruiken een LongT5 encoder-decoder architectuur (ongeveer 200M parameters), aangepast voor lange contexten (tot 10.000 tokens).
Compacte Tokenisatie: In plaats van standaard BPE-tokenizers die cijfers samenvoegen (wat schadelijk is voor kleuren in ARC), gebruiken ze een aangepaste vocabulaire van slechts 125 tokens (één token per kleur en structuur). Dit verlaagt de modelgrootte en verbetert de trainbaarheid.
Attention Mechanismen: Ze implementeren Transient Global Attention (TGlobal) in de encoder om lange-range afhankelijkheden te vangen zonder de kwadratische complexiteit van standaard attention. Voor de encoder wordt FlashAttention geïntegreerd om geheugenefficiëntie en snelheid te maximaliseren.

2. Data Augmentatie en Priors

Om het gebrek aan data te compenseren en generalisatie te bevorderen, gebruiken ze een uitgebreide augmentatiepipeline:

Symmetrie-priors: Toepassing van de dihedrale groep $D_4$ (rotaties en spiegelingen) om het model invariant te maken ten opzichte van oriëntatie.
Traversals: Het raster wordt niet alleen rij-voor-rij gelezen, maar ook in een slang-achtige (snake) volgorde. Dit dwingt het model om transformatieregels te leren in plaats van te vertrouwen op specifieke ruimtelijke patronen.
Cellulaire Automata: Generatie van synthetische taken door cellulaire automata toe te passen op input/output, wat de model leert om robuust te zijn tegen oppervlakkige veranderingen.
Computer Vision-transformaties: Upscaling, framing (randen toevoegen) en "metagrids" om het concept van "objectheid" te versterken.

3. Offline Training Strategie

Curriculum Learning: Training start met eenvoudige taken en werkt op naar complexere, compositionalere taken (ARC-AGI-1 en -2).
Multi-task Learning: Het model wordt getraind om niet alleen taken op te lossen, maar ook om denoising uit te voeren (UL2-paradigma), waarbij delen van het raster gemaskeerd worden en het model ze moet reconstrueren. Dit bevordert dieper begrip van de logica.
Grokking: Ze observeren het fenomeen "grokking", waarbij het model na lange training plotseling overgaat van memorisatie naar echte generalisatie, wat leidt tot een significante prestatieverbetering.

4. Inference Pipeline

Test-Time Training (TTT): Bij het testen van een nieuwe taak wordt het model lokaal aangepast met LoRA (Low-Rank Adaptation) op basis van de demonstratieparen van die specifieke taak. Dit gebeurt met een externe geheugenmodule om vergelijkbare taken op te halen.
Decoding: Gebruik van Beam Search (B=10) om meerdere kandidaat-oplossingen te genereren.
Filtering: Witte-doos heuristieken (symbolische priors) filteren onlogische oplossingen (bijv. verkeerde kleuren of afmetingen) voordat scoring plaatsvindt.
Symmetrie-bewuste Scoring: Kandidaten worden gescoord door ze te evalueren onder alle 8 symmetrie-transformaties ( $D_4$ ). De oplossing die consistent is over deze perspectieven krijgt de hoogste score ("Multi-perspective reasoning").

Belangrijkste Bijdragen

Offline Training Recipe: Een gestratificeerde aanpak die curriculum learning, multi-task learning (oplossen + denoising) en grokking combineert voor robuuste interne representaties.
Test-Time Training (TTT) met LoRA: Een innovatieve toepassing van TTT voor ARC, waarbij het model dynamisch specialiseert voor elke onbekende taak zonder catastrofale vergeetgebeurtenissen.
Structure-bewuste Data Augmentatie: Een principieel framework dat symmetrie, cellulaire automata en alternatieve raster-traversals gebruikt om het model te leren regels te abstraheren in plaats van pixels te memoriseren.
Symmetrie-bewuste Scoring: Een ranking-mechanisme dat gebruikmaakt van geometrische invariantie om de meest waarschijnlijke oplossing te selecteren, wat de stabiliteit van de oplossing vergroot.

Resultaten

Prestaties: Het systeem bereikte 27,08% op de semi-privé Kaggle-evaluatie (pass@2), een aanzienlijke verbetering ten opzichte van eerdere neurale oplossers en baselines.
Ablatie Studies:
- TTT bleek de meest kritieke component (+33% scoreverlies zonder TTT).
- Filtering was essentieel om fouten te voorkomen (-14% zonder filtering).
- Traversal-augmentatie zorgde voor een +6% verbetering in generalisatie.
- UL2-denoising leverde een bescheiden maar significante verbetering (+2%).
Efficiëntie: Ondanks de strenge hardwarebeperkingen (4x L4 GPU's) kon het systeem binnen de tijdslimiet van 12 uur alle taken verwerken, mede dankzij FlashAttention en geoptimaliseerde TTT.

Betekenis en Toekomst

Dit werk toont aan dat het combineren van neurale architecturen met kennis-priors, zelf-aanpassing (TTT) en perspectief-invariante redenering een krachtige route is naar robuuste generalisatie. Het benadrukt dat hoe informatie wordt gepresenteerd (via augmentaties en traversals) net zo belangrijk is als de modelarchitectuur zelf.

De bevindingen hebben bredere implicaties voor:

Next-gen RAG: Het gebruik van TTT met externe geheugenretrieval voor codegeneratie en wiskundig bewijs.
NLP: Toepassing van symmetrie-bewuste scoring op semantische consistentie in teksten.
Robotica: Het evalueren van kandidaat-trajecten onder verschillende perspectieven voor betere scene-understanding.

Het rapport concludeert dat de weg naar AGI niet alleen ligt in schaalvergroting, maar in gestructureerde variatie, representatie en het vermogen om regels te ontdekken in plaats van patronen te matchen.