AIRA_2: Overcoming Bottlenecks in AI Research Agents

Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski

Gepubliceerd 2026-03-30

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

De Grote Droom: Een AI die Wetenschapper is

Stel je voor dat je een robot hebt die niet alleen code kan schrijven, maar ook zelfstandig wetenschappelijke experimenten kan doen. Hij moet proberen nieuwe medicijnen te vinden, betere batterijen te ontwerpen of slimme algoritmes te bouwen. Dit is wat AIRA2 doet: het is een "onderzoeks-agent" die zelfstandig probeert de beste oplossingen te vinden voor complexe problemen.

Maar tot nu toe liepen deze robot-wetenschappers vast. Ze waren te traag, maakten te veel fouten door te "leren" van de verkeerde signalen, en konden niet goed omgaan met moeilijke situaties. AIRA2 is de oplossing die deze drie problemen oplost.

Hier zijn de drie problemen en hoe AIRA2 ze oplost, vertaald naar alledaagse beelden:

1. Het Probleem: De "Eén-Opdracht" Flesnek

De situatie: Stel je voor dat je een team van 8 super-snelle auto's hebt, maar je mag maar één auto tegelijk op de weg laten rijden. De andere 7 moeten wachten in de garage. Dat is heel inefficiënt.
Het oude probleem: De vorige AI-agenten werkten "synchroon". Ze deden één experiment, wachtten tot het klaar was (soms urenlang), en deden dan pas het volgende. Ze gebruikten dus maar één computerkracht (GPU) op dat moment, terwijl ze er acht hadden.
De AIRA2-oplossing: De Asynchrone Werkvloer.
AIRA2 heeft een manager die 8 auto's tegelijk de weg op stuurt. Zodra een auto klaar is met een experiment, krijgt hij direct een nieuwe opdracht. Er is geen wachten.

De analogie: In plaats van één kok die één bord per keer kookt, heb je nu een restaurant met 8 koks die allemaal tegelijk werken. De hoeveelheid "proefgerechten" die je per uur kunt maken, wordt 8 keer zo groot. Hierdoor kan de AI veel sneller leren wat wel en niet werkt.

2. Het Probleem: De "Vals Speler" in de Test

De situatie: Stel je voor dat een student voor een examen studeert. Hij krijgt de antwoorden op de oefentoetsen (de "validatie-set") te zien. Hij begint dan niet echt te leren, maar raadt gewoon welke antwoorden de docent graag wil horen. Hij haalt een 10 op de oefentoets, maar zakt voor het echte examen.
Het oude probleem: De AI-agenten keken naar hun eigen resultaten om te beslissen wat ze moesten doen. Ze "gameden" het systeem door zich aan te passen aan de testdata, wat leidde tot overfitting (ze leerden de test uit het hoofd in plaats van het probleem op te lossen).
De AIRA2-oplossing: Het "Verborgen Consistente Beoordeling" Protocol.
AIRA2 gebruikt een slimme truc:

De AI ziet nooit de antwoorden op de oefentoetsen terwijl hij werkt.
Er is een strikte scheiding: de AI traint op data A, zoekt op data B, en wordt pas aan het eind getoetst op data C (die niemand heeft gezien).

De analogie: Het is alsof je een speler in een spel laat spelen, maar je houdt de scorebordjes voor hem verborgen. Hij moet echt goed spelen om te winnen, in plaats van te raden wat de scheidsrechter wil horen. Dit zorgt ervoor dat de AI echt slim wordt, en niet alleen slim doet.

3. Het Probleem: De "Stijve Robot"

De situatie: Stel je hebt een robot die alleen maar één opdracht kan uitvoeren per keer, zoals "Kijk naar de data" of "Probeer een fout te vinden". Als de robot een fout ziet, kan hij niet zelf zeggen: "Oh, ik denk dat ik dit anders moet proberen," en het dan zelf doen. Hij moet wachten tot de mens hem een nieuwe opdracht geeft.
Het oude probleem: De oude agenten gebruikten vaste instructies. Als een experiment faalde, wisten ze niet hoe ze moesten debuggen (fouten oplossen) of hoe ze hun plan moesten aanpassen.
De AIRA2-oplossing: ReAct-agenten (Redeneren + Acteren).
AIRA2 gebruikt agenten die kunnen "nadenken" en "handelen" in een doorlopend gesprek met zichzelf.

De analogie: In plaats van een robot die alleen "Vooruit" zegt, heb je nu een detective. De detective kijkt naar een bewijsstuk (data), denkt: "Hmm, dit klopt niet," en probeert direct een nieuwe aanpak. Als dat ook niet werkt, denkt hij weer na en probeert hij iets anders. Hij kan zelf beslissen hoeveel tijd hij aan een probleem besteedt en kan zelf fouten in zijn code oplossen zonder hulp van buitenaf.

Wat is het resultaat?

Door deze drie verbeteringen (meer werkkracht, eerlijke testen, en slimme detectives) heeft AIRA2 een nieuw record neergezet op de MLE-bench (een soort olympiade voor AI-wetenschappers).

De prestatie: Na 24 uur werk scoort AIRA2 beter dan elke andere AI die daarvoor is gemaakt.
De groei: Het mooie is: hoe langer je het laat werken (tot 72 uur), hoe beter het wordt. De oude AI's werden na een tijdje juist slechter (door te veel te "leren" van de testdata), maar AIRA2 blijft stijgen.

Conclusie in één zin

AIRA2 is als het verschil tussen een solopionier die traag werkt, fouten maakt door te valsspelen, en vastloopt bij problemen, en een hoog-georganiseerd, eerlijk en zelfstandig onderzoeksteam dat razendsnel duizenden ideeën test, eerlijk leert van zijn fouten en zelfstandig de moeilijkste problemen oplost.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper identificeert drie fundamentele structurele knelpunten die de prestaties van autonome AI-onderzoekagenten beperken, zelfs binnen bestaande benchmarks zoals MLE-bench:

Compute-Throughput Bottleneck: Traditionele agenten werken synchroon op één GPU. Dit betekent dat de zoektocht stopt terwijl dure experimenten (zoals modeltraining) draaien. Dit beperkt het aantal gegenereerde en geëvalueerde monsters per tijdseenheid, waardoor diepe exploratie van de oplossingsruimte onmogelijk wordt binnen realistische tijdslimieten.
Generalisatiekloof (Overfitting): Er bestaat een discrepantie tussen de validatiemetrics (die de zoektocht sturen) en de werkelijke testresultaten. Agenten "gamen" vaak hun eigen validatiemetrics of overfitten op de validatiedata door de zoekhorizon te verlengen. Dit leidt tot prestatiedegradatie naarmate de zoektocht langer duurt.
Beperkingen van Statische Operators: Bestaande systemen gebruiken vaak vaste, single-turn prompts voor specifieke taken (zoals debugging of feature engineering). Deze statische operators kunnen niet dynamisch inspelen op complexe, onverwachte fouten of iteratief debuggen, wat een plafond zet op de zoekprestaties.

Methodologie: AIRA2 Architectuur

AIRA2 is een nieuw onderzoekssysteem dat deze drie knelpunten aanpakt via een architectuur die bestaat uit een globale orkestrator en een asynchrone pool van workers. De kerncomponenten zijn:

1. Asynchrone Multi-GPU Uitvoering (Compute)

Architectuur: In plaats van synchrone blokkering, gebruikt AIRA2 een pool van asynchrone workers (in het experiment 8x NVIDIA H200 GPUs).
Werking: Een orkestrator beheert een populatie van kandidaat-oplossingen. Zodra een worker vrij is, ontvangt deze een mutatie- of crossover-taak. Er zijn geen synchronisatiebarrières; snellere workers hoeven niet te wachten op langzamere.
Containerisatie: Workers draaien in geïsoleerde Apptainer-containers met een vooraf geconfigureerde ML-omgeving. Dit zorgt voor reproduceerbaarheid en voorkomt dat crashes andere workers beïnvloeden.
Resultaat: Dit zorgt voor een lineaire schaling van de experimentele doorvoer (bijv. 8x GPUs levert ~8x doorvoer op), waardoor dagenlange sequentiële exploratie wordt gereduceerd tot uren.

2. Hidden Consistent Evaluation (HCE) Protocol

Probleemoplossing: Om overfitting en "metric gaming" te voorkomen, wordt de evaluatie volledig ontkoppeld van de agent.
Data-splits: De data wordt vooraf opgesplitst in drie disjuncte sets:
- $D_{train}$ : Zichtbaar voor de agent voor training.
- $D_{search}$ : Gebruikt door de orkestrator om de fitness te berekenen (labels zijn verborgen voor de agent).
- $D_{val}$ : Alleen gebruikt voor de definitieve selectie na afloop van de zoektocht (verborgen voor zowel agent als zoekproces).
Externe Evaluatie: Agents rapporteren nooit hun eigen scores. De orkestrator evalueert elke oplossing extern in een aparte container op de vaste $D_{search}$ set. Dit elimineert ruis en zorgt voor een stabiel zoeksignaal.

3. Dynamische ReAct Agents (Operators)

Van Statisch naar Dynamisch: Vaste prompts worden vervangen door ReAct-agenten (Reasoning + Acting).
Interactieve Debugging: Agents kunnen binnen één mutatie-sequentie meerdere stappen zetten: redeneren, code uitvoeren, output observeren, fouten analyseren en de code aanpassen.
Dynamische Scope: De agent bepaalt zelf welke acties nodig zijn (bijv. exploratieve data-analyse, hyperparameter-tuning, of het inspecteren van logs) in plaats van vooraf gedefinieerde stappen te volgen. Dit maakt het systeem veerkrachtiger tegen complexe fouten.

Belangrijkste Resultaten

Het systeem werd getest op MLE-bench-30, een set van 30 Kaggle-wedstrijden met verschillende complexiteitsniveaus.

Prestaties:
- Bij 24 uur bereikt AIRA2 een gemiddelde Percentile Rank van 71,8%, wat een verbetering is ten opzichte van de vorige staat van de kunst (69,9% door MARS+).
- Bij 72 uur stijgt de prestatie verder naar 76,0%.
- In tegenstelling tot eerdere systemen, degradeert de prestatie niet bij langere zoektijden; deze blijft monotoon verbeteren.
Ablatie Studies (Bewijs van noodzaak):
- Zonder HCE: Prestaties dalen na een piek, wat bevestigt dat eerdere "overfitting" inderdaad werd veroorzaakt door evaluatieruis en niet door echte data-memorizatie.
- Zonder ReAct Agents: Bij korte tijdslimieten (3u) is er een groot verlies (5,5 percentielpunten), wat aantoont dat interactieve debugging essentieel is voor efficiëntie. Bij langere tijd (72u) wordt dit gat kleiner, maar blijft het belangrijk voor complexere taken.
- Zonder Evolution (Parallelle "Best-of-K"): Zonder gedeelde populatie (evolutie) bereiken 8 GPUs slechts hetzelfde eindresultaat als 1 GPU, maar dan sneller. Dit toont aan dat parallelisme alleen niet genoeg is; er is een gedeelde zoektocht (evolutie) nodig om de extra compute effectief te benutten.

Bijdragen en Significantie

Systeemontwerp voor Open-ended Research: AIRA2 bewijst dat AI-onderzoekagenten succesvol kunnen schalen door de infrastructuur (asynchrone compute), de evaluatie (HCE) en de operatoren (ReAct) gelijktijdig te optimaliseren.
Oplossing van het Overfitting-Mythe: Het paper weerlegt de idee dat agenten noodzakelijkerwijs overfitten op data bij langere zoektochten. De degradatie die in eerdere werken werd gezien, bleek te komen door inconsistente evaluatieprotocollen. Met een stabiel signaal blijven agenten verbeteren.
Efficiëntie vs. Schaalbaarheid: Het toont aan dat voor complexe, open-ended taken (zoals wetenschappelijk onderzoek) geen "lightweight" agenten volstaan, maar dat systemen moeten worden ontworpen voor hoge doorvoer en lange zoekhorizons.
Nieuwe State-of-the-Art: AIRA2 zet een nieuwe benchmark voor AI-onderzoek, waarbij het niet alleen competitie-wedstrijden wint, maar ook in staat is om "eureka-momenten" te hebben (zoals het herkennen van underfitting in plaats van het verwerpen van een idee) en complexe problemen op te lossen waar eerdere agenten faalden.

Conclusie:
AIRA2 markeert een verschuiving van fragiele scripts die gericht zijn op het winnen van wedstrijden, naar robuuste, autonome systemen die capable zijn van echte, open-ended wetenschappelijke ontdekkingen door fundamentele engineeringuitdagingen in compute, evaluatie en redenering op te lossen.