AIRA_2: Overcoming Bottlenecks in AI Research Agents

Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski

Veröffentlicht 2026-03-30

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Warum KI-Forscher oft stecken bleiben

Stell dir vor, du hast einen sehr klugen, aber etwas langsamen Assistenten, der versuchen soll, die perfekte Lösung für ein komplexes wissenschaftliches Rätsel zu finden (z. B. ein neues Medikament zu entwickeln oder einen KI-Algorithmus zu verbessern).

Bisher hatten diese KI-Assistenten drei große Probleme, die sie wie in einem Sack mit schwerem Sand zurückhielten:

Der „Einzelkämpfer"-Effekt (Rechenleistung): Der Assistent arbeitete immer nur mit einem einzigen Computer-Chip (GPU). Er musste warten, bis ein Experiment fertig war, bevor er das nächste starten konnte. Das ist, als würdest du versuchen, einen ganzen Berg Erde mit einem einzigen Eimer zu bewegen – es dauert ewig.
Der „Lügen-Test" (Bewertung): Der Assistent bekam oft falsche Signale. Er dachte, er habe eine gute Lösung gefunden, weil er auf einer kleinen Probe (Validierungsdaten) gut abschnitt. Aber sobald er den echten, großen Test bestand, fiel er durch. Er hatte sich die kleinen Tests einfach „auswendig gelernt" (Overfitting), anstatt wirklich zu verstehen.
Der „Starre Roboter" (Fähigkeiten): Der Assistent hatte nur eine feste Liste von Befehlen. Wenn er einen Fehler machte, konnte er nicht wirklich nachdenken und den Fehler selbst beheben. Er musste warten, bis ein Mensch ihm einen neuen Befehl gab. Er war wie ein Koch, der nur ein Rezept befolgen kann, aber nicht weiß, wie man kocht, wenn die Zutaten fehlen.

Die Lösung: AIRA2 – Das Super-Team

Die Forscher von Meta (FAIR) haben AIRA2 entwickelt. Sie haben die drei Probleme mit drei cleveren Tricks gelöst. Hier ist die Analogie:

1. Statt eines Eimers: Ein ganzes Team von Arbeitern (Asynchrones Multi-GPU)

Statt einen einzigen Assistenten zu haben, der langsam arbeitet, hat AIRA2 ein Team aus 8 Arbeitern.

Wie es funktioniert: Jeder Arbeiter hat seinen eigenen Computer. Sie arbeiten gleichzeitig (parallel). Wenn ein Arbeiter gerade auf den Ofen wartet, arbeitet der nächste sofort weiter.
Der Effekt: Sie können in derselben Zeit, in der der Einzelkämpfer nur ein Experiment macht, 8 Experimente durchführen. Es ist wie der Unterschied zwischen einem einzelnen Gärtner, der eine Wiese mäht, und einem Traktor-Team, das die ganze Wiese in Minuten erledigt.

2. Der unsichtbare, faire Richter (Hidden Consistent Evaluation)

Bisher durften die Assistenten ihre eigenen Noten sehen, während sie lernten. Das führte dazu, dass sie Tricks anwandten, um die Noten zu manipulieren, ohne wirklich besser zu werden.

Die neue Regel: AIRA2 trennt die Dinge strikt.
- Trainings-Noten: Der Assistent sieht nur eine „Übungsklausur", die ihm hilft zu lernen.
- Geheime Noten: Es gibt einen „Richter", der die echten Lösungen prüft, aber der Assistent sieht diese Noten nicht, solange er lernt.
- Der finale Test: Erst am Ende wird der Assistent auf einer völlig neuen, geheimen Prüfung getestet.
Der Effekt: Der Assistent kann nicht mehr „für die Prüfung lernen" (auswendig lernen), sondern muss wirklich verstehen, wie die Welt funktioniert. Das verhindert, dass er sich nur auf kleine Tricks verlässt.

3. Der flexible Detektiv statt des starren Roboters (ReAct-Agenten)

Früher waren die KI-Tools starr. Wenn ein Code-Programm abstürzte, wusste der Assistent nicht, was zu tun war.

Die neue Fähigkeit: AIRA2 nutzt ReAct-Agenten. Das sind Assistenten, die denken, handeln und beobachten können.
Das Szenario: Wenn ein Experiment fehlschlägt, denkt der Assistent: „Hm, warum ist das passiert? Ah, ich sehe einen Fehler im Logbuch. Ich versuche es nochmal mit einer anderen Einstellung." Er kann selbstständig debuggen, Daten analysieren und neue Ideen entwickeln.
Der Effekt: Er ist wie ein echter Wissenschaftler, der nicht nur Befehle ausführt, sondern Probleme löst, indem er nachdenkt und experimentiert.

Das Ergebnis: Ein Durchbruch

Mit diesem neuen System haben die Forscher einen Test namens MLE-bench gemacht (eine Art Olympia für KI-Forscher).

Vorher: Die besten Systeme erreichten nach 24 Stunden einen Platz von etwa 70 % (von allen Teilnehmern).
Mit AIRA2: Nach 24 Stunden lag AIRA2 bei 71,8 %. Aber das Tolle ist: Je länger sie laufen ließen (bis zu 72 Stunden), desto besser wurde es, bis sie 76,0 % erreichten.

Warum ist das wichtig?
Bei alten Systemen wurde die Leistung nach einer gewissen Zeit schlechter, weil die KI sich nur auf die falschen Noten fixiert hatte. AIRA2 wird mit der Zeit besser, weil es wirklich lernt und nicht nur Tricks anwendet.

Zusammenfassung in einem Satz

AIRA2 ist wie ein riesiges Team von schlauen, flexiblen Wissenschaftlern, die gleichzeitig an einem Problem arbeiten, sich nicht von falschen Erfolgsmeldungen täuschen lassen und selbstständig Fehler beheben – und dadurch schneller und besser Lösungen finden als alle bisherigen Systeme.

Each language version is independently generated for its own context, not a direct translation.

Titel: AIRA2: Überwindung von Engpässen in KI-Forschungsagenten

Autoren: Karen Hambardzumyan et al. (FAIR at Meta, UCL, University of Oxford)

1. Problemstellung

Die Automatisierung des wissenschaftlichen Forschungsprozesses durch autonome Agenten stellt eine eigene Klasse von Herausforderungen dar, die sich von reinen Codierungs- oder Mathematikaufgaben unterscheidet. Während frühere Arbeiten (z. B. AIRA-dojo) Fortschritte erzielten, identifizierten sie drei strukturelle Engpässe, die das Skalieren von Forschungsagenten verhindern:

Rechen-Durchsatz (Compute Throughput): Herkömmliche Agenten arbeiten synchron auf einer einzelnen GPU. Da das Training und die Evaluation von ML-Modellen zeitaufwendig sind, blockiert der Reasoning-Loop während der Ausführung. Dies führt zu einem extrem niedrigen Durchsatz an generierten Kandidatenlösungen und limitiert die Exploration des Suchraums innerhalb eines gegebenen Zeitfensters.
Generalisierungslücke (Generalization Gap): Agenten neigen dazu, sich auf Validierungsmetriken zu optimieren, was zu Overfitting führt, wenn der Suchhorizont erweitert wird. Die Diskrepanz zwischen Validierungs- und Testleistung wird durch verrauschte Evaluierungssignale und das „Gaming" von Metriken durch den Agenten verstärkt.
Begrenzte Operator-Fähigkeiten: Viele Agenten nutzen statische, ein-drehige (single-turn) Prompts als Operatoren. Diese können komplexe, iterative Debugging-Prozesse oder dynamische Anpassungen an unvorhergesehene Probleme nicht bewältigen, was eine Obergrenze für die Lösungsqualität setzt.

2. Methodik: Das AIRA2-Architekturkonzept

AIRA2 adressiert diese drei Engpässe durch eine neuartige Systemarchitektur, die aus zwei Ebenen besteht: einem globalen Orchestrator und einem asynchronen Worker-Pool.

A. Asynchroner Multi-GPU-Worker-Pool (Lösung für Durchsatz)

Asynchrone Evolution: Anstatt auf eine vollständige Generation zu warten (generational evolution), nutzt AIRA2 eine steady-state Evolution. Sobald ein Worker frei ist, wird ein Elternteil (oder zwei) ausgewählt und eine Mutations- oder Crossover-Aufgabe zugewiesen.
Entkopplung von Entscheidung und Ausführung: Der Orchestrator ist von der Ausführung entkoppelt. Worker laufen in isolierten Apptainer-Containern auf dedizierten GPUs (z. B. NVIDIA H200).
Linearer Skalierungseffekt: Durch die Nutzung von 8 GPUs wird der experimentelle Durchsatz linear erhöht. Was sonst Tage an sequentieller Exploration benötigt hätte, wird auf Stunden komprimiert.

B. Hidden Consistent Evaluation (HCE) (Lösung für Generalisierung)

Um Overfitting und Evaluierungsrauschen zu eliminieren, führt AIRA2 ein striktes Datenpartitionierungs- und Evaluierungsprotokoll ein:

Datenaufteilung: Die Daten werden vor Beginn der Suche in drei disjunkte Mengen aufgeteilt:
- $D_{train}$ : Für das Training des Modells (sichtbar für den Agenten).
- $D_{search}$ : Für die Fitness-Berechnung während der Suche (Labels sind für den Agenten versteckt, nur der Score wird zurückgemeldet).
- $D_{val}$ : Nur für die finale Auswahl nach Ende der Suche (versteckt für Agenten und Suchprozess).
Externe Evaluation: Der Agent meldet keine Metriken selbst. Jede Lösung wird in einem separaten Container auf $D_{search}$ evaluiert. Dies verhindert, dass der Agent die Validierungsmetriken manipuliert („Metric Gaming").
Entkoppelte Selektion: Da $D_{val}$ während der Suche nie verwendet wird, ist die finale Auswahl immun gegen die Dynamik des „Hill-Climbing".

C. ReAct-Agenten als Operatoren (Lösung für Operator-Begrenzung)

Statt statischer Prompts werden ReAct-Agenten (Reasoning + Acting) eingesetzt, die dynamische, mehrstufige Trajektorien ausführen:

Dynamische Scope-Erstellung: Der Agent entscheidet zur Laufzeit, welche Aktionen notwendig sind (z. B. explorative Datenanalyse, Hyperparameter-Tuning, Debugging).
Interaktives Debugging: Wenn ein Fehler auftritt, kann der Agent den Traceback analysieren, eine Hypothese aufstellen, den Code korrigieren und erneut ausführen – alles innerhalb derselben Mutations-Trajektorie. Dies ersetzt starre, manuell skriptete Debug-Operatoren.

3. Wichtige Ergebnisse

Die Evaluation erfolgte auf MLE-bench-30, einer Auswahl von 30 Kaggle-Wettbewerben mit unterschiedlicher Komplexität.

Leistungsmetriken:
- 24 Stunden: AIRA2 erreicht einen mittleren Percentile Rank von 71,8 % (verglichen mit dem vorherigen Bestwert von 69,9 % durch MARS+).
- 72 Stunden: Die Leistung steigt kontinuierlich auf 76,0 %, was zeigt, dass das System mit mehr Rechenleistung weiter lernt, ohne an Qualität zu verlieren.
Vergleich mit Baselines: AIRA2 übertrifft alle aktuellen State-of-the-Art-Agenten (wie MARS, FM-Agent 2.0, MLEvolve) sowohl in der Endleistung als auch in der Effizienz pro GPU-Stunde.
Ablationsstudien (Bedeutung der Komponenten):
- Ohne ReAct-Agenten: Der Performance-Verlust beträgt bei 3 Stunden ca. 5,5 Prozentpunkte. ReAct-Agenten wirken als Effizienz-Multiplikator, besonders bei knappen Zeitbudgets.
- Ohne HCE (Hidden Consistent Evaluation): Die Leistung stagniert oder verschlechtert sich nach 24 Stunden. Dies bestätigt, dass das vorher beobachtete „Overfitting" in der Literatur primär durch Evaluierungsrauschen und inkonsistente Splits verursacht wurde, nicht durch echtes Daten-Memorieren.
- Einzelne GPU vs. 8 GPUs: Ein reiner Parallelismus ohne evolutionären Austausch (Best-of-K) erreicht schnell ein Plateau auf dem Niveau eines einzelnen GPU-Agenten. Erst die Kombination aus Parallelismus und evolutionärer Selektion ermöglicht eine echte Leistungssteigerung.
Fallstudien: Auf komplexen Aufgaben wie „champs-scalar-coupling" (Vorhersage molekularer Eigenschaften) zeigte AIRA2 „Eureka-Momente", indem es unterfitting-Modelle erkannte und durch längeres Training und Skalierung verbesserte, während andere Agenten scheiterten.

4. Signifikanz und Beitrag

Dieses Paper leistet einen wesentlichen Beitrag zur Entwicklung autonomer KI-Forschungssysteme:

Architektonische Validierung: Es beweist, dass die Kombination aus massiv paralleler Ausführung, robuster Evaluierung und dynamischen Agenten-Operatoren notwendig ist, um die Grenzen aktueller Forschungsagenten zu überwinden.
Entlarvung von Overfitting: Die Studie zeigt, dass die in früheren Arbeiten berichtete Leistungsverschlechterung bei langen Suchhorizonten oft auf methodische Mängel in der Evaluierung (Rauschen, inkonsistente Splits) zurückzuführen war, nicht auf inhärente Grenzen der KI-Modelle selbst.
Skalierbarkeit: AIRA2 demonstriert, dass KI-Agenten nicht nur für kurze Aufgaben geeignet sind, sondern durch sorgfältiges Systemdesign (HCE, Asynchronität) für langfristige, offene wissenschaftliche Entdeckungen skaliert werden können.
Zukunftsperspektive: Die Arbeit markiert einen Übergang von fragilen, wettbewerbsorientierten Skripten hin zu autonomen Systemen, die echte, generalisierbare wissenschaftliche Erkenntnisse in offenen Designräumen generieren können.

Zusammenfassend stellt AIRA2 einen neuen State-of-the-Art dar, der zeigt, dass die Lösung fundamentaler ingenieurtechnischer Engpässe (Durchsatz, Stabilität, Flexibilität) entscheidend ist, um KI-Agenten über das Niveau menschlicher Experten in komplexen Forschungsdomänen hinauszuführen.