ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Each language version is independently generated for its own context, not a direct translation.

ARC-AGI-3: Der neue „Führerschein" für echte Intelligenz

Stell dir vor, du möchtest testen, ob ein Roboter wirklich „intelligent" ist. Bisher haben wir ihn oft wie einen Schüler geprüft, der eine Prüfung macht, für die er stundenlang gelernt hat. Er kann die Antworten auswendig lernen, aber wenn er in einen völlig neuen Raum kommt, in dem die Regeln anders sind, ist er oft hilflos.

Das ARC-AGI-3 ist ein neues Experiment, das genau das ändern soll. Es ist kein Test von Wissen, sondern ein Test von Wendigkeit und Neugier.

1. Das alte Spiel vs. das neue Spiel

Die alten Tests (ARC-AGI-1 & 2): Stell dir vor, du bekommst ein Rätsel mit zwei Bildern. Das erste Bild zeigt eine rote Kugel, die zweite eine blaue Kugel. Du musst erraten, welche Regel das Bild verändert hat. Das ist wie ein Puzzle, das man auf einem Tisch löst. Man sitzt still da und denkt nach.
Das neue Spiel (ARC-AGI-3): Jetzt stell dir vor, du betrittst ein dunkles, unbekanntes Spielzimmer. Niemand sagt dir, was das Ziel ist. Du musst erst mal herumtappen, die Wände berühren, herausfinden, ob du fallen kannst, ob es Fallen gibt und was du tun musst, um zu gewinnen. Du musst das Ziel selbst erfinden, während du das Zimmer erkundest.

Das ist der Kern von ARC-AGI-3: Ein Agent muss in einer interaktiven Welt agieren, ohne dass ihm jemand sagt, was er tun soll.

2. Die vier Superkräfte, die getestet werden

Um in diesem neuen Spiel zu bestehen, muss ein KI-System vier Dinge können, die wir Menschen oft automatisch tun:

Erkundung (Exploration): Wie ein Kind, das ein neues Spielzeug ausprobiert. „Was passiert, wenn ich hier drücke?" Der Agent muss aktiv Informationen sammeln, statt sie nur zu empfangen.
Modellbildung (Modeling): Der Agent muss sich ein inneres Bild von der Welt machen. „Aha, wenn ich gegen die Wand laufe, pralle ich ab. Wenn ich rot berühre, wird es grün." Er baut eine Landkarte im Kopf auf.
Zielsetzung (Goal-Setting): Das ist der schwierigste Teil. Niemand sagt: „Gewinne!" Der Agent muss selbst merken: „Oh, wenn ich alle Punkte sammle, passiert etwas Gutes. Das ist mein Ziel." Er muss sich seinen eigenen Antrieb geben.
Planung (Planning): Jetzt muss er einen Weg finden. „Ich gehe erst hierhin, dann springe ich, um die Falle zu umgehen." Und wenn etwas schiefgeht, muss er schnell umplanen.

3. Warum ist das so schwer für KI?

Aktuelle KI-Systeme (wie die großen Sprachmodelle, die du vielleicht kennst) sind wie Genies, die nur in Bibliotheken leben können. Sie haben alles gelesen, was es über Schach oder Mathematik gibt. Wenn du sie aber in ein Spielzimmer wirfst, das noch nie jemand gebaut hat, sind sie oft ratlos.

Das Problem: Sie versuchen, Muster aus ihrer Vergangenheit zu erkennen. Aber in ARC-AGI-3 gibt es keine Muster aus der Vergangenheit. Es ist alles neu.
Die Statistik: Im März 2026 haben die besten KI-Systeme auf diesem Test weniger als 1% erreicht. Menschen lösen 100% der Aufgaben. Das zeigt: Wir sind immer noch viel besser darin, uns in völlig neuen Situationen zurechtzufinden.

4. Wie wird gemessen? (Der „Effizienz-Turbo")

Früher zählte man nur: „Hat die KI das Rätsel gelöst?"
Bei ARC-AGI-3 zählt, wie effizient sie es gelöst hat.

Stell dir vor, du musst einen Schatz in einem Labyrinth finden.

KI A läuft 1000 Schritte, stößt gegen jede Wand und findet den Schatz am Ende.
KI B läuft 10 Schritte, erkennt schnell die Muster und findet den Schatz.

Beide haben gewonnen, aber KI B ist intelligenter, weil sie weniger Energie und Zeit verschwendet hat.
Das Papier misst genau das: Wie viele Schritte braucht die KI im Vergleich zu einem Menschen? Wenn ein Mensch 10 Schritte braucht und die KI 100, ist die KI nicht besonders schlau, sondern eher wie ein blindes Huhn, das zufällig das Ziel trifft.

5. Warum ist das wichtig?

Bisher haben wir KI trainiert, Aufgaben zu lösen, für die sie programmiert wurden. Aber die echte Welt ist chaotisch.

Ein Arzt muss nicht nur medizinisches Wissen haben, sondern auch verstehen, wie ein Patient reagiert, wenn er Angst hat.
Ein Roboter muss nicht nur wissen, wie er einen Schraubenschlüssel hält, sondern auch, was passiert, wenn die Schraube feststeckt.

ARC-AGI-3 ist wie ein Flugzeug-Flugtraining für KI. Es simuliert Situationen, in denen die Landebahn nicht da ist und der Pilot (die KI) selbst entscheiden muss, wie er landet.

Fazit

ARC-AGI-3 ist ein neuer, fairer Test. Er fragt nicht: „Was weißt du?" (Denn das kann man auswendig lernen). Er fragt: „Wie schnell und clever kannst du lernen, wenn du nichts weißt?"

Bislang sind wir Menschen darin unschlagbar. Die KI ist noch wie ein sehr gut ausgebildeter Schüler, der aber Angst hat, wenn der Lehrer die Hausaufgaben ändert. Das Ziel von ARC-AGI-3 ist es, eine KI zu bauen, die sich wie ein neugieriges Kind verhält: Sie geht in einen neuen Raum, spielt herum, lernt die Regeln und gewinnt – ohne dass jemand ihr sagt, wie es geht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Paper stellt ARC-AGI-3 vor, ein interaktives Benchmark-System zur Bewertung von agenter Intelligenz (agentic intelligence). Während die Vorgänger ARC-AGI-1 und 2 statische Aufgaben (Grid-basierte Mustererkennung) behandelten, adressiert ARC-AGI-3 die Grenzen aktueller KI-Systeme bei der Bewältigung von „unbekannten Unbekannten" (unknown unknowns).

Das Kernproblem: Aktuelle Frontier-Modelle (Large Reasoning Models, LRMs) sind oft an domänenspezifisches Wissen oder Trainingsdaten gebunden. Sie scheitern daran, in völlig neuen Umgebungen autonom Ziele zu inferieren, interne Modelle der Umgebungsdynamik zu bilden und effiziente Aktionssequenzen zu planen, ohne explizite Anweisungen oder externe Werkzeuge.
Herausforderung: Bestehende Benchmarks sind zunehmend anfällig für Overfitting und „Memorization Shortcuts", da Modelle durch massive Datensammlungen oder synthetische Generierung die Testverteilung bereits kennen. ARC-AGI-3 soll diese Lücke schließen, indem es reine Adaptionsfähigkeit und effizientes Lernen in Echtzeit-Umgebungen testet.

2. Methodik und Benchmark-Design

2.1 Umgebungsstruktur

ARC-AGI-3 besteht aus einer Sammlung von interaktiven, rundenbasierten Umgebungen (Turn-based Environments).

Format: Jede Umgebung ist in Level unterteilt. Der Agent sieht einen 64x64 Grid mit 16 Farben pro Zelle.
Aktionen: Der Aktionsraum ist bewusst klein gehalten (z. B. 5 Basisaktionen, Undo, Zellenauswahl), um die Komplexität auf die Logik der Umgebung zu verlagern, nicht auf die Steuerung.
Ziel: Der Agent muss ohne explizite Instruktionen die Mechanik der Umgebung, die Gewinnbedingungen (Win Conditions) und die Ziele autonom ableiten.
Design-Prinzipien:
- Core Knowledge Priors: Nur elementare Konzepte wie Objekthaftigkeit, Geometrie, Topologie und intuitive Physik. Keine Sprache, keine kulturellen Symbole.
- Neuartigkeit: Jede Umgebung ist einzigartig und unterscheidet sich signifikant von existierenden Spielen und vorherigen Benchmarks.
- Menschliche Lösbarkeit: Alle Umgebungen sind so kalibriert, dass untrainierte Menschen sie in ca. 20 Minuten lösen können (100% Lösbarkeitsrate bei Menschen).

2.2 Intelligenz als Effizienz

Im Gegensatz zu reinen Erfolgsquoten (Accuracy) definiert ARC-AGI-3 Intelligenz primär als Effizienz.

Metrik: Die Anzahl der Aktionen (Züge), die benötigt werden, um eine neue Umgebung beim ersten Kontakt zu lösen.
Bewertung: Ein System, das durch „Brute-Force" viele Aktionen benötigt, wird als weniger intelligent bewertet als eines, das schnell ein Modell bildet und effizient plant.

2.3 Scoring-System: RHAE (Relative Human Action Efficiency)

Die Bewertung erfolgt über die Metrik RHAE („Ray"), die auf menschlichen Baselines basiert:

Menschliche Baseline: Definiert als die Anzahl der Aktionen des zweitbesten menschlichen Teilnehmers (um Ausreißer zu eliminieren, aber eine hohe menschliche Leistung als Referenz zu behalten).
Formel: Für ein Level $l$ $l$ mit menschlicher Baseline $h_{l,e}$ $h_{l, e}$ und KI-Aktionen $a_{l,e}$ $a_{l, e}$ ist der Score:
$S_{l,e} = \min\left(1.0, \frac{h_{l,e}}{a_{l,e}}\right)^2$
- Quadratische Bestrafung: Ineffiziente Lösungen werden stark bestraft (Power-Law). Ein Faktor von 10x mehr Aktionen führt nur zu 1% Credit.
- Gewichtung: Spätere Level (schwieriger) haben ein höheres Gewicht als frühe Tutorial-Level.
- Capping: Der Score pro Level ist auf 100% (menschliche Baseline) begrenzt, um Exploits zu verhindern.

2.4 Datensatz und Validierung

Aufteilung:
- Public Demo (25 Umgebungen): Dient als Demonstration und „Front Door", ist aber nicht repräsentativ für die Schwierigkeit der privaten Sets.
- Semi-Private (55 Umgebungen): Für Tests über externe APIs.
- Fully Private (55 Umgebungen): Streng gehütet für den offiziellen Wettbewerb.
Validierung: Umfassende automatisierte Tests (Random Play, Graph-State-Space-Analyse) stellen sicher, dass Umgebungen nicht durch Zufall lösbar sind (Win-Wahrscheinlichkeit für Random-Policy < 1/10.000) und keine Bugs enthalten.

3. Schlüsselergebnisse

3.1 Menschliche Leistung

100% Lösbarkeit: Alle Umgebungen wurden von mindestens zwei untrainierten Teilnehmern erfolgreich gelöst.
Effizienz: Die mediane Lösungszeit liegt bei ca. 8 Minuten pro Versuch. Die menschliche Baseline (zweitbeste Leistung) dient als strenger Maßstab für die KI.

3.2 KI-Leistung (Stand März 2026)

Die Ergebnisse zeigen eine massive Kluft zwischen menschlicher und künstlicher Intelligenz:

Frontier-Modelle: Führende Modelle (Gemini 3.1 Pro, GPT 5.4, Opus 4.6, Grok-4.20) erreichen Scores von unter 1% (zwischen 0,00% und 0,37%).
Vergleich: Während Menschen 100% der Umgebungen lösen, liegen die besten KI-Systeme weit unter der Schwelle, auch nur ein einziges Level effizient zu meistern.
Harnass-Abhängigkeit: Tests zeigten, dass speziell angepasste „Harnasses" (externe Werkzeuge/Strategien) die Leistung auf bekannten Umgebungen drastisch steigern können, aber diese Verbesserungen nicht auf neue, unbekannte Umgebungen übertragbar sind. Dies unterstreicht das Fehlen echter Generalisierung.

4. Wichtige Beiträge des Papers

Paradigmenwechsel zu Agentischer Intelligenz: Der Übergang von statischen Input/Output-Paaren zu interaktiven, turn-basierten Umgebungen, die Exploration, Zielinferenz und Planung erfordern.
Effizienz-basierte Bewertung: Einführung einer Metrik, die nicht nur den Erfolg, sondern die Ressourceneffizienz (Anzahl der Aktionen) im Vergleich zu menschlichen Baselines misst.
Robustheit gegen Overfitting: Durch die strikte Trennung von Public und Private Sets, die Forderung nach Out-of-Distribution (OOD) Design und die Vermeidung von Sprach-/Kultur-Clues wird verhindert, dass Modelle durch bloßes Auswendiglernen oder synthetisches Training „cheaten".
Human Calibration: Ein rigoroser Prozess mit über 400 Testteilnehmern, um sicherzustellen, dass die Aufgaben für Menschen lösbar, aber für KI herausfordernd sind.
Offene Wettbewerb-Struktur: Die Einführung des ARC Prize 2026 mit zwei Tracks (AGI-2 und AGI-3) und einem Preispool von 2 Mio. USD, um die Forschung voranzutreiben.

5. Bedeutung und Fazit

ARC-AGI-3 markiert einen kritischen Wendepunkt in der AGI-Forschung (Artificial General Intelligence).

Diagnose der aktuellen KI: Das Benchmark zeigt, dass aktuelle LRMs zwar in verifizierbaren Domänen mit viel Wissen (z. B. Programmieren) gut abschneiden, aber fundamental scheitern, wenn sie in unbekannten Umgebungen ohne Vorwissen autonom handeln müssen.
Zukunftsweisend: Es etabliert einen neuen Standard, der nicht nur „Was kann die KI?" (Wissensabfrage), sondern „Wie effizient lernt die KI Neues?" (Adaptionsfähigkeit) misst.
Forschungsrichtung: Das Paper argumentiert, dass der Weg zu echter AGI nicht durch bloßes Skalieren von Trainingsdaten (Pretraining Scaling) oder Test-Time-Compute allein geht, sondern durch die Entwicklung von Systemen, die echte kausale Modelle der Welt bilden und effizient explorieren können.

Zusammenfassend ist ARC-AGI-3 das erste ungesättigte Benchmark für generalistische agentische Intelligenz, das die Lücke zwischen menschlicher und künstlicher Intelligenz präzise quantifiziert und als Plattform dient, um die nächsten Durchbrüche in der adaptiven KI zu messen.