ARC-AGI-2 Technical Report

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie ein KI-System lernt, wie ein Mensch zu denken

Stell dir vor, du bekommst ein Puzzle. Du siehst nur zwei oder drei Beispiele: „Hier ist das Bild vor dem Zauber, und hier ist das Bild danach." Deine Aufgabe ist es, die unsichtbare Regel zu erraten, die den Zauber bewirkt, und sie dann auf ein völlig neues Bild anzuwenden.

Das ist das ARC-AGI (Abstraction and Reasoning Corpus). Es ist wie ein IQ-Test für künstliche Intelligenz. Die meisten KI-Modelle sind wie Schüler, die nur auswendig gelernt haben: Sie erkennen Muster, aber wenn das Muster sich leicht ändert, scheitern sie. Sie können nicht denken.

Dieser Bericht beschreibt, wie ein Team (Wallyson, Mekhron und Co.) eine KI gebaut hat, die endlich anfängt, wirklich zu verstehen. Hier ist, wie sie es gemacht haben, in vier einfachen Schritten:

1. Der Übersetzer: Vom Bild zum Text (Die Kodierung)

Die KI ist eigentlich ein Sprachmodell (wie ein sehr schlauer Chatbot). Sie versteht keine Bilder, sondern nur Wörter.

Das Problem: Wenn man ein 10x10-Bild einfach in Wörter verwandelt, wird der Text riesig und die KI verliert den Faden.
Die Lösung: Das Team hat eine eigene „Sprache" erfunden. Statt jedes Pixel einzeln zu beschreiben, haben sie das Bild in eine sehr kurze, effiziente Zeichenkette übersetzt (nur 125 verschiedene „Wörter").
Die Analogie: Stell dir vor, statt jedes Pixel eines Gemäldes zu beschreiben („Rot, Blau, Grün..."), sagst du einfach: „Ein rotes Haus mit blauem Dach." Die KI kann so viel mehr auf einmal „lesen", ohne den Faden zu verlieren.

2. Der Trainer: Lernen durch Verwirrung (Daten-Augmentierung)

Normalerweise lernt eine KI, indem sie tausende Beispiele sieht. Aber beim ARC-Test gibt es nur wenige. Wie lernt man da?

Die Idee: Man gibt der KI das gleiche Puzzle, aber in verschiedenen „Verkleidungen".
Die Methoden:
- Spiegelungen und Drehungen: Das Team dreht und spiegelt die Bilder. Die KI lernt: „Oh, die Regel gilt auch, wenn das Haus auf dem Kopf steht!"
- Das „Schlangen"-Prinzip: Normalerweise liest man ein Bild Zeile für Zeile. Das Team hat der KI auch beigebracht, das Bild wie eine Schlange zu lesen (erst rechts, dann links, dann rechts...).
- Die Analogie: Stell dir vor, du lernst, einen Ball zu fangen. Wenn du das nur mit der rechten Hand übst, fällt es dir schwer, wenn du die linke Hand benutzt. Aber wenn du mit beiden Händen, im Regen und im Wind übst, lernst du das Prinzip des Fangens, nicht nur die Bewegung. Die KI lernt so die Regel, nicht nur das Bild.

3. Der „Lern-Schub" vor dem Test (Test-Time Training)

Das ist der coolste Teil. Normalerweise wird eine KI trainiert und dann „eingefroren". Sie darf sich beim Test nicht mehr ändern.

Das Problem: Jede ARC-Aufgabe ist ein neues Rätsel. Die KI kennt die spezifische Regel dieses einen Rätsels noch nicht.
Die Lösung: Bevor die KI die Antwort gibt, bekommt sie einen winzigen, schnellen „Lern-Schub" direkt am Test. Sie schaut sich die wenigen Beispiele des aktuellen Rätsels an und passt sich für genau dieses eine Problem kurzfristig an.
Die Analogie: Stell dir vor, du musst einen neuen Schlüssel in ein Schloss stecken. Bevor du drehst, schaust du dir kurz das Schloss an, fühlst den Widerstand und justierst deine Handhaltung millimetergenau. Die KI macht genau das: Sie „justiert" ihr Gehirn für den spezifischen Test, bevor sie antwortet.

4. Der Richter: Mehrere Perspektiven (Symmetrie-Scoring)

Die KI generiert oft viele mögliche Antworten. Welche ist die richtige?

Das Problem: Die KI könnte raten.
Die Lösung: Das Team nimmt jede mögliche Antwort und dreht sie, spiegelt sie und betrachtet sie aus allen Winkeln.
Die Analogie: Stell dir vor, du hast eine Lösung für ein Rätsel. Ein guter Richter würde sagen: „Ist diese Lösung auch richtig, wenn ich das Rätsel umdrehen? Wenn ich es spiegele?" Wenn die Antwort in allen Perspektiven logisch bleibt, ist sie wahrscheinlich die richtige. Wenn sie nur in einer Perspektive funktioniert, ist es nur ein Zufall. Die KI nutzt diese „Mehr-Perspektiven-Prüfung", um die beste Antwort auszuwählen.

Das Ergebnis: Ein großer Sprung nach vorne

Durch diese Kombination aus:

Effizienter Übersetzung,
Lernen durch Verwirrung (Augmentierung),
Kurzfristiger Anpassung vor dem Test (TTT) und
Strenger Prüfung aus allen Winkeln (Symmetrie),

hat das Team ein System gebaut, das deutlich besser ist als alles, was es vorher gab. Es erreicht Ergebnisse, die sich menschlichem Denken annähern.

Zusammenfassend:
Sie haben keine riesige KI gebaut, die alles auswendig lernt. Stattdessen haben sie eine KI gebaut, die flexibel ist. Sie lernt, Regeln zu erkennen, statt nur Bilder zu kopieren. Sie ist wie ein Detektiv, der nicht nur die Tatorte kennt, sondern versteht, wie Verbrechen funktionieren – und das sogar, wenn er nur ein paar winzige Hinweise hat.

Das ist der Weg zu einer echten „Allgemeinen Künstlichen Intelligenz" (AGI), die Probleme lösen kann, die sie noch nie gesehen hat.

ARC-AGI-2 Technical Report

Das große Rätsel: Wie ein KI-System lernt, wie ein Mensch zu denken

1. Der Übersetzer: Vom Bild zum Text (Die Kodierung)

2. Der Trainer: Lernen durch Verwirrung (Daten-Augmentierung)

3. Der „Lern-Schub" vor dem Test (Test-Time Training)

4. Der Richter: Mehrere Perspektiven (Symmetrie-Scoring)

Das Ergebnis: Ein großer Sprung nach vorne

1. Problemstellung und Kontext

2. Methodik und Architektur

A. Datenkodierung und Tokenisierung

B. Modellarchitektur

C. Datenaugmentierung und Vorwissen (Priors)

D. Trainingsstrategie (Offline)

E. Inferenz-Pipeline (Online)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

ARC-AGI-2 Technical Report

Das große Rätsel: Wie ein KI-System lernt, wie ein Mensch zu denken

1. Der Übersetzer: Vom Bild zum Text (Die Kodierung)

2. Der Trainer: Lernen durch Verwirrung (Daten-Augmentierung)

3. Der „Lern-Schub" vor dem Test (Test-Time Training)

4. Der Richter: Mehrere Perspektiven (Symmetrie-Scoring)

Das Ergebnis: Ein großer Sprung nach vorne

1. Problemstellung und Kontext

2. Methodik und Architektur

A. Datenkodierung und Tokenisierung

B. Modellarchitektur

C. Datenaugmentierung und Vorwissen (Priors)

D. Trainingsstrategie (Offline)

E. Inferenz-Pipeline (Online)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance