AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

Die Geschichte vom überarbeiteten Kochteam

Stell dir vor, du leitest ein riesiges Restaurant, in dem die Köche (die KI-Modelle) lernen sollen, die besten Gerichte der Welt zu kochen. Das Ziel ist es, dass die Köche durch viel Übung (Reinforcement Learning) immer besser werden.

Bisher funktionierte das Training in den meisten Restaurants so (das synchronisierte System):

Der Taktstock: Ein Chef klopft auf den Teller. Alle Köche beginnen gleichzeitig, ein Gericht zuzubereiten.
Das Problem: Ein Koch braucht 2 Minuten für eine Suppe, ein anderer 20 Minuten für einen komplexen Kuchen.
Die Wartezeit: Der Chef wartet, bis jeder Koch fertig ist, bevor er das nächste Gericht anweist. Die Köche, die schnell fertig waren, stehen nur herum und starren auf ihre Töpfe, während sie auf den langsamen Kuchen-Koch warten.
Das Ergebnis: Die teuren Herde (die GPUs) werden nur zur Hälfte genutzt. Es ist eine enorme Verschwendung von Zeit und Energie.

Die Lösung: AREAL – Das „Fließband-Prinzip"

Das Paper stellt AREAL vor. Das ist wie eine Revolution im Restaurant, bei der die starre Warteschlange abgeschafft wird.

1. Trennung von Kochen und Bewerten (Asynchronität)
Statt dass alle gleichzeitig warten, gibt es jetzt zwei Teams, die unabhängig voneinander arbeiten:

Die Köche (Rollout-Worker): Sie kochen ununterbrochen. Sobald ein Gericht fertig ist, legen sie es auf das Band. Sie warten auf niemanden.
Die Tester (Trainer-Worker): Sie nehmen sich die fertigen Gerichte vom Band, probieren sie, bewerten sie und geben sofort Feedback an die Köche, wie sie das nächste Mal besser kochen können.

Der Vorteil: Niemand steht untätig herum. Die Herde laufen zu 100 % heiß. Das ist wie ein Fließband in einer Fabrik, bei dem das Produkt nie stillsteht.

2. Das Problem mit dem „alten Wissen" (Daten-Staleness)
Da die Köche so schnell kochen, passiert Folgendes:

Koch A beginnt mit Rezept V1.
Während Koch A noch kocht, haben die Tester das Rezept schon verbessert (V2, V3, V4).
Koch A liefert ein Gericht ab, das auf dem alten Rezept V1 basiert, aber die Tester bewerten es mit dem Wissen von V4.

In der alten Welt wäre das ein Albtraum gewesen. Die KI würde verwirrt werden, weil sie mit veralteten Daten trainiert wird.

3. Der neue Trick: Der „Gedächtnis-Retter" (Decoupled PPO)
AREAL hat einen genialen Trick entwickelt, um dieses Chaos zu bändigen. Stell dir vor, die Tester haben ein spezielles Notizbuch. Wenn sie ein altes Gericht (von V1) bewerten, sagen sie nicht: „Das ist falsch!", sondern: „Okay, du hast das mit V1 gemacht, aber wir wissen, wie V4 aussieht. Lass uns den Unterschied berechnen und dich trotzdem loben oder korrigieren."

Das System lernt also, auch mit „alten" Daten zu arbeiten, ohne dass die Köche verwirrt werden. Es ist wie ein Sporttrainer, der einem Athleten sagt: „Du hast den Lauf mit der alten Technik gemacht, aber wir wissen, wie die neue Technik aussieht. Wir passen die Bewertung an, damit du trotzdem lernst."

4. Der „Not-Aus-Schalter" (Interruptible Generation)
Manchmal ist ein Gericht (ein Text) so lang, dass es ewig dauert. In alten Systemen hätte das ganze Restaurant gewartet.
AREAL hat einen „Not-Aus-Schalter". Wenn die Tester ein neues, besseres Rezept haben, können sie den Koch mitten im Prozess unterbrechen, ihm das neue Rezept geben und er setzt den Rest des Gerichts mit dem neuen Wissen fort. Das spart unglaublich viel Zeit.

Was bringt das alles?

Die Autoren haben dieses System getestet (mit Mathe-Rätseln und Programmieraufgaben) und folgende Ergebnisse erzielt:

Geschwindigkeit: AREAL ist bis zu 2,77-mal schneller als die alten Systeme. Das ist, als würde man von einem Fahrrad auf ein Hochgeschwindigkeitszug umsteigen.
Qualität: Trotz der Geschwindigkeit und des „Chaos" mit den alten Daten werden die Köche am Ende sogar noch besser als in den langsamen Systemen.
Skalierbarkeit: Man kann das System auf hunderte von GPUs ausdehnen, und es wird immer schneller, ohne dass es ins Stocken gerät.

Zusammenfassung in einem Satz

AREAL ist ein intelligenter Trainings-Manager für KI, der verhindert, dass teure Computer warten müssen, indem er das „Kochen" (Generieren von Texten) und das „Lernen" (Trainieren des Modells) entkoppelt und clever mit veralteten Daten umgeht – ähnlich wie ein effizientes Fließband, das niemals stillsteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Training von Large Reasoning Models (LRMs) mittels Reinforcement Learning (RL) erfordert massive Parallelisierung, um große Batches an Rollouts (Generierungen) für eine effektive Exploration zu erhalten. Bestehende große RL-Systeme arbeiten jedoch meist synchron: Sie alternieren strikt zwischen Generierungs- und Trainingsphasen.

Ineffizienz: In einem synchronen System muss die Generierung warten, bis das längste Output-Element eines Batches abgeschlossen ist, bevor das Training beginnen kann. Da LRMs stark variierende Ausgabelängen haben (oft Zehntausende von Tokens), führt dies zu erheblicher GPU-Unterauslastung (Idle-Zeiten).
Skalierbarkeitsproblem: Synchrone Systeme verteilen die Generierung auf alle Geräte, was die Batch-Größe pro GPU verringert und den Prozess in einen speicher-IO-begrenzten Modus verschiebt, der die Skalierung behindert.
Daten-Veraltetheit (Staleness): RL-Algorithmen wie PPO benötigen oft „On-Policy"-Daten (vom aktuellsten Modell). Asynchrone Ansätze, die ältere Daten nutzen, leiden unter einer Verteilungslücke zwischen Trainingsdaten und dem aktuellen Modell, was die Leistung verschlechtern kann.

2. Methodik: Das AREAL-System

AREAL ist ein vollständig asynchrones RL-System, das Generierung und Training vollständig entkoppelt, um die Hardware-Auslastung zu maximieren, ohne die Endleistung zu beeinträchtigen.

Systemarchitektur:

Entkoppelte Worker: Das System besteht aus Rollout-Workern (Generierung) und Trainer-Workern (Training), die auf separaten GPU-Clustern laufen.
Streaming-Generierung: Rollout-Worker generieren kontinuierlich neue Outputs, ohne auf das Training zu warten.
Unterbrechbare Generierung (Interruptible Rollout): Ein zentrales Feature ist die Fähigkeit, laufende Generierungen zu unterbrechen, sobald ein neues Modell-Update verfügbar ist. Die Worker laden die neuen Gewichte, verwerfen den alten KV-Cache und setzen die Generierung mit dem neuen Modell fort. Dies führt zu Trajektorien, die Segmente aus verschiedenen Modellversionen enthalten.
Replay Buffer & Reward Service: Generierte Trajektorien werden bewertet (z. B. durch Code-Tests oder mathematische Verifikation) und in einem Replay Buffer gespeichert. Trainer-Worker ziehen daraus Daten für das Training.

Algorithmische Innovationen:
Um die Herausforderungen der Asynchronität (insbesondere Daten-Veraltetheit und inkonsistente Policy-Versionen innerhalb einer Trajektorie) zu lösen, führt AREAL zwei Hauptänderungen ein:

Staleness-Aware Training: Ein Hyperparameter $\eta$ begrenzt die maximale Veraltetheit der Daten in einem Trainingsbatch. Der Rollout-Controller steuert die Generierungsrate dynamisch, um sicherzustellen, dass nicht zu viele alte Daten gesammelt werden.
Entkoppelter PPO-Zielwert (Decoupled PPO Objective):
- Herkömmliches PPO geht davon aus, dass alle Aktionen einer Trajektorie von derselben alten Policy ( $\pi_{old}$ ) stammen.
- AREAL nutzt eine entkoppelte Formulierung mit einer Verhaltens-Policy ( $\pi_{behav}$ , die die tatsächliche Generierung repräsentiert) und einer proximalen Policy ( $\pi_{prox}$ , ein jüngeres Referenzmodell).
- Der Zielwert wird so angepasst, dass das Modell innerhalb eines Vertrauensbereichs um die hochwertige $\pi_{prox}$ aktualisiert wird, auch wenn die Daten von $\pi_{behav}$ (die ältere Versionen enthalten kann) stammen. Dies stabilisiert das Training trotz hoher Daten-Veraltetheit.

System-Optimierungen:

Dynamisches Batching: Ein Algorithmus packt Sequenzen variabler Länge effizient in Micro-Batches, um GPU-Speicher optimal zu nutzen und Padding zu vermeiden.
Parallele Reward-Berechnung: Die Berechnung von Belohnungen (z. B. Code-Execution) erfolgt in separaten Threads, um die Generierung nicht zu blockieren.

3. Schlüsselergebnisse

Die Autoren evaluieren AREAL an mathematischen (AIME24, MATH) und Codierungs-Benchmarks (LiveCodeBench) mit Modellen von 1,5B bis 32B Parametern.

Trainingsgeschwindigkeit: AREAL erreicht im Vergleich zu synchronen State-of-the-Art-Systemen (wie verl) eine bis zu 2,77-fache Beschleunigung der Trainingszeit bei gleicher GPU-Anzahl.
Skalierbarkeit: Das System zeigt eine nahezu lineare Skalierungseffizienz bis zu 512 GPUs. Synchrones System scheitert oft bei längeren Kontexten (OOM-Fehler) oder skaliert schlecht.
Leistung: Trotz der Nutzung veralteter Daten und asynchroner Updates erreicht AREAL gleiche oder sogar bessere Endleistung (Pass@1 Accuracy) als die synchronen Baselines. Beispielsweise erreicht AREAL bei einem 1,5B-Modell auf AIME24 eine Genauigkeit von 42,2% in nur 14,8 Stunden, während das synchrone Pendant 41,0% in 41,0 Stunden benötigt.
Ablationsstudien: Die Studien zeigen, dass sowohl die Begrenzung der Veraltetheit ( $\eta$ ) als auch der entkoppelte PPO-Zielwert essenziell sind. Ohne den entkoppelten Zielwert führt hohe Veraltetheit zu einem Leistungsabfall; mit dem neuen Zielwert bleibt die Leistung stabil, selbst bei $\eta=8$ .

4. Bedeutung und Beitrag

AREAL adressiert einen kritischen Engpass im Training von Reasoning-Modellen: die systemische Ineffizienz durch synchrone Abläufe.

Paradigmenwechsel: Das Paper beweist, dass asynchrone RL-Systeme für LLMs nicht nur schneller sind, sondern auch stabil und effektiv trainieren können, wenn die Algorithmen (PPO) an die Systemarchitektur angepasst werden.
Ressourceneffizienz: Durch die vollständige Auslastung der GPUs (keine Wartezeiten) ermöglicht AREAL das Training großer Reasoning-Modelle mit deutlich weniger Rechenzeit und Kosten.
Open Source: Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und Weiterentwicklung asynchroner RL-Frameworks fördert.

Zusammenfassend stellt AREAL einen bedeutenden Schritt hin zu skalierbaren, effizienten und algorithmisch robusten Systemen für das Reinforcement Learning von Large Language Models dar, indem es die Lücke zwischen System-Design und Algorithmus schließt.

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Die Geschichte vom überarbeiteten Kochteam

Die Lösung: AREAL – Das „Fließband-Prinzip"

Was bringt das alles?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Das AREAL-System

3. Schlüsselergebnisse

4. Bedeutung und Beitrag

Mehr davon

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models