AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Die Arbeit stellt AReaL vor, ein vollständig asynchrones Reinforcement-Learning-System für große Sprachmodelle, das durch die Entkopplung von Generierung und Training sowie spezielle Optimierungen die GPU-Auslastung und Trainingsgeschwindigkeit im Vergleich zu synchronen Systemen erheblich steigert, ohne dabei die Leistung bei logischen Schlussfolgerungsaufgaben zu beeinträchtigen.

Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Die Geschichte vom überarbeiteten Kochteam

Stell dir vor, du leitest ein riesiges Restaurant, in dem die Köche (die KI-Modelle) lernen sollen, die besten Gerichte der Welt zu kochen. Das Ziel ist es, dass die Köche durch viel Übung (Reinforcement Learning) immer besser werden.

Bisher funktionierte das Training in den meisten Restaurants so (das synchronisierte System):

  1. Der Taktstock: Ein Chef klopft auf den Teller. Alle Köche beginnen gleichzeitig, ein Gericht zuzubereiten.
  2. Das Problem: Ein Koch braucht 2 Minuten für eine Suppe, ein anderer 20 Minuten für einen komplexen Kuchen.
  3. Die Wartezeit: Der Chef wartet, bis jeder Koch fertig ist, bevor er das nächste Gericht anweist. Die Köche, die schnell fertig waren, stehen nur herum und starren auf ihre Töpfe, während sie auf den langsamen Kuchen-Koch warten.
  4. Das Ergebnis: Die teuren Herde (die GPUs) werden nur zur Hälfte genutzt. Es ist eine enorme Verschwendung von Zeit und Energie.

Die Lösung: AREAL – Das „Fließband-Prinzip"

Das Paper stellt AREAL vor. Das ist wie eine Revolution im Restaurant, bei der die starre Warteschlange abgeschafft wird.

1. Trennung von Kochen und Bewerten (Asynchronität)
Statt dass alle gleichzeitig warten, gibt es jetzt zwei Teams, die unabhängig voneinander arbeiten:

  • Die Köche (Rollout-Worker): Sie kochen ununterbrochen. Sobald ein Gericht fertig ist, legen sie es auf das Band. Sie warten auf niemanden.
  • Die Tester (Trainer-Worker): Sie nehmen sich die fertigen Gerichte vom Band, probieren sie, bewerten sie und geben sofort Feedback an die Köche, wie sie das nächste Mal besser kochen können.

Der Vorteil: Niemand steht untätig herum. Die Herde laufen zu 100 % heiß. Das ist wie ein Fließband in einer Fabrik, bei dem das Produkt nie stillsteht.

2. Das Problem mit dem „alten Wissen" (Daten-Staleness)
Da die Köche so schnell kochen, passiert Folgendes:

  • Koch A beginnt mit Rezept V1.
  • Während Koch A noch kocht, haben die Tester das Rezept schon verbessert (V2, V3, V4).
  • Koch A liefert ein Gericht ab, das auf dem alten Rezept V1 basiert, aber die Tester bewerten es mit dem Wissen von V4.

In der alten Welt wäre das ein Albtraum gewesen. Die KI würde verwirrt werden, weil sie mit veralteten Daten trainiert wird.

3. Der neue Trick: Der „Gedächtnis-Retter" (Decoupled PPO)
AREAL hat einen genialen Trick entwickelt, um dieses Chaos zu bändigen. Stell dir vor, die Tester haben ein spezielles Notizbuch. Wenn sie ein altes Gericht (von V1) bewerten, sagen sie nicht: „Das ist falsch!", sondern: „Okay, du hast das mit V1 gemacht, aber wir wissen, wie V4 aussieht. Lass uns den Unterschied berechnen und dich trotzdem loben oder korrigieren."

Das System lernt also, auch mit „alten" Daten zu arbeiten, ohne dass die Köche verwirrt werden. Es ist wie ein Sporttrainer, der einem Athleten sagt: „Du hast den Lauf mit der alten Technik gemacht, aber wir wissen, wie die neue Technik aussieht. Wir passen die Bewertung an, damit du trotzdem lernst."

4. Der „Not-Aus-Schalter" (Interruptible Generation)
Manchmal ist ein Gericht (ein Text) so lang, dass es ewig dauert. In alten Systemen hätte das ganze Restaurant gewartet.
AREAL hat einen „Not-Aus-Schalter". Wenn die Tester ein neues, besseres Rezept haben, können sie den Koch mitten im Prozess unterbrechen, ihm das neue Rezept geben und er setzt den Rest des Gerichts mit dem neuen Wissen fort. Das spart unglaublich viel Zeit.

Was bringt das alles?

Die Autoren haben dieses System getestet (mit Mathe-Rätseln und Programmieraufgaben) und folgende Ergebnisse erzielt:

  • Geschwindigkeit: AREAL ist bis zu 2,77-mal schneller als die alten Systeme. Das ist, als würde man von einem Fahrrad auf ein Hochgeschwindigkeitszug umsteigen.
  • Qualität: Trotz der Geschwindigkeit und des „Chaos" mit den alten Daten werden die Köche am Ende sogar noch besser als in den langsamen Systemen.
  • Skalierbarkeit: Man kann das System auf hunderte von GPUs ausdehnen, und es wird immer schneller, ohne dass es ins Stocken gerät.

Zusammenfassung in einem Satz

AREAL ist ein intelligenter Trainings-Manager für KI, der verhindert, dass teure Computer warten müssen, indem er das „Kochen" (Generieren von Texten) und das „Lernen" (Trainieren des Modells) entkoppelt und clever mit veralteten Daten umgeht – ähnlich wie ein effizientes Fließband, das niemals stillsteht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →