Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie leiten eine riesige Bibliothek, in der ein genialer Autor (das KI-Modell) lernt, bessere Geschichten zu schreiben. Um das zu tun, muss er zwei Dinge gleichzeitig tun:

Schreiben (Inferenz): Er nimmt eine Aufgabe, denkt nach und schreibt eine Antwort.
Korrigieren (Training): Ein strenger Lektor prüft die Antwort, gibt Feedback und der Autor passt seine Schreibweise an, um beim nächsten Mal besser zu sein.

Das Problem in der aktuellen Welt der KI ist wie folgt: Der Autor und der Lektor sitzen am selben Schreibtisch. Der Autor muss warten, bis er fertig geschrieben hat, bevor der Lektor überhaupt anfangen darf zu lesen. Und der Lektor muss warten, bis er fertig korrigiert hat, bevor der Autor den nächsten Satz schreiben darf. Sie arbeiten also nacheinander, nicht nebeneinander. Das ist sehr ineffizient, besonders wenn der Autor langsam schreibt oder der Lektor lange braucht.

Die Autoren dieses Papiers haben eine brillante Lösung gefunden, die sie „Periodische Asynchronie" nennen. Hier ist die einfache Erklärung, wie das funktioniert:

1. Die neue Arbeitsweise: Die „Produzenten-und-Konsumenten"-Kette

Stellen Sie sich vor, wir trennen den Schreibtisch auf.

Die Produzenten (Inferenz-Worker): Eine ganze Gruppe von schnellen Robotern (Inferenz-Server) sitzt in einem Raum. Sie bekommen Aufgaben (Prompts) und schreiben sofort die Antworten.
Der Konsument (Trainer): Der eigentliche Lektor (das Trainingssystem) sitzt in einem anderen Raum.
Das Band (Die Warteschlange): Dazwischen läuft ein Förderband.

Das alte System (Synchron):
Der Lektor ruft: „Ich bin bereit!" -> Der Roboter schreibt -> Der Roboter ruft: „Fertig!" -> Der Lektor korrigiert.
Ergebnis: Der Roboter steht oft nur herum und wartet, oder der Lektor wartet auf den Roboter. Viel Leerlauf.

Das neue System (Periodisch Asynchron):

Der Roboter-Teamchef holt sich einen ganzen Stapel Aufgaben.
Er verteilt sie sofort an alle Roboter.
Sobald ein Roboter eine Antwort fertig hat, legt er sie sofort auf das Förderband.
Der Lektor greift sich die fertigen Antworten, sobald sie da sind, und korrigiert sie sofort weiter, ohne auf die anderen zu warten.
Der Clou: Der Lektor korrigiert die Antworten in der Reihenfolge, in der sie eintreffen. Aber! Er wartet am Ende eines Zyklus kurz, bis alle Antworten des Stapels da sind, bevor er seine „neue Schreibweise" (die Gewichte des Modells) für den nächsten Zyklus festlegt.

2. Warum ist das sicher? (Das „On-Policy"-Geheimnis)

Normalerweise ist es riskant, Dinge asynchron zu machen. Wenn der Lektor eine Antwort korrigiert, die auf einer „alten" Version des Autors basiert, während der Autor schon eine neue Version gelernt hat, entsteht ein Chaos (man nennt das „Off-Policy"-Bias).

Die Autoren dieses Papiers haben einen Trick angewendet, der wie ein perfekter Taktgeber funktioniert:

Alle Roboter bekommen die exakt gleiche Version des Autors, bevor sie anfangen zu schreiben.
Der Lektor korrigiert zwar in unterschiedlicher Reihenfolge, aber er korrigiert immer basierend auf dieser einen, festen Version.
Erst wenn alle Antworten des Stapels korrigiert sind, wird die neue Version des Autors für den nächsten Zyklus freigegeben.

Die Analogie: Stellen Sie sich vor, alle Roboter schreiben mit demselben Stift. Der Lektor korrigiert die Blätter, die auf dem Tisch liegen. Er ändert den Stift erst, wenn alle Blätter dieses Stapels korrigiert sind. Das Ergebnis ist mathematisch exakt dasselbe, als wenn sie alle nacheinander gearbeitet hätten – nur viel schneller, weil niemand wartet.

3. Der „Geteilte Prompt"-Trick (Shared-Prompt Attention)

Oft bekommen die Roboter die gleiche Aufgabe (z. B. „Löse diese Matheaufgabe"), aber sie schreiben unterschiedliche Lösungen.

Alt: Jeder Roboter rechnet den ersten Teil (die Aufgabenstellung) jedes Mal neu aus. Das ist wie wenn 10 Schüler denselben Text am Anfang ihrer Hausaufgaben immer wieder neu abschreiben müssten, bevor sie die Lösung hinschreiben.
Neu: Die Autoren haben einen Mechanismus eingeführt, bei dem die Aufgabenstellung nur einmal berechnet wird und dann von allen 10 Lösungen gemeinsam genutzt wird.
Effekt: Das spart enorm viel Rechenzeit und Speicher, besonders wenn die Aufgabenstellung lang ist und die Lösungen kurz.

4. Das Ergebnis: Ein Turbo für die KI

In Tests auf speziellen Hardware-Plattformen (NPU) hat sich gezeigt:

Das neue System ist 3- bis 5-mal schneller als die bisherigen Standard-Systeme.
Die Qualität der KI bleibt exakt gleich (keine Fehler durch das Beschleunigen).
Man kann einfach mehr Roboter (Hardware) hinzufügen, und das System skaliert fast perfekt mit.

Zusammenfassung in einem Satz

Die Autoren haben die starre, nacheinander arbeitende KI-Entwicklung in einen fließenden, parallelen Fließbandprozess verwandelt, bei dem niemand wartet, aber alle trotzdem nach denselben strengen Regeln lernen – wie ein gut geöltes Team, das gleichzeitig schreibt, korrigiert und verbessert, ohne sich zu behindern.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning" auf Deutsch:

1. Problemstellung

Das Training von Large Language Models (LLMs) mittels Reinforcement Learning (RL), insbesondere mit on-policy Algorithmen wie GRPO (Group Relative Policy Optimization), stößt auf erhebliche Effizienzprobleme.

Synchroner Flaschenhals: In herkömmlichen Frameworks laufen Inferenz (Rollout-Generierung) und Training synchron auf denselben Geräten. Das Training muss warten, bis alle Inferenz-Aufgaben eines Batches abgeschlossen sind, bevor der Gradienten-Update-Schritt beginnt. Dies führt zu langen Wartezeiten und einer schlechten Auslastung der Hardware.
Ressourcen-Ineffizienz: Bestehende asynchrone Ansätze trennen zwar Inferenz und Training, führen jedoch oft zu einem Off-Policy-Bias (da das Training mit veralteten Daten erfolgt), was die theoretischen Garantien von on-policy Algorithmen wie GRPO verletzt.
Rechenredundanz: Bei GRPO werden für eine Eingabe (Prompt) mehrere Antworten generiert. In Standard-Implementierungen wird der Prompt für jede Antwort separat verarbeitet, was bei langen Prompts zu erheblicher redundanter Berechnung und Speicherverbrauch führt.

2. Methodik

Die Autoren schlagen einen periodisch asynchronen Rahmen vor, der die Vorteile der Asynchronität mit der mathematischen Korrektheit von on-policy RL vereint.

A. Periodische Asynchronität (Producer-Consumer-Pipeline)

Das System entkoppelt die Inferenz- und Trainingsprozesse durch eine temporäre Daten-Generator-Schicht:

Producer: Ein Hintergrund-Thread (Producer) lädt Prompts und verteilt sie asynchron an mehrere Inferenz-Worker (z. B. vLLM).
Queue: Die generierten Antworten und Belohnungen werden in einer gemeinsamen Warteschlange (Queue) gepuffert.
Consumer: Der Trainer (Consumer) zieht Samples aus der Queue, sobald sie verfügbar sind, und führt das Training durch.
Periodizität: Der entscheidende Unterschied zu rein asynchronen Systemen ist, dass die Gewichts-Updates nur stattfinden, nachdem der gesamte Batch (alle $B$ Samples) konsumiert wurde. Zu diesem Zeitpunkt werden die aktuellen Policy-Gewichte synchronisiert und an die Inferenz-Worker zurückgegeben.
Theoretische Äquivalenz: Da alle Samples innerhalb eines Batches von derselben Policy ( $\pi_{\theta_t}$ ) generiert wurden und der Gradienten-Update erst nach vollständiger Konsumierung erfolgt, ist das Verfahren mathematisch äquivalent zum synchronen Training. Es gibt keinen Off-Policy-Bias.

B. Unified Tri-Model Architecture

Um die Anforderungen von GRPO (Berechnung von Policy-, Old-Policy- und Referenz-Logits) effizient zu erfüllen, wird eine einheitliche Architektur verwendet:

Alle drei Modelle (Policy, Old Policy, Reference) teilen sich dieselbe parallele Topologie (Tensor- und Pipeline-Parallelismus).
Die Gewichte werden so verwaltet, dass die "Old Policy" die Gewichte des vorherigen Schritts hält und die "Reference" die ursprünglichen Gewichte.
Dies ermöglicht die gleichzeitige Berechnung aller drei Logits-Typen in einem einzigen Mikro-Schritt, was die Synchronisation vereinfacht und Ressourcen spart.

C. Shared-Prompt Attention Mechanismus

Um die Redundanz bei der Verarbeitung mehrerer Antworten auf denselben Prompt zu eliminieren:

Konkatenation: Der Prompt wird nur einmal berechnet und mit den Token-IDs aller Antworten im Batch konkateniert.
Attention-Mask: Eine spezielle Maske wird verwendet, die es erlaubt, dass sich Antwort-Token auf den gemeinsamen Prompt beziehen, aber keine Information zwischen den verschiedenen Antworten (Cross-Response) austauschen.
Komplexitätsreduktion: Dies reduziert die Aufmerksamkeit-Komplexität von $O(K \cdot (L_p + L_r)^2)$ auf $O(L_p^2 + K \cdot L_r(L_p + L_r))$ , was bei langen Prompts ( $L_p \gg L_r$ ) zu einer fast $K$ -fachen Beschleunigung führt.

3. Schlüsselbeiträge

Beweisbare On-Policy-Korrektheit: Im Gegensatz zu anderen asynchronen Methoden (wie AReaL oder ROLL Flash), die Staleness-Parameter einführen und den On-Policy-Charakter aufweichen, bietet dieser Ansatz eine mathematische Äquivalenz zum synchronen Training ohne Algorithmus-Modifikationen.
Architektonische Innovation: Die Kombination aus einer Producer-Consumer-Pipeline, einer einheitlichen Tri-Model-Architektur und dem Shared-Prompt-Attention-Mechanismus.
Systemoptimierung: Die Implementierung nutzt Megatron-style 3D-Parallelismus und ist speziell für NPU-Plattformen (Ascend) optimiert, einschließlich der Nutzung von npu fusion attention Kernels.

4. Ergebnisse

Die Experimente wurden auf NPU-Plattformen (Ascend-910B) mit Modellen wie Qwen2.5-7B, Qwen3-8B und DeepSeek-R1-Distill-32B durchgeführt.

Durchsatz-Steigerung: Das Framework erreicht eine 3- bis 5-fache Verbesserung des End-to-End-Trainingsdurchsatzes (Tokens pro Sekunde pro Gerät) im Vergleich zu Mainstream-Frameworks wie MindSpeed-RL und VERL.
- Beispiel: Auf dem 8B-Modell wurde ein Speedup von 1,92x gegenüber dem synchronen Baseline und 3,12x gegenüber MindSpeed-RL erzielt.
- Auf dem 32B-Modell wurde ein Speedup von 5,05x gegenüber MindSpeed-RL erreicht, obwohl weniger Hardware-Ressourcen (48 NPUs vs. 64 NPUs) verwendet wurden.
Skalierbarkeit: Das System zeigt eine nahezu lineare Skalierung bei der Erhöhung der Geräteanzahl (von 16 auf 64 NPUs).
Genauigkeit: Die Trainingsgenauigkeit (gemessen an AIME24 und GSM8K) ist mit synchronen Methoden und anderen Frameworks vergleichbar. Die Reward-Kurven von synchronen und asynchronen Varianten überlappen sich fast vollständig, was die theoretische Äquivalenz empirisch bestätigt.
Effekt der Komponenten:
- Der Shared-Prompt-Attention-Mechanismus allein führte zu einer 8-fachen Steigerung des Durchsatzes in Szenarien mit langen Prompts.
- Die Periodische Asynchronität allein brachte einen 2-fachen Speedup, was dem theoretischen Maximum entspricht.

5. Bedeutung

Diese Arbeit ist von großer Bedeutung für die Skalierung von LLM-Post-Training:

Effizienz ohne Kompromisse: Sie löst das fundamentale Dilemma zwischen Geschwindigkeit (Asynchronität) und Korrektheit (On-Policy) in der RL-Optimierung von LLMs.
Praktische Anwendbarkeit: Die Methode ist algorithmusagnostisch und kann mit jedem On-Policy-RL-Algorithmus (wie GRPO oder PPO) verwendet werden, ohne die mathematischen Garantien zu verletzen.
Ressourcenoptimierung: Durch die Entkopplung von Inferenz und Training können diese Komponenten unabhängig skaliert werden, was Engpässe vermeidet und die Hardware-Auslastung maximiert.
Open Source: Der Code ist als Teil von EasyLLM verfügbar, was die Reproduzierbarkeit und Adoption in der Community fördert.

Zusammenfassend stellt „Periodic Asynchrony" einen Durchbruch dar, der die Trainingszeit für komplexe Reasoning-Aufgaben drastisch verkürzt, ohne die Qualität des trainierten Modells zu beeinträchtigen.