LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Hunger nach langen Geschichten"

Stell dir vor, du hast einen sehr intelligenten Roboter (einen KI-Modell), der gerne schreibt. Wenn du ihn bittest, einen kurzen Bericht zu schreiben, macht er das super. Aber wenn du ihn bittest, ein ganzes Buch oder einen langen Roman zu schreiben, wird er schnell müde. Er fängt an, sich zu wiederholen, vergisst den Faden oder schreibt Unsinn. Es ist, als würde ein Marathonläufer nach 100 Metern einfach aufhören zu rennen und ins Bett gehen wollen.

Bisher haben Forscher versucht, dieses Problem zu lösen, indem sie dem Roboter Tausende von fertigen, langen Texten vorgelesen haben (wie ein Lehrer, der einem Schüler Musterlösungen zeigt). Das Problem dabei: Diese Musterlösungen waren oft künstlich, langweilig und nicht sehr kreativ. Der Roboter lernte nur, sie nachzuahmen, statt wirklich zu verstehen, wie man eine lange Geschichte aufbaut.

Die Lösung: LongWriter-Zero – Der Roboter, der selbst lernt

Die Autoren dieses Papers haben eine neue Idee gehabt: Lass den Roboter nicht aus Büchern lernen, sondern lass ihn durch „Versuch und Irrtum" lernen, genau wie ein Kind, das Laufen lernt.

Sie nennen ihre Methode LongWriter-Zero. Das „Zero" bedeutet, dass sie keine fertigen Musterlösungen (keine „SFT"-Daten) benutzt haben. Stattdessen haben sie dem Roboter eine ganz einfache Regel gegeben: „Versuche, lange Texte zu schreiben, die gut klingen."

Wie funktioniert das? (Die drei Geheimzutaten)

Stell dir vor, du trainierst einen Hund, der lange Tricks vorführen soll. Du gibst ihm keine fertigen Anweisungen, sondern nutzt drei Tricks:

1. Der Belohnungsschalter (Reinforcement Learning)

Statt dem Roboter zu sagen „Schreib so", sagen sie ihm: „Wenn du einen langen Text schreibst, der nicht abbricht, nicht sich wiederholt und gut strukturiert ist, bekommst du einen virtuellen Leckerbissen (eine positive Punktzahl). Wenn du abbrichst oder Unsinn schreibst, gibt es keine Punkte."
Der Roboter probiert tausende Male aus, was passiert, wenn er länger schreibt. Langsam merkt er: „Aha! Wenn ich einen Plan mache, bekomme ich mehr Punkte!"

2. Der „Denk-Zwischenschritt" (Think Step)

Das ist das Geniale an dieser Methode. Früher haben Roboter einfach sofort losgeschrieben. LongWriter-Zero wird aber angewiesen, erst einmal zu denken, bevor er schreibt.

Die Analogie: Stell dir vor, du musst einen 50-seitigen Roman schreiben. Wenn du sofort losdicht, wirst du wahrscheinlich nach Seite 3 stecken bleiben. Aber wenn du erst eine Stunde lang einen Plan machst, Figuren entwirfst und die Handlung skizzierst (das ist der „Denk"-Teil), fällt dir das Schreiben viel leichter.
Der Roboter schreibt also erst einen langen, detaillierten Plan in einem unsichtbaren Notizblock (den „Gedanken"), und erst danach schreibt er die eigentliche Geschichte. Dieser Plan hilft ihm, den Faden nicht zu verlieren.

3. Das „Vorbereitungs-Training" (Continual Pretraining)

Bevor der Roboter mit dem eigentlichen Training beginnt, haben die Forscher ihn mit einer riesigen Menge an langen, hochwertigen Texten (Bücher, Berichte) „gefüttert".

Die Analogie: Bevor ein Schauspieler eine komplexe Rolle spielt, liest er erst einmal viele klassische Dramen, um ein Gefühl für Sprache und Struktur zu bekommen. Das gibt dem Roboter ein besseres Fundament, damit er nicht bei Null anfängt, sondern schon weiß, wie eine gute Geschichte klingt.

Das Ergebnis: Ein Super-Schreiber

Das Team hat ihren Roboter (basierend auf einem Modell namens Qwen2.5-32B) so trainiert. Das Ergebnis ist beeindruckend:

Der Roboter kann jetzt Texte schreiben, die über 10.000 Wörter lang sind (das sind ganze Bücher!).
Er macht weniger Fehler, bleibt beim Thema und strukturiert die Texte viel besser als andere Modelle.
Er schlägt sogar viel größere und teurere Modelle (wie DeepSeek R1 oder Qwen3), obwohl er eigentlich „kleiner" ist.

Zusammenfassung in einem Satz

Statt einem Roboter fertige Hausaufgaben vorzugeben, haben die Forscher ihm beigebracht, erst einen Plan zu schmieden, dann zu üben und sich durch Belohnungen zu motivieren, sodass er aus sich heraus lernt, epische Geschichten zu schreiben, ohne dabei den Faden zu verlieren.

Es ist der Unterschied zwischen einem Schüler, der nur Abschreiben lernt, und einem, der lernt, wie man ein eigenes Buch schreibt.

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Das Problem: Der „Hunger nach langen Geschichten"

Die Lösung: LongWriter-Zero – Der Roboter, der selbst lernt

Wie funktioniert das? (Die drei Geheimzutaten)

1. Der Belohnungsschalter (Reinforcement Learning)

2. Der „Denk-Zwischenschritt" (Think Step)

3. Das „Vorbereitungs-Training" (Continual Pretraining)

Das Ergebnis: Ein Super-Schreiber

Zusammenfassung in einem Satz

Hauptbeiträge

Ergebnisse

Bedeutung

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Das Problem: Der „Hunger nach langen Geschichten"

Die Lösung: LongWriter-Zero – Der Roboter, der selbst lernt

Wie funktioniert das? (Die drei Geheimzutaten)

1. Der Belohnungsschalter (Reinforcement Learning)

2. Der „Denk-Zwischenschritt" (Think Step)

3. Das „Vorbereitungs-Training" (Continual Pretraining)

Das Ergebnis: Ein Super-Schreiber

Zusammenfassung in einem Satz

Hauptbeiträge

Ergebnisse

Bedeutung

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics