LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Dit paper introduceert LongWriter-Zero, een model dat via beloningsgebaseerd versterkingsleren (RL) zonder synthetische trainingsdata ultra-lange, hoogwaardige teksten genereert en hiermee de prestaties van traditionele SFT-methoden en zelfs grotere 100B+ modellen overtreft.

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Gepubliceerd 2026-03-03
📖 2 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

`-fase. De AI "denkt" eerst uitgebreid over de structuur, de toon en de plot, voordat hij de daadwerkelijke tekst schrijft. Dit zorgt ervoor dat het verhaal niet in de war raakt, zelfs niet als het 10.000 woorden lang is.

3. De "Oefenperiode" (Voortdurend Pre-trainen)

Voordat de AI begint met het beloningssysteem, laten we hem eerst duizenden boeken en artikelen lezen. Dit is alsof je een student eerst een jaar laat lezen in de bibliotheek voordat je hem laat schrijven. Hierdoor heeft hij al een goed gevoel voor taal, verhalen en structuur voordat hij begint met het "spelen" van het beloningsspel.

Wat is het resultaat?

De onderzoekers hebben getest of deze AI (LongWriter-Zero) beter is dan de huidige top-modellen (zoals DeepSeek-R1 of Qwen3).

  • Het resultaat: Ja! Zelfs al is hun model kleiner (32 miljard parameters, terwijl de concurrenten soms 100+ miljard hebben), wint het het vaakst.
  • Het schrijft langere, logischere en creatievere verhalen zonder in herhaling te vallen.
  • Het doet dit zonder dat er één menselijke leraar is die voorbeelden heeft geschreven. De AI heeft zichzelf geleerd door te proberen, fouten te maken en de beloningssignalen te volgen.

Kortom:
LongWriter-Zero is als een jonge schrijver die niet meer leert door voorbeelden na te schrijven, maar door te leren plannen. Door eerst diep na te denken (de "denk"-fase) en te leren wat een goed verhaal is via beloningen, kan hij nu enorme romans of rapporten schrijven die zelfs de grootste, duurste AI-modellen verslaan. Het bewijst dat je niet altijd duizenden voorbeelden nodig hebt; soms is een goede beloning en de ruimte om zelf na te denken genoeg om een meester te worden.