SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

Dit paper introduceert SPEED-RL, een adaptieve curriculumleermethode die de trainingstijd van redenerende modellen met 2 tot 6 keer verkort door selectief voorbeelden van gemiddelde moeilijkheidsgraad te gebruiken, wat leidt tot een snellere convergentie zonder nauwkeurigheidsverlies.

Ruiqi Zhang, Daman Arora, Song Mei, Andrea Zanette

Gepubliceerd 2026-03-06
📖 3 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, maar nog wat onervaren student (het kunstmatige intelligentie-model) wilt trainen om moeilijke wiskundeproblemen op te lossen.

Het oude probleem: De "Willekeurige Prik" methode
Vroeger trainden we deze studenten door hen een enorme stapel oefeningen te geven en ze er gewoon willekeurig uit te laten kiezen.

  • Soms kregen ze een probleem dat te makkelijk was (bijvoorbeeld: "Wat is 2 + 2?"). Dat leerde ze niets nieuws; het was saai en een verspilling van tijd.
  • Soms kregen ze een probleem dat te moeilijk was (bijvoorbeeld: een doctoraatsthesis in kwantumfysica). Ze raakten gefrustreerd, gaven het op en leerden ook niets, omdat ze de basis nog niet onder de knie hadden.
  • Alleen de problemen die net goed waren, hielpen hen echt vooruit. Maar omdat we willekeurig selecteerden, zochten we urenlang naar die "juiste" problemen tussen de te makkelijke en te moeilijke. Dit maakte het trainen van de computer extreem langzaam en duur.

De nieuwe oplossing: SPEED-RL (De slimme coach)
Deze nieuwe paper introduceert een methode genaamd SPEED. Denk hierbij aan een slimme, intuïtieve coach die precies weet wat de student nodig heeft.

In plaats van een willekeurige stapel te geven, kijkt deze coach continu naar de prestaties van de student en kiest hij bewust de oefeningen die "net even te moeilijk" zijn, maar niet onmogelijk.

  • De Analogie van het Lopen: Stel je voor dat je hardloopt. Als je alleen maar op het vlakke asfalt loopt (te makkelijk), word je niet sneller. Als je direct de steilste berg op probeert te klimmen (te moeilijk), val je om. De beste training is een heuvelachtig parcours waar je net even moet stretchen, maar waar je het toch haalt. SPEED zoekt precies die heuvels.

Waarom werkt dit zo goed?

  1. Het Signaal is sterker: Wanneer de student een probleem oplost dat net op zijn niveau ligt, is de "leerkracht" (de computer) het meest duidelijk. Het weet precies wat er goed ging en wat er fout ging. Bij te makkelijke of te moeilijke vragen is dit signaal verward en ruisachtig.
  2. Geen menselijke ingreep: De coach hoeft niet door een mens te worden bijgestuurd. Het systeem meet zelf hoe moeilijk een vraag is en past het niveau direct aan.
  3. Het resultaat: De paper laat zien dat je hiermee 2 tot 6 keer sneller kunt trainen. Het is alsof je in plaats van een uur te lopen, in 10 minuten dezelfde conditie bereikt, zonder dat je uiteindelijk minder fit bent.

Kort samengevat:
SPEED-RL is als het verwijderen van de "vervelende" en "onmogelijke" oefeningen uit een trainingsprogramma. Door alleen de "gouden middenweg" te kiezen, leren de AI-modellen veel sneller en efficiënter redeneren, zonder dat we er duizenden euro's aan rekenkracht aan hoeven te besteden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →