CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een slimme computer (een "Large Reasoning Model") een moeilijk wiskundeprobleem moet oplossen. Net als wij mensen, denkt deze computer niet direct het antwoord op. Het denkt eerst na, schrijft gedachten op, twijfelt, en zegt soms dingen als: "Wacht even, misschien heb ik het mis..." of "Maar wat als ik het anders probeer?".

In de wereld van AI noemen we die twijfelzinnen "reflectie-tokens". Ze zijn als de interne stem van de computer die zegt: "Stop even, denk na."

Het probleem is dat deze computers vaak twee fouten maken:

Te weinig denken (Under-reflection): Ze geven te snel op. Ze zeggen: "Oké, dit lijkt goed," en geven een fout antwoord, zonder echt na te denken.
Te veel denken (Over-reflection): Ze blijven hangen in een cirkel van twijfel. Ze blijven maar zeggen: "Wacht... wacht... wacht..." zonder ooit tot een conclusie te komen. Dit kost veel tijd en energie.

De auteurs van dit paper (CyclicReflex) hebben een slimme oplossing bedacht die dit probleem oplost zonder de computer opnieuw te hoeven trainen. Hier is hoe het werkt, vertaald naar alledaagse taal:

De Analogie: De Fiets en de Trapkracht

Stel je voor dat het oplossen van een probleem fietsen is op een heuvelachtig parcours.

Reflectie-tokens zijn je trapkracht.
Te weinig denken is alsof je met een heel kleine trapkracht fietst. Je komt nergens, je blijft steken in een kleine kuil (een fout antwoord).
Te veel denken is alsof je met een enorme, wilde trapkracht fietst. Je schiet over de top van de heuvel heen, verliest de controle en belandt in een sloot (ook een fout antwoord).

In het verleden probeerden andere methoden om dit op te lossen door je trapkracht altijd een beetje te verlagen. Ze zeiden: "Fietst te hard? Verlaag je kracht!" Maar dat werkt niet goed voor iedereen. Soms moet je juist harder trappen om uit een kuil te komen.

De Oplossing: De "Cyclische" Trapkracht (CyclicReflex)

De auteurs van dit paper zeggen: "Wacht, we moeten niet constant vertragen of versnellen. We moeten een ritme volgen, net zoals bij het trainen van sporters."

Ze vergelijken het met cyclo-trappen (een bekende techniek in de sport en wiskunde):

Je trapt eerst hard (om nieuwe wegen te verkennen en uit een kuil te komen).
Dan vertraag je even (om te stabiliseren en de weg te vinden).
Dan weer hard, dan weer rustig.

Dit noemen ze een driehoekig golfpatroon. Het is alsof je een ritme hebt: Op, neer, op, neer.

Hoe werkt dit voor de computer?
De computer krijgt een slimme "regelaar" die tijdens het denken automatisch de kans op het zeggen van "Wacht..." of "Maar..." aanpast:

Aan het begin van het denken: De regelaar zegt: "Ga maar eens flink twijfelen en exploreer!" (Veel reflectie-tokens). Dit helpt de computer om niet te snel een fout antwoord te kiezen.
Halverwege: De regelaar zegt: "Oké, nu gaan we rustig nadenken en de weg zoeken." (Minder reflectie-tokens).
Aan het einde: De regelaar zegt: "Wees weer kritisch, check je antwoord nog even." (Weer een beetje twijfel).
En dan weer terug naar het begin van de cyclus.

Waarom is dit zo slim?

Het is gratis: Ze hoeven de computer niet opnieuw te leren (geen dure training). Ze passen alleen de "knoppen" aan tijdens het denken.
Het werkt voor iedereen: Of het nu een kleine computer is (1.5 miljard "hersencellen") of een enorme (14 miljard), deze methode werkt beter dan de oude methoden.
Het voorkomt beide fouten: Het zorgt dat de computer niet te snel stopt (te weinig denken) en niet in een eindeloze twijfelcyclus belandt (te veel denken).

Samenvatting in één zin

De auteurs hebben ontdekt dat je een slimme computer het beste kunt laten denken door hem een ritme te geven van "soms twijfelen, soms beslissen", net zoals een goede atleet een ritme heeft tussen sprinten en rusten. Hierdoor worden de antwoorden van de computer niet alleen slimmer, maar ook sneller en betrouwbaarder.

Het is als het vinden van het perfecte tempo voor een lange wandeling: niet te snel rennen zodat je uitpakt, en niet te langzaam lopen dat je nooit aankomt. CyclicReflex zorgt voor dat perfecte tempo.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CYCLICREFLEX: IMPROVING REASONING MODELS VIA CYCLICAL REFLECTION TOKEN SCHEDULING", gepubliceerd bij ICLR 2026.

1. Het Probleem: Resource Allocatie in Redenerende Modellen

Grote Redenerende Modellen (LRMs), zoals OpenAI's o1 en DeepSeek-R1, gebruiken "Chain-of-Thought" (CoT) om complexe problemen op te lossen. Een cruciaal onderdeel van dit proces zijn reflectie-tokens (woorden als "wacht", "maar", "alternatief"), die signalen geven voor zelfevaluatie, aarzeling of het verkennen van alternatieve paden.

De auteurs identificeren twee fundamentele problemen bij het gebruik van deze tokens:

Onder-reflectie (Under-reflection): Het model stopt te vroeg met redeneren of schakelt te snel van strategie, wat leidt tot onvoldoende diepgang en suboptimale antwoorden. Dit wordt vergeleken met een te kleine leersnelheid in optimalisatie die in een lokaal minimum vastloopt.
Over-reflectie (Over-reflection): Het model genereert onnodig veel reflectie-tokens, zelfs bij eenvoudige problemen, wat leidt tot "overthinking", cyclische patronen (bijv. herhaaldelijk "wacht" zeggen zonder vooruitgang) en een onnodig hoge rekenkosten. Dit wordt vergeleken met een te grote leersnelheid die divergentie veroorzaakt.

Bestaande methoden, zoals TIP (Thought Switching Penalty), proberen reflectie-tokens te onderdrukken door een vaste straf toe te passen. De paper toont echter aan dat dit statische, eenrichtingsbenadering niet werkt voor alle moeilijkheidsgraden: het verbetert soms moeilijke problemen, maar verslechtert de prestaties bij makkelijke en gemiddelde problemen door noodzakelijke reflectie te blokkeren.

2. Methodologie: CyclicReflex

De kern van de paper is de introductie van CyclicReflex, een trainingsvrije decoding-strategie die reflectie-tokens behandelt als een "resource" die dynamisch moet worden toegewezen.

Conceptuele Analogie:
De auteurs trekken een parallel tussen het plannen van reflectie-tokens en het plannen van de leersnelheid (learning rate) in optimalisatie. Net zoals een cyclical learning rate (Smith, 2017) wisselt tussen grote stappen (exploratie) en kleine stappen (convergentie) om een optimum te vinden, stelt CyclicReflex voor om de kans op het genereren van reflectie-tokens cyclisch te moduleren.

Het Algorithmische Mechanisme:
CyclicReflex past een bidirectionele, positie-afhankelijke driehoeksgolf toe op de logits (voorspelde scores) van reflectie-tokens tijdens het generatieproces.

Formule: De aanpassing $\delta(t)$ $δ (t)$ op het logit $z_{t,v}$ $z_{t, v}$ van een reflectie-token $v$ $v$ op stap $t$ $t$ wordt gegeven door:
$\hat{z}_{t,v} = z_{t,v} + \delta(t)$
Waarbij $\delta(t)$ $δ (t)$ oscilleert tussen $-A$ $- A$ en $+A$ $+ A$ met een periode $C$ $C$ .
- Stijgende fase (Exploratie): Verhoogt de logits van reflectie-tokens om het model aan te moedigen van gedachte te veranderen en dieper na te denken.
- Dalende fase (Convergentie): Verlaagt de logits om het model te stabiliseren en te focussen op het produceren van een coherent eindantwoord.

Voordeelpunten:

Trainingsvrij: Vereist geen fine-tuning of extra training.
Geen extra rekentijd: De modus gebeurt tijdens decoding zonder extra inferentie-kosten.
Bidirectioneel: Kan zowel reflectie stimuleren als onderdrukken, afhankelijk van de fase in het redeneerproces.

3. Belangrijkste Bijdragen

Formalisatie van Resource Allocatie: Het introduceren van het concept om reflectie-tokens als een computatiële resource te zien, waarbij de timing en frequentie strategisch moeten worden geoptimaliseerd om zowel onder- als over-reflectie te voorkomen.
Analogie met Optimalisatie: Het vaststellen van een theoretische link tussen reflectie-tokens en leersnelheidsplanning, ondersteund door visualisaties van het "thought landscape" (landschap van gedachten).
CyclicReflex: De ontwikkeling van een nieuwe decoding-strategie die een periodieke driehoeksgolf gebruikt om de sampling-kansen van reflectie-tokens dynamisch te regelen.
Uitgebreide Validatie: Demonstratie dat de methode werkt over verschillende modelgroottes (1.5B tot 14B) en domeinen (wiskunde, code, wetenschap).

4. Resultaten

De auteurs hebben CyclicReflex getest op zes benchmarks: MATH500, AIME2024/2025, AMC2023, GPQA Diamond en LiveCodeBench.

Prestatieverbetering: CyclicReflex verbeterde consistent de nauwkeurigheid van de eindantwoorden over alle geteste modellen (DeepSeek-R1-Distill-Qwen en Llama varianten).
- Voorbeeld: Op AIME2024 boekte DeepSeek-R1-Distill-Llama-8B een absolute verbetering van 10% in nauwkeurigheid.
- Op AMC2023 zag DeepSeek-R1-Distill-Qwen-7B een verbetering van 9%.
Vergelijking met Baselines: CyclicReflex presteerde beter dan de originele decoding, TIP (Thought Switching Penalty) en S1.
- TIP verbeterde soms moeilijke problemen maar verslechterde makkelijke problemen.
- S1 (die tokens forceert) leidde vaak tot langere, inefficiënte output zonder nauwkeurigheidswinst.
Zelfcorrectie: Modellen met CyclicReflex toonden een sterkere capaciteit om eerdere fouten in het redeneerproces te corrigeren, zelfs wanneer ze werden geconfronteerd met misleidende starttraces.
Integratie: De methode werkt naadloos samen met andere test-time scaling technieken zoals Best-of-N en Beam Search, waarbij extra winst wordt geboekt zonder extra kosten.
Efficiëntie: De verbetering in nauwkeurigheid ging niet ten koste van de generatielengte; de output was vaak korter of vergelijkbaar met de originele methode, maar van hogere kwaliteit.

5. Betekenis en Impact

De paper biedt een principieel kader voor het beheer van redeneerprocessen in LRMs zonder de onderliggende modellen te hoeven hertrainen.

Theoretisch Inzicht: Het benadrukt dat "denken" in LLM's een dynamisch evenwicht vereist tussen exploratie en exploitatie, vergelijkbaar met optimalisatie-algoritmen.
Praktische Toepasbaarheid: Omdat CyclicReflex trainingsvrij is en geen extra rekenkracht kost, kan het direct worden toegepast op bestaande modellen om hun betrouwbaarheid en nauwkeurigheid te verhogen.
Toekomstperspectief: Het werk opent de deur voor meer geavanceerde, adaptieve decoding-strategieën die zich aanpassen aan de moeilijkheidsgraad van het probleem en de interne staat van het model, wat essentieel is voor de volgende generatie AI-systemen.

Kortom, CyclicReflex lost het dilemma van "te weinig of te veel nadenken" op door een slimme, cyclische regeling van de interne signalen van het model, wat leidt tot robuustere en nauwkeurigere redeneerresultaten.

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

De Analogie: De Fiets en de Trapkracht

De Oplossing: De "Cyclische" Trapkracht (CyclicReflex)

Waarom is dit zo slim?

Samenvatting in één zin

1. Het Probleem: Resource Allocatie in Redenerende Modellen

2. Methodologie: CyclicReflex

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance