Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek binnenloopt, vol met miljoenen boeken, notities en krantenknipsels. Je krijgt de opdracht: "Vind het antwoord op deze ene specifieke vraag."

Voor een mens is dit al lastig, maar voor een kunstmatige intelligentie (een AI) is het een nachtmerrie. Zelfs de slimste AI-modellen raken vaak verdwaald in deze zee van informatie. Ze vergeten details, raken afgeleid door onbelangrijke tekst, of kunnen de puzzelstukjes niet aan elkaar knopen.

Dit papier introduceert een nieuwe manier om AI's te helpen bij dit probleem, genaamd SRLM (Self-Reflective Program Search for Long Context). Laten we het uitleggen met een paar creatieve metaforen.

Het oude probleem: De "Recurse" (Terugkerende) Zoeker

Voorheen probeerden onderzoekers dit op te lossen met een methode genaamd RLM (Recursive Language Models).

De metafoor: Stel je voor dat je een detective bent die een dossier van 1000 pagina's moet lezen. De oude methode (RLM) gaf de detective een regel: "Lees een stukje, stel een vraag aan jezelf, lees een ander stukje, stel weer een vraag, en herhaal dit eindeloos tot je het antwoord hebt."
Het probleem: Soms werkt dit goed, maar vaak raakt de detective in de war. Hij stelt de verkeerde vragen, loopt in cirkels, of verliest de draad. Het probleem is niet dat hij terugkeert naar het dossier (recursie), maar dat hij niet weet welke vragen hij moet stellen of welke stukjes hij moet lezen. Hij heeft geen kompas.

De nieuwe oplossing: SRLM (De Reflectieve Detective)

De auteurs van dit papier zeggen: "Wacht even, het is niet belangrijk hoe vaak je terugkeert, maar hoe goed je nadenkt over je eigen zoektocht."

Ze introduceren SRLM. In plaats van blindelings te blijven zoeken, krijgt de detective een spiegel en drie intuïtieve signalen om te weten of hij op het goede pad zit.

De detective gebruikt drie "zintuigen" om te voelen of hij zeker is of niet:

De "Drie Vrienden" Test (Zelf-consistentie):
- De analogie: De detective vraagt aan drie andere detectives (die allemaal hetzelfde dossier lezen) wat ze denken. Als ze allemaal hetzelfde antwoord geven, is de kans groot dat het klopt. Als ze allemaal iets anders zeggen, is er iets mis.
- In het papier: De AI genereert meerdere mogelijke oplossingen. Als ze overeenkomen, is het antwoord waarschijnlijk goed.
De "Zekerheids-Check" (Verbalized Confidence):
- De analogie: Na elke stap in zijn zoektocht vraagt de detective zichzelf: "Hoe zeker ben ik van dit stukje informatie?" Hij moet dit hardop zeggen (bijvoorbeeld: "Ik ben 80% zeker").
- In het papier: De AI moet een cijfer geven voor hoe zeker ze is van haar eigen redenering. Als ze vaak zegt "Ik weet het niet zeker", dan is dat een teken dat ze op het verkeerde pad zit.
De "Gedachtespoor" (Redeneringslengte):
- De analogie: Als een detective heel zeker is, is zijn verhaal vaak kort en krachtig. Maar als hij twijfelt, begint hij te aarzelen, te herhalen en lange, verwarrende verhalen te vertellen.
- In het papier: Als de AI heel lang moet "nadenken" (veel tekst genereren) om tot een antwoord te komen, is dat vaak een teken van onzekerheid. Een kort, krachtig pad is vaak beter.

Wat leert dit ons? (De verrassende conclusies)

De onderzoekers ontdekten drie belangrijke dingen die de wereld van AI kunnen veranderen:

Recursie is niet de heilige graal:
Het bleek dat het eindeloos terugkomen op jezelf (recursie) niet het belangrijkste is. Een simpele detective die goed naar zijn eigen spiegel kijkt (zelfreflectie), doet het vaak beter dan een detective die blindelings blijft terugkeren. Soms maakt het zelfs de prestaties slechter als het dossier al klein genoeg is om in één keer te lezen.
De "Grote Bibliotheek" vs. "De Korte Brief":
De oude methode (RLM) faalde vaak bij korte teksten omdat het te veel overkill was (alsof je een bus huurt om naar de supermarkt te gaan). De nieuwe methode (SRLM) werkt echter perfect, of je nu een korte brief of een hele bibliotheek moet lezen. Het is flexibeler.
Diep inzicht vs. Oppervlakkig zoeken:
Bij taken waarbij je gewoon feiten moet vinden (zoals "Waar staat de datum in dit document?"), werkt de oude methode nog oké. Maar bij taken die echt begrip vereisen (zoals "Wat is de emotionele toon van dit hele verhaal?"), faalt de oude methode. De nieuwe methode (SRLM) gebruikt de "zekerheids-Check" om dieper te graven en beter te begrijpen wat er echt aan de hand is.

Samenvatting in één zin

In plaats van een AI te dwingen om eindeloos te blijven zoeken en zichzelf te herhalen, geven we haar een spiegel en leren we haar om te voelen of ze twijfelt. Hierdoor wordt ze slimmer, sneller en betrouwbaarder, of ze nu een korte e-mail of een miljoen pagina's moet lezen.

Het is alsof we stoppen met het geven van meer werk aan de detective, en beginnen met het geven van een betere intuïtie.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het verwerken van lange contexten blijft een fundamentele uitdaging voor taalkundige modellen (LLMs). Zelfs met uitgebreide contextvensters falen modellen vaak bij het betrouwbaar extraheren, redeneren en gebruiken van informatie over lange documenten. Ze raken details kwijt, worden afgeleid door irrelevante inhoud en hebben moeite met het integreren van informatie uit verre posities.

Recent werk, zoals Recursive Language Models (RLMs), heeft geprobeerd dit op te lossen door lange contexten te decomponeren in recursieve sub-vragen via programmatieke interactie tijdens de inferentie. Hoewel veelbelovend, is de succesfactor van RLMs sterk afhankelijk van hoe deze trajecten van context-interactieprogramma's worden geselecteerd. Bestaande RLM-methoden vertrouwen voornamelijk op vaste recursieschema's zonder een principieel mechanisme om alternatieve redeneertrajecten te evalueren onder onzekerheid. De kernvraag is: is recursie op zich de sleutel, of is het de selectie van het juiste interactieprogramma onder onzekerheid?

Methodologie: SRLM

De auteurs introduceren SRLM (Self-Reflective Program Search for Long Context), een framework dat programmatieke context-interactie verrijkt met onzekerheidsbewuste zelfreflectie. In plaats van te vertrouwen op expliciete recursieve tool-calls (zoals bij RLM), gebruikt SRLM drie intrinsieke signalen om de interne onzekerheid van het model te kwantificeren en de beste redeneertrajecten te selecteren.

Het proces verloopt als volgt:

Generatie van Kandidaten: Het model genereert $K$ onafhankelijke kandidaat-programma's ( $p^{(k)}$ ) die de context manipuleren (bijv. slicen, queryen, aggregeren).
Onzekerheidssignalen: Voor elke kandidaat worden drie complementaire signalen afgeleid uit het generatieproces zelf, zonder externe supervisie:
- Zelfconsistentie (Sampling-based Uncertainty): De empirische frequentie van een antwoord over meerdere steekproeven. Dit filtert naar een consistente set van kandidaten die hetzelfde eindantwoord geven.
- Verbaal Gedeclareerde Zekerheid (Semantic Uncertainty): Het model wordt gevraagd om bij elke stap in het redeneertraject een zelfbeoordeling van zijn zekerheid te geven (een score tussen 0 en 100). Dit geeft een semantisch signaal over hoe het model zijn tussenstappen beoordeelt.
- Redeneerlengte (Behavioral Uncertainty): De totale token-lengte van het gegenereerde spoor. De auteurs nemen aan dat onzekerheid leidt tot langere, meer deliberatieve redeneertraces, terwijl zekerheid vaak gepaard gaat met beknoptere output.
Gecombineerde Selectie: Binnen de set van consistente kandidaten wordt een gezamenlijke onzekerheidsscore berekend: $s(p) = VC(p) \cdot Len(p)$ $s (p) = V C (p) \cdot L e n (p)$ .
- Waar $VC(p)$ de genormaliseerde log-som van de verbaal gedeclareerde zekerheid is (hoe dichter bij 0, hoe hoger de zekerheid).
- Waar $Len(p)$ de lengte van het redeneerspoor is.
- Een lagere score $s(p)$ (dus hoge zekerheid en korte, efficiënte redenering) duidt op een beter kandidaat. Het model selecteert het programma met de beste score als het uiteindelijke antwoord.

Belangrijkste Bijdragen

Introductie van SRLM: Een nieuw framework dat onzekerheidsbewuste zelfreflectie combineert met programmatieke context-interactie.
Ontmaskering van Recursie: De auteurs tonen aan dat recursie op zich niet de primaire drijvende kracht is voor prestaties in RLMs. Een simpele zelfreflectieve programmazoekopdracht kan recursie evenaren of zelfs overtreffen zonder expliciete zelf-query-mechanismen.
Robuustheid over Contextlengtes: In tegenstelling tot RLM, dat vaak slechter presteert dan het basismodel binnen het native contextvenster (vanwege overbodige recursie- overhead), levert SRLM consistente verbeteringen op voor zowel korte als zeer lange contexten.
Semantische Sturing: Voor semantisch intensieve taken (waar heuristische zoekopdrachten ontoereikend zijn) biedt de zelfreflectie in SRLM een rijker sturingssignaal dan de recursieve benadering van RLM.

Resultaten

De auteurs hebben SRLM getest op diverse benchmarks (LongBench-v2, BrowseComp+, OOLONG) met verschillende contextlengtes (tot 4 miljoen tokens) en backbones (Qwen3-Coder-480B en GPT-5).

Prestatieverbetering: SRLM presteert consequent beter dan state-of-the-art baselines. Er wordt een verbetering van tot 22% behaald ten opzichte van RLM binnen hetzelfde tijdslimiet.
Vergelijking met RLM:
- Bij Qwen3-Coder-480B helpt recursie soms, maar SRLM zonder recursie (zonder sub-calls) presteert vaak beter dan de recursieve varianten.
- Bij GPT-5 presteert recursie zelfs vaak slechter dan het basismodel, terwijl SRLM stabiele winst boekt.
- SRLM zonder sub-calls (geen recursie) overtreft vaak de volledige RLM, wat suggereert dat de selectie van het traject belangrijker is dan de recursieve structuur zelf.
Contextlengte Sensitiviteit: RLM's prestaties dalen vaak bij korte contexten (binnen het venster) omdat de recursie onnodige overhead introduceert. SRLM is robuust over het hele spectrum.
Taaaktype: Op semantisch complexe taken (zoals dialooggeschiedenis of document QA) presteert SRLM aanzienlijk beter dan RLM, omdat zelfreflectie beter in staat is om de betekenis van de context te begrijpen in plaats van alleen te zoeken.

Betekenis en Conclusie

Dit paper verschuift de focus in het onderzoek naar lange contexten van "meer recursie" naar "beter selecteren onder onzekerheid". De bevindingen suggereren dat:

Recursie geen noodzakelijke voorwaarde is voor effectief lange-context-redeneren.
Het gebruik van intrinsieke onzekerheidssignalen (zelfconsistentie, verbaal vertrouwen, en redeneerlengte) een eenvoudige maar krachtige methode is om modellen te sturen.
SRLM een meer betrouwbare en semantisch onderbouwde aanpak biedt voor lange contexten, die werkt in zowel korte als extreme scenario's, en minder gevoelig is voor de specifieke eigenschappen van het onderliggende model.

De studie benadrukt dat het verbeteren van hoe modellen kandidaat-interactieprogramma's verkennen en evalueren, even belangrijk kan zijn als het uitbreiden van het contextvenster zelf.

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Het oude probleem: De "Recurse" (Terugkerende) Zoeker

De nieuwe oplossing: SRLM (De Reflectieve Detective)

Wat leert dit ons? (De verrassende conclusies)

Samenvatting in één zin

Probleemstelling

Methodologie: SRLM

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Agent-based imitation dynamics can yield efficiently compressed population-level vocabularies