Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een slimme chatbot leert om niet in de "verleden tijd" te blijven hangen

Stel je voor dat je een zeer slimme, maar soms wat koppige assistent hebt. Deze assistent is een kunstmatige intelligentie (een Large Language Model of LLM) die uitstekend kan redeneren als je hem alle informatie in één keer geeft. Maar zodra je met hem in gesprek gaat en je moet de informatie stap voor stap toevoegen of corrigeren, raakt hij in de war.

Deze paper introduceert een nieuw probleem en een slimme oplossing. Laten we het uitleggen met een paar alledaagse analogieën.

Het Probleem: "Contextuele Traagheid" (Contextual Inertia)

Stel je voor dat je een routebeschrijving vraagt aan je slimme assistent.

Stap 1: Je zegt: "Ik moet naar een stad 100 km verderop, en ik heb een strak budget van $20."
De assistent denkt: "Oké, een bus of trein is goedkoop." Maar hij maakt een fout en zegt: "Neem een Uber, dat kost ongeveer $150."
Stap 2: Je zegt: "Wacht even, ik heb echt maar $20, niet $150!"
De reactie van de assistent: In plaats van zijn plan aan te passen, blijft hij vastzitten aan zijn eerste idee. Hij zegt: "Oké, dan moet je een Uber delen met 3 andere mensen om die $150 te splitsen."

Het probleem: De assistent is zo vastgeroest in zijn eerste gedachtegang dat hij je nieuwe, cruciale informatie (het lage budget) negeert. Hij blijft "inertie" (traagheid) tonen. Hij vertrouwt zijn eigen oude, foutieve redenering meer dan jouw nieuwe instructies. De auteurs noemen dit Contextual Inertia. Het is alsof de assistent een blinddoek op heeft die alleen zijn eigen vorige woorden laat zien, en niet wat jij nu zegt.

De Oplossing: RLSTA (Versterkt Leren met "Ankers")

De onderzoekers hebben een nieuwe manier bedacht om dit op te lossen, genaamd RLSTA (Reinforcement Learning with Single-Turn Anchors).

Hoe werkt het? Stel je voor dat de assistent twee modi heeft:

De "Panoramische Modus" (Single-Turn): Hier ziet hij alle informatie tegelijk. Hij is hier super slim en maakt zelden fouten.
De "Stap-voor-stap Modus" (Multi-Turn): Hier praat hij met je. Hier wordt hij vaak verward door zijn eigen eerdere fouten.

De strategie:
In plaats van de assistent te straffen voor elke fout in het gesprek, gebruiken de onderzoekers zijn Panoramische Modus als een "anker" of een kompas.

Het Anker: Ze laten de assistent eerst het probleem oplossen alsof hij alle informatie al had (in één keer). Dit is het "goede voorbeeld".
De Vergelijking: Vervolgens laten ze hem het gesprek stap voor stap voeren. Als hij in het gesprek vastloopt in zijn oude fouten, kijken ze naar het "goede voorbeeld".
De Beloning: Ze geven de assistent een beloning (een "rewardsignaal") als hij in het gesprek zijn oude, verkeerde pad verlaat en weer aansluit bij het "goede voorbeeld" dat hij in de Panoramische Modus had bedacht.

Het is alsof je een leerling die in de war raakt tijdens een gesprek, een foto toont van het juiste eindresultaat en zegt: "Kijk, dit is waar we naartoe moeten. Je eerste idee was verkeerd, maar als je naar deze foto kijkt, zie je dat je je plan moet aanpassen."

Waarom is dit zo cool?

Het werkt zonder externe experts: Veel andere methodes hebben een mens of een dure computer nodig om te zeggen of een antwoord goed is. Deze methode gebruikt de eigen intelligentie van de assistent als zijn eigen leraar.
Het werkt overal: Het is getest op wiskundige problemen, maar het werkt ook voor coderen en samenvatten. Het is alsof je de assistent leert hoe hij moet denken, niet alleen wat hij moet zeggen.
Het breekt de cirkel: De assistent leert dat het oké is om zijn eerdere antwoord te verwerpen als er nieuwe informatie komt. Hij stopt met blindelings vasthouden aan wat hij eerder zei.

Samenvatting in één zin

Deze paper laat zien hoe we slimme chatbots kunnen leren om niet vast te zitten in hun eigen fouten, door ze te laten vertrouwen op hun eigen beste momenten (als ze alle informatie hebben) als een kompas om hen terug te leiden naar het juiste pad tijdens een gesprek.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction" in het Nederlands.

Titel

Het doorbreken van Contextuele Inertie: Versterkend Leren met Enkele-Ronde Ankers voor Stabiele Multi-Turn Interactie

1. Het Probleem: Contextuele Inertie

Hoewel Large Language Models (LLMs) sterke redeneercapaciteiten vertonen wanneer ze volledige informatie in één keer (single-turn) krijgen, vertonen ze aanzienlijke kwetsbaarheden in multi-turn interacties. De auteurs introduceren het concept Contextuele Inertie: een fenomeen waarbij modellen stijf vasthouden aan eerdere redeneertraces, zelfs wanneer nieuwe informatie expliciet tegenstrijdig is of bestaande aannames corrigeert.

Het Symptoom: Wanneer een gebruiker in een later gesprek een voorwaarde aanpast (bijv. een budget verlagen of een foutieve aanname corrigeren), negeert het model deze updates vaak en blijft het vasthouden aan de oorspronkelijke (verkeerde) redenering.
De Oorzaak: Het model vertoont een "indiscriminatie" (ononderscheidend gedrag). Het integreert nieuwe constraints niet dynamisch, maar propageert eerder gegenereerde (vaak foutieve) context naar de volgende ronde.
Gevolg: Dit leidt tot een "Lost in Conversation" (LiC) situatie, waarbij de prestaties in multi-turn scenario's drastisch dalen ten opzichte van single-turn baselines. Analyse toont aan dat 70% tot 90% van de fouten in multi-turn gesprekken direct terug te voeren is op deze propagatie van eerdere fouten, in plaats van nieuwe redeneerfouten in de laatste ronde.

2. Methodologie: Reinforcement Learning with Single-Turn Anchors (RLSTA)

Om dit probleem op te lossen, stellen de auteurs RLSTA voor. In plaats van het model te leren om af te zien van antwoorden (abstention) of om verduidelijking te vragen (wat niet werkt in scenario's waar het model actief moet corrigeren), gebruiken ze de inherente sterke punten van het model als interne leidraad.

De methode bestaat uit drie kerncomponenten:

A. Latente Capaciteit Filtering (Data Voorbereiding)

Niet alle multi-turn gesprekken zijn geschikt voor training. De auteurs filteren datasets om alleen gevallen te selecteren waar:

Het model het probleem wel correct kan oplossen als alle informatie in één keer wordt gegeven (single-turn, $i_{full}$ ).
Het model het probleem foutief oplost wanneer dezelfde informatie sequentieel wordt gegeven (multi-turn, $H$ ).
Dit garandeert dat het model de "latent capability" (de kennis) bezit, maar dat de multi-turn interactie deze blokkeert door inertie.

B. Single-Turn Anker Reward ( $R_s$ )

Dit is de kerninnovatie. Tijdens het Reinforcement Learning (RL) proces wordt een extra beloningssignaal toegevoegd dat de multi-turn respons vergelijkt met de single-turn respons.

Concept: De single-turn respons (waar het model alle info heeft) fungeert als een stabiel "anker" of grondwaarheid.
Berekening: De reward $R_s$ is gebaseerd op de waarschijnlijkheid dat het model de huidige multi-turn respons zou genereren als het de volledige context ( $i_{full}$ ) zou hebben.
Doel: Dit trekt de generatie van het model weg van de bias van de eerdere conversatiegeschiedenis en verankert het bij het correcte redeneerpad dat het model zelf kent.

C. Training met GRPO

De auteurs gebruiken Group Relative Policy Optimization (GRPO) als trainingsalgoritme. De totale reward ( $R$ ) is een combinatie van:

Outcome Reward ( $R_v$ ): Een traditionele reward die controleert of het eindantwoord correct is (via een verifier).
Anchor Reward ( $R_s$ ): De reward die de alignering met de single-turn capaciteit waarborgt.
$R = R_v + \alpha R_s$
Waarbij $\alpha$ een hyperparameter is.

3. Belangrijkste Bijdragen

Identificatie van Contextuele Inertie: Het kwantificeren en definiëren van het "indiscriminatie"-karakter van inertie, waarbij wordt aangetoond dat modellen onverschillig vasthouden aan foutieve traces, ongeacht de kwaliteit van de conversatiegeschiedenis.
RLSTA Framework: Een generaliseerbare trainingsmethode die multi-turn stabiliteit bereikt zonder externe verifiers of abstention-strategieën, door gebruik te maken van interne single-turn capaciteiten als beloningssignaal.
Cross-Domein Generalisatie: Het bewijs dat training op wiskundige taken (GSM8K) leidt tot verbeterde prestaties in andere domeinen zoals code en samenvattingen, wat suggereert dat het doorbreken van inertie een fundamentele vaardigheid is.

4. Resultaten

De auteurs hebben RLSTA getest op diverse modellen (Qwen2.5, Qwen3, Llama-3.2) en scenario's (MT-Add: incrementele info, MT-Refine: correctie van fouten).

Prestatieverbetering: RLSTA presteert significant beter dan standaard fine-tuning (SFT), Direct Preference Optimization (DPO) en standaard GRPO.
- Op de MT-Add en MT-Refine taken voor wiskunde en code werden de scores aanzienlijk verhoogd (bijv. van 0.493 naar 0.715 voor Qwen2.5-3B op MT-Add).
Vergelijking met Abstention: RLSTA bereikt vergelijkbare of betere resultaten dan methoden die modellen leren om af te zien van antwoorden (zoals RLAAR), maar werkt ook in scenario's waar abstention niet mogelijk is (zoals MT-Refine).
Zonder Externe Verifiers: Zelfs zonder externe grondwaarheid-verificatie (alleen gebaseerd op de interne single-turn anker), behoudt RLSTA zijn effectiviteit, wat het toepasbaar maakt in domeinen waar geen automatische verifiers bestaan.
Behoud van Single-Turn Vaardigheden: De training verbetert de multi-turn prestaties zonder de oorspronkelijke single-turn redeneercapaciteiten te degraderen.
Langere Context: De methode behoudt de capaciteit om lange contexten te verwerken (geëvalueerd op samenvattings-taken).

5. Betekenis en Conclusie

Dit paper biedt een fundamentele doorbraak in het begrijpen en oplossen van de kwetsbaarheid van LLMs in dynamische, multi-turn dialogen. Door Contextuele Inertie te identificeren als de primaire oorzaak van degradatie, en deze aan te pakken via interne ankers in plaats van externe regels of passieve strategieën, biedt RLSTA een robuuste oplossing voor real-world toepassingen.

De methode is bijzonder waardevol omdat:

Het werkt zonder dure, handmatig ontworpen rewards per beurt.
Het generaliseert over verschillende domeinen (van wiskunde naar code).
Het het model leert om actief zijn eigen fouten te corrigeren in plaats van blind vast te houden aan het verleden, wat essentieel is voor complexe agentische workflows en collaboratieve probleemoplossing.

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Het Probleem: "Contextuele Traagheid" (Contextual Inertia)

De Oplossing: RLSTA (Versterkt Leren met "Ankers")

Waarom is dit zo cool?

Samenvatting in één zin

Titel

1. Het Probleem: Contextuele Inertie

2. Methodologie: Reinforcement Learning with Single-Turn Anchors (RLSTA)

A. Latente Capaciteit Filtering (Data Voorbereiding)

B. Single-Turn Anker Reward (RsR_sRs​)

C. Training met GRPO

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers

B. Single-Turn Anker Reward ( $R_s$ )