Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen slimme AI's samenwerken zonder elkaar in de war te sturen? Een onderzoek naar "Off-Track" Redeneren

Stel je voor dat je een groep zeer intelligente studenten hebt die allemaal geweldig zijn in wiskunde. Ze kunnen moeilijke problemen oplossen door hard na te denken en hun gedachten stap voor stap op te schrijven. Dit noemen we "solo-reasoning" (alleen redeneren).

Maar wat gebeurt er als we ze in een team zetten? Wat als ze gezamenlijk aan één probleem werken, waarbij de ene student een stap zet, de andere een suggestie doet, en misschien zelfs een derde student (of een menselijke leraar) ingrijpt om te zeggen: "Wacht even, die route is gevaarlijk, laten we hier een andere kant op gaan"?

Dit is wat de onderzoekers van Cornell University in hun paper voor ICLR 2026 onderzochten. Ze noemen dit Off-Trajectory Reasoning: het vermogen van een AI om mee te denken op een pad dat niet volledig door haarzelf is bedacht, maar door een mix van eigen gedachten en die van anderen.

Hier is de kern van hun ontdekkingen, vertaald in begrijpelijke taal:

1. De Twee Grote Tests: "Terugkrabbelen" en "Meekijken"

De onderzoekers bedachten twee tests om te zien hoe goed deze AI's samenwerken. Ze gebruiken twee metaforen:

Test 1: De "Aandachtstrekker" (Recoverability)
Stel je voor dat een student een wiskundeprobleem oplost. Plotseling komt er een andere student langs die zegt: "Wacht even, ik denk dat we het over de leeftijd van een dinosaurus moeten hebben..." en begint daarover te redeneren.
De vraag is: Kan de oorspronkelijke student dit verwarrende verhaal negeren, terugkrabbelen naar zijn eigen logische lijn en het oorspronkelijke probleem correct oplossen?
- Resultaat: Veel van de "sterkste" AI's (die de beste cijfers halen op standaardtoetsen) faalden hierin. Ze raakten in paniek of volgden het valse verhaal blindelings. Een kleinere, minder "slimme" AI bleek soms beter in staat om te zeggen: "Nee, dat is irrelevant, ik ga verder met mijn eigen berekening."
Test 2: De "Gids" (Guidability)
Stel je voor dat een student vastloopt op een heel moeilijk probleem. Een supersterke leraar komt langs en begint de oplossing uit te leggen. De student moet dit volgen en de rest van de oplossing afmaken.
De vraag is: Kan de student echt leren van de leraar en het probleem oplossen, of blijft hij vastzitten in zijn eigen beperkingen?
- Resultaat: Dit was een teleurstelling. Zelfs als de leraar het juiste pad liet zien, konden de meeste AI's het niet gebruiken om het probleem op te lossen. Het was alsof ze de instructies van de leraar lazen, maar dan toch weer hun eigen (verkeerde) weg insloegen. Ze konden hun eigen "horizon" niet verleggen door hulp van buitenaf.

2. De Verassende Conclusie: "Sterk" betekent niet "Flexibel"

Het meest verrassende was dit: Hoe beter een AI presteert op de standaardtoetsen, hoe slechter ze vaak samenwerkt.

De "topstudenten" (de grootste en slimste modellen) bleken erg fragiel. Ze waren zo getraind om hun eigen specifieke manier van denken te volgen, dat ze niet konden omgaan met afwijkingen. Ze waren als auto's die perfect rijden op een racecircuit, maar direct uit elkaar vallen zodra ze op een onverharde weg moeten rijden.

Kleinere modellen waren soms juist flexibeler en konden beter omgaan met de "verwarring" van een ander.

3. Waarom gebeurt dit? (De Oorzaken)

De onderzoekers keken naar hoe deze AI's getraind werden en vonden drie belangrijke oorzaken:

De Leraar (Distillatie): Als een AI wordt getraind door een "leraar" (een groter model) die zelf slecht kan omgaan met afleiding, dan leert de "leerling" diezelfde slechte gewoonte. Het is alsof een leerling de slechte gewoonten van zijn leraar overneemt, zelfs als de leraar de juiste antwoorden geeft.
Reinforcement Learning (RL): Het gebruik van beloningssystemen (waarbij de AI leert door fouten te maken en correcties te krijgen) hielp. AI's die dit hadden meegemaakt, waren beter in staat om terug te krabbelen van een verkeerd pad dan AI's die alleen maar voorbeelden hadden nagemaakt.
Te weinig Data: Soms wordt gedacht dat "minder is meer" (alleen de allerbeste voorbeelden gebruiken). Maar de onderzoekers vonden dat dit juist voor onstabiel gedrag zorgt. AI's getraind op een grote, gevarieerde dataset waren stabieler in samenwerking dan die met een zeer kleine, "perfecte" dataset.

Samenvatting in één zin

Hoewel onze slimste AI's fantastisch zijn in het oplossen van problemen op hun eentje, zijn ze vaak slechte teamspelers: ze raken snel in de war door afleiding en kunnen moeilijk leren van anderen, zelfs als die anderen het juiste antwoord hebben.

De les voor de toekomst: Als we AI's willen laten samenwerken (bijvoorbeeld in robots, medische systemen of veiligheidscontroles), moeten we ze niet alleen trainen op "goed antwoord geven", maar ook trainen op "goed luisteren en niet in paniek raken als iemand anders iets anders zegt".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) met redeneercapaciteiten (zoals OpenAI's o-series, DeepSeek-R1, Qwen3) zijn getraind om hun denkproces te verbaaliseren (Chain-of-Thought), wat leidt tot sterke prestaties op complexe taken zoals wiskunde en coderen. Deze transparantie suggereert een nieuwe richting: collaboratief redeneren, waarbij meerdere modellen (of een mens en een model) samenwerken op één gedeelde redeneertraject.

Echter, de huidige "solo-reasoning" modellen zijn getraind om alleen te redeneren. De kernvraag van dit paper is: Kunnen bestaande solo-reasoning LLMs effectief omgaan met "off-trajectory" tokens? Dit zijn denkstappen die zijn gegenereerd door andere modellen (of mensen) en die in het traject worden ingevoegd. De auteurs introduceren het concept van Off-Trajectory Reasoning: de vaardigheid van een model om nuttige stappen van anderen te gebruiken of afleidende stappen te negeren, zonder dat dit deel uitmaakt van zijn oorspronkelijke trainingsverdeling.

Methodologie: De "Twin Tests"

Om off-trajectory redenering te evalueren, stellen de auteurs twee complementaire tests voor, die de uitersten van het spectrum bestrijken:

Recoverability (Herstelbaarheid):
- Doel: Testen of een model kan herstellen van een misleidende of afleidende "steer" (invoeging) in zijn redeneertraject.
- Opzet: Een model start met een correct traject ( $r_{og}$ ). Op een bepaald punt wordt een afleidende redenatie ( $r_{steer}$ ) ingevoegd, gegenereerd door hetzelfde model maar voor een ander vraagstuk. Dit zorgt ervoor dat de afleiding logisch klinkt maar voor de oorspronkelijke vraag fout is.
- Meting: Kan het model de afleiding negeren en terugkeren naar de correcte redenering om het juiste antwoord te geven?
Guidability (Stuurbaarheid):
- Doel: Testen of een model kan bouwen op correcte, maar onvolledige redenering van een sterker model om problemen op te lossen die het zelf niet kan oplossen.
- Opzet: Het model start met een probleem dat het zelf niet kan oplossen (oplossingskans $\le 1/8$ ). Een sterker "gids"-model levert de eerste stappen van de oplossing ( $r_{steer}$ ).
- Meting: Kan het zwakkere model de gids volgen en het probleem succesvol afmaken?

Experimentele Opstelling:

Modellen: 15 open-weight LLMs (van 1.5B tot 32B parameters), waaronder families als DeepSeek-R1, Qwen3, QwQ en community-modellen.
Domeinen: Wiskunde (AIME, MATH-500, OlympiadBench) en Codering (CruxEval, HumanEval, MBPP).
Variabelen: De lengte van de afleiding/gids en het invoegpunt in het traject worden gevarieerd.

Belangrijkste Resultaten

Sterke Solo-Redenaars zijn geen Sterke Collaborators:
- Er is een tegengestelde correlatie gevonden tussen benchmark-prestaties en off-trajectory robuustheid. Modellen die uitstekend presteren op standaard benchmarks (zoals AM-Thinking-32B met 82.6% op wiskunde) zijn vaak extreem kwetsbaar voor afleidingen (herstelbaarheid slechts 33.4%).
- Kleinere modellen (zoals Qwen3-1.7B) tonen vaak een veel hogere herstelbaarheid (98.4%) ondanks lagere benchmark-scores.
- Conclusie: Benchmark-optimalisatie garandeert geen robustheid tegen off-distribution inputs.
Het "Onzichtbare" Plafond voor Stuurbaarheid (Guidability):
- Voor wiskundige problemen is de stuurbaarheid van alle geteste modellen extreem laag (< 9.2% op de gedeelde set). Modellen kunnen zelfs correcte stappen van een gids niet effectief benutten om hun inherent vermogensgrens te doorbreken.
- Voor codering is de stuurbaarheid hoger (tot 47.3%), maar een analyse toont aan dat dit vaak komt doordat de "gids" al het antwoord bevatte in de ingevoegde tekst, en het model faalt in het herkennen van deze correcte logica.
Kritieke Impact van het Begin van het Traject:
- Afleidingen die direct aan het begin van het traject worden ingevoegd (0%), leiden tot de grootste prestatiedaling.
- Een ablatiestudie toont aan dat het behouden van de eerste alinea (waar het model de vraag herhaalt) cruciaal is voor het "ankeren" van de redenering. Zonder deze herhaling is het model veel gevoeliger voor afleiding.

Gestuurde Studies: Invloed van Post-Training Beslissingen

De auteurs isoleren drie factoren die off-trajectory gedrag beïnvloeden:

Keuze van de Distillatie-Leraar (Teacher):
- Modellen die worden gedistilleerd van een leraar met slechte herstelbaarheid (zoals AM-Thinking-32B), erven deze kwetsbaarheid over, zelfs als ze alleen worden getraind op de correcte trajecten van de leraar.
- Dit suggereert dat kwetsbaarheid is gecodeerd in de redeneerstijl en niet alleen in de juistheid van de oplossing.
Reinforcement Learning (RL) vs. Supervised Fine-Tuning (SFT):
- Waar SFT vaak verzadigt, kan RL (zoals GRPO) de herstelbaarheid aanzienlijk verbeteren.
- RL exposeert modellen aan mislukte trajecten en belooft herstel, waardoor ze leren wat ze moeten doen als het redeneren "fout" gaat. Dit vult het gat dat door SFT is achtergelaten.
Data Selectie Strategie ("Less is More"):
- Modellen getraind op zeer kleine, hoogwaardige datasets (zoals LIMO) vertonen een hoge variantie in herstelbaarheid tussen verschillende checkpoints, ondanks vergelijkbare benchmark-scores.
- Over-optimalisatie op benchmarks via strenge data-filtering kan leiden tot instabiliteit in off-trajectory scenario's.

Bijdragen en Significantie

Nieuw Evaluatiekader: De paper introduceert een gestructureerd framework (Recoverability en Guidability) om multi-model samenwerking te evalueren, wat een aanvulling is op bestaande solo-benchmarks.
Kritische Beperkingen: Het werk onthult dat "state-of-the-art" reasoning modellen vaak fragiel zijn wanneer ze worden geconfronteerd met externe denkstappen. Dit heeft grote implicaties voor agentic systemen, waar modellen constant moeten omgaan met tool-outputs en menselijke interventies.
Trainingsrichting: De bevindingen bieden actieerbare inzichten voor het trainen van toekomstige collaboratieve modellen:
- Selecteer distillatie-leraars op basis van robuustheid, niet alleen op benchmark-scores.
- Gebruik RL om herstelmechanismen te versterken.
- Vermijd overmatige data-filtering die variantie introduceert.

Kortom, dit paper waarschuwt dat de huidige generatie reasoning-LLMs niet klaar is voor echte samenwerking en dat off-trajectory robustheid een expliciete doelstelling moet zijn tijdens het trainingsproces, in plaats van een bijproduct van benchmark-optimalisatie.

Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

1. De Twee Grote Tests: "Terugkrabbelen" en "Meekijken"

2. De Verassende Conclusie: "Sterk" betekent niet "Flexibel"

3. Waarom gebeurt dit? (De Oorzaken)

Samenvatting in één zin

Probleemstelling

Methodologie: De "Twin Tests"

Belangrijkste Resultaten

Gestuurde Studies: Invloed van Post-Training Beslissingen

Bijdragen en Significantie

Meer zoals dit

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas