Each language version is independently generated for its own context, not a direct translation.
Titel: Kunnen slimme AI's samenwerken zonder elkaar in de war te sturen? Een onderzoek naar "Off-Track" Redeneren
Stel je voor dat je een groep zeer intelligente studenten hebt die allemaal geweldig zijn in wiskunde. Ze kunnen moeilijke problemen oplossen door hard na te denken en hun gedachten stap voor stap op te schrijven. Dit noemen we "solo-reasoning" (alleen redeneren).
Maar wat gebeurt er als we ze in een team zetten? Wat als ze gezamenlijk aan één probleem werken, waarbij de ene student een stap zet, de andere een suggestie doet, en misschien zelfs een derde student (of een menselijke leraar) ingrijpt om te zeggen: "Wacht even, die route is gevaarlijk, laten we hier een andere kant op gaan"?
Dit is wat de onderzoekers van Cornell University in hun paper voor ICLR 2026 onderzochten. Ze noemen dit Off-Trajectory Reasoning: het vermogen van een AI om mee te denken op een pad dat niet volledig door haarzelf is bedacht, maar door een mix van eigen gedachten en die van anderen.
Hier is de kern van hun ontdekkingen, vertaald in begrijpelijke taal:
1. De Twee Grote Tests: "Terugkrabbelen" en "Meekijken"
De onderzoekers bedachten twee tests om te zien hoe goed deze AI's samenwerken. Ze gebruiken twee metaforen:
Test 1: De "Aandachtstrekker" (Recoverability)
Stel je voor dat een student een wiskundeprobleem oplost. Plotseling komt er een andere student langs die zegt: "Wacht even, ik denk dat we het over de leeftijd van een dinosaurus moeten hebben..." en begint daarover te redeneren.
De vraag is: Kan de oorspronkelijke student dit verwarrende verhaal negeren, terugkrabbelen naar zijn eigen logische lijn en het oorspronkelijke probleem correct oplossen?- Resultaat: Veel van de "sterkste" AI's (die de beste cijfers halen op standaardtoetsen) faalden hierin. Ze raakten in paniek of volgden het valse verhaal blindelings. Een kleinere, minder "slimme" AI bleek soms beter in staat om te zeggen: "Nee, dat is irrelevant, ik ga verder met mijn eigen berekening."
Test 2: De "Gids" (Guidability)
Stel je voor dat een student vastloopt op een heel moeilijk probleem. Een supersterke leraar komt langs en begint de oplossing uit te leggen. De student moet dit volgen en de rest van de oplossing afmaken.
De vraag is: Kan de student echt leren van de leraar en het probleem oplossen, of blijft hij vastzitten in zijn eigen beperkingen?- Resultaat: Dit was een teleurstelling. Zelfs als de leraar het juiste pad liet zien, konden de meeste AI's het niet gebruiken om het probleem op te lossen. Het was alsof ze de instructies van de leraar lazen, maar dan toch weer hun eigen (verkeerde) weg insloegen. Ze konden hun eigen "horizon" niet verleggen door hulp van buitenaf.
2. De Verassende Conclusie: "Sterk" betekent niet "Flexibel"
Het meest verrassende was dit: Hoe beter een AI presteert op de standaardtoetsen, hoe slechter ze vaak samenwerkt.
De "topstudenten" (de grootste en slimste modellen) bleken erg fragiel. Ze waren zo getraind om hun eigen specifieke manier van denken te volgen, dat ze niet konden omgaan met afwijkingen. Ze waren als auto's die perfect rijden op een racecircuit, maar direct uit elkaar vallen zodra ze op een onverharde weg moeten rijden.
Kleinere modellen waren soms juist flexibeler en konden beter omgaan met de "verwarring" van een ander.
3. Waarom gebeurt dit? (De Oorzaken)
De onderzoekers keken naar hoe deze AI's getraind werden en vonden drie belangrijke oorzaken:
- De Leraar (Distillatie): Als een AI wordt getraind door een "leraar" (een groter model) die zelf slecht kan omgaan met afleiding, dan leert de "leerling" diezelfde slechte gewoonte. Het is alsof een leerling de slechte gewoonten van zijn leraar overneemt, zelfs als de leraar de juiste antwoorden geeft.
- Reinforcement Learning (RL): Het gebruik van beloningssystemen (waarbij de AI leert door fouten te maken en correcties te krijgen) hielp. AI's die dit hadden meegemaakt, waren beter in staat om terug te krabbelen van een verkeerd pad dan AI's die alleen maar voorbeelden hadden nagemaakt.
- Te weinig Data: Soms wordt gedacht dat "minder is meer" (alleen de allerbeste voorbeelden gebruiken). Maar de onderzoekers vonden dat dit juist voor onstabiel gedrag zorgt. AI's getraind op een grote, gevarieerde dataset waren stabieler in samenwerking dan die met een zeer kleine, "perfecte" dataset.
Samenvatting in één zin
Hoewel onze slimste AI's fantastisch zijn in het oplossen van problemen op hun eentje, zijn ze vaak slechte teamspelers: ze raken snel in de war door afleiding en kunnen moeilijk leren van anderen, zelfs als die anderen het juiste antwoord hebben.
De les voor de toekomst: Als we AI's willen laten samenwerken (bijvoorbeeld in robots, medische systemen of veiligheidscontroles), moeten we ze niet alleen trainen op "goed antwoord geven", maar ook trainen op "goed luisteren en niet in paniek raken als iemand anders iets anders zegt".
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.