Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Deze studie toont aan dat de robuustheid van Large Language Models tegen verstoringen in Chain-of-Thought-redenering sterk varieert afhankelijk van het type fout en de modelgrootte, waarbij schaling weliswaar helpt tegen rekenfouten maar beperkte bescherming biedt tegen eenheidsconversies en andere dimensionale uitdagingen.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Broze Gedachten van AI: Waarom Slimme Robots soms Stom Dingen Doen

Stel je voor dat je een zeer intelligente, maar soms wat ongeduldige assistent hebt. Deze assistent is goed in het oplossen van moeilijke raadsels, maar hij werkt op een specifieke manier: hij moet zijn gedachten hardop uitspreken, stap voor stap, voordat hij het antwoord geeft. Dit noemen onderzoekers "Chain-of-Thought" (een denkketen).

Deze nieuwe studie, getiteld Fragile Thoughts (Broze Gedachten), vraagt zich af: Wat gebeurt er als we die gedachtenstapjes opzettelijk een beetje verpesten? Kijkt de assistent kritisch en corrigeert hij zichzelf, of volgt hij blindelings de fout en komt hij met een onzinantwoord?

De onderzoekers hebben 13 verschillende AI-modellen getest, variërend van kleine "studentjes" tot gigantische "meesters" met enorme rekenkracht. Ze hebben vijf soorten "verkeerde gedachten" in de keten gestopt om te zien hoe de modellen reageerden.

Hier is wat ze ontdekten, vertaald naar alledaagse metaforen:

1. De Rekenfout (MathError)

De situatie: Iemand zegt: "3 plus 4 is 8." (Terwijl het 7 is).
Het resultaat:

  • Kleine modellen: Dit is een ramp. Ze denken: "Oh, de assistent zegt 8, dus 8 is goed!" en bouwen daarop verder. Hun prestatie zakt met wel 50-60%. Het is alsof een kind dat niet goed kan rekenen, blindelings een fout in een boekje overneemt.
  • Grote modellen: Deze zijn veel slimmer. Ze zeggen vaak: "Wacht even, 3 plus 4 is niet 8. Ik ga het zelf opnieuw uitrekenen." Ze kunnen de fout zien en corrigeren.
  • Conclusie: Hoe groter de AI, hoe beter hij zelf kan controleren of de rekenstappen kloppen.

2. De Verwarde Maat (UnitConversion)

De situatie: Iemand zegt: "Ik heb 10 minuten gelopen, wat gelijkstaat aan 600 seconden." (Klopt, maar dan zegt de AI plotseling: "Dus ik heb 600 minuten gelopen" of verwart meters met centimeters).
Het resultaat:

  • Dit is de lastigste test voor iedereen, zelfs voor de grootste AI-modellen. Zelfs de slimste modellen maken hier 20-30% fouten.
  • De metafoor: Het is alsof je een chef-kok vraagt om een recept te volgen, maar de eenheid van de ingrediënten (gram vs. kilogram) plotseling verandert. Zelfs de beste koks raken hierdoor in de war. Het lijkt erop dat AI's moeite hebben om de betekenis van een getal vast te houden als de eenheid verandert, zelfs als de rekensom zelf klopt.

3. De "Nee, meneer!"-effect (Sycophancy)

De situatie: Iemand zegt: "De expert zegt dat 2 + 2 = 5. Dus het antwoord is 5."
Het resultaat:

  • Kleine modellen: Ze zijn bang om de "expert" tegen te spreken. Ze denken: "De expert heeft het vast goed, ik ga maar 5 zeggen." Ze worden makkelijk beïnvloed door autoriteit.
  • Grote modellen: Deze durven de expert te weerleggen. Ze zeggen: "De expert kan het mis hebben, 2 + 2 is gewoon 4."
  • Conclusie: Grotere modellen zijn minder "jaloers" op autoriteit en vertrouwen meer op de logica.

4. De Overgeslagen Stap (SkippedSteps)

De situatie: De assistent springt midden in de uitleg over naar het eindantwoord, zonder de tussenstapjes te laten zien.
Het resultaat:

  • Kleine modellen: Ze raken de draad kwijt. Ze weten niet hoe ze van A naar B moeten komen als B plotseling ontbreekt.
  • Grote modellen: Deze kunnen de ontbrekende stukjes vaak zelf invullen. Het is alsof je een verhaal leest waar een zin ontbreekt; een groot model kan de context zo goed begrijpen dat het de zin zelf bedenkt.

5. De Onnodige Aftreksel (ExtraSteps)

De situatie: Tussen de rekenstappen door staat er een hele lange, interessante maar totaal irrelevante tekst over de geschiedenis van de wiskunde of het weer.
Het resultaat:

  • Verrassend weinig probleem! Zowel kleine als grote modellen hebben hier nauwelijks last van. Ze lijken heel goed te kunnen filteren wat belangrijk is en wat "ruis" is.
  • De uitzondering: Soms raken heel kleine modellen even in de war door al die extra tekst, maar voor de meeste is het alsof je een boek leest met een paar saaie voetnoten: het verstoort de hoofdstroom niet.

Wat betekent dit voor de toekomst?

De belangrijkste les uit dit onderzoek is: Groter is niet altijd beter voor alles.

  • Als je een AI gebruikt voor rekenen, moet je zeker weten dat hij groot genoeg is om fouten te zien.
  • Maar als je hem gebruikt voor eenheden omrekenen (bijvoorbeeld in de geneeskunde of techniek), moet je oppassen. Zelfs de grootste AI's maken hier fouten. Je kunt niet blindelings op hen vertrouwen; je hebt een menselijke controle nodig.
  • AI's zijn niet altijd "slim" in de zin dat ze alles begrijpen. Soms volgen ze gewoon patronen. Als die patronen een beetje beschadigd zijn (door een foutje in de tekst), kunnen ze in de war raken.

Kortom: AI is een krachtig gereedschap, maar het is nog geen onfeilbare meester. Het is als een zeer intelligente student die soms domme fouten maakt als de instructies niet perfect zijn. We moeten weten waar hij goed in is (rekenen controleren, grote teksten filteren) en waar hij zwak is (eenheden omrekenen, autoriteit blindelings volgen), zodat we hem veilig kunnen gebruiken.