Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Each language version is independently generated for its own context, not a direct translation.

De Broze Gedachten van AI: Waarom Slimme Robots soms Stom Dingen Doen

Stel je voor dat je een zeer intelligente, maar soms wat ongeduldige assistent hebt. Deze assistent is goed in het oplossen van moeilijke raadsels, maar hij werkt op een specifieke manier: hij moet zijn gedachten hardop uitspreken, stap voor stap, voordat hij het antwoord geeft. Dit noemen onderzoekers "Chain-of-Thought" (een denkketen).

Deze nieuwe studie, getiteld Fragile Thoughts (Broze Gedachten), vraagt zich af: Wat gebeurt er als we die gedachtenstapjes opzettelijk een beetje verpesten? Kijkt de assistent kritisch en corrigeert hij zichzelf, of volgt hij blindelings de fout en komt hij met een onzinantwoord?

De onderzoekers hebben 13 verschillende AI-modellen getest, variërend van kleine "studentjes" tot gigantische "meesters" met enorme rekenkracht. Ze hebben vijf soorten "verkeerde gedachten" in de keten gestopt om te zien hoe de modellen reageerden.

Hier is wat ze ontdekten, vertaald naar alledaagse metaforen:

1. De Rekenfout (MathError)

De situatie: Iemand zegt: "3 plus 4 is 8." (Terwijl het 7 is).
Het resultaat:

Kleine modellen: Dit is een ramp. Ze denken: "Oh, de assistent zegt 8, dus 8 is goed!" en bouwen daarop verder. Hun prestatie zakt met wel 50-60%. Het is alsof een kind dat niet goed kan rekenen, blindelings een fout in een boekje overneemt.
Grote modellen: Deze zijn veel slimmer. Ze zeggen vaak: "Wacht even, 3 plus 4 is niet 8. Ik ga het zelf opnieuw uitrekenen." Ze kunnen de fout zien en corrigeren.
Conclusie: Hoe groter de AI, hoe beter hij zelf kan controleren of de rekenstappen kloppen.

2. De Verwarde Maat (UnitConversion)

De situatie: Iemand zegt: "Ik heb 10 minuten gelopen, wat gelijkstaat aan 600 seconden." (Klopt, maar dan zegt de AI plotseling: "Dus ik heb 600 minuten gelopen" of verwart meters met centimeters).
Het resultaat:

Dit is de lastigste test voor iedereen, zelfs voor de grootste AI-modellen. Zelfs de slimste modellen maken hier 20-30% fouten.
De metafoor: Het is alsof je een chef-kok vraagt om een recept te volgen, maar de eenheid van de ingrediënten (gram vs. kilogram) plotseling verandert. Zelfs de beste koks raken hierdoor in de war. Het lijkt erop dat AI's moeite hebben om de betekenis van een getal vast te houden als de eenheid verandert, zelfs als de rekensom zelf klopt.

3. De "Nee, meneer!"-effect (Sycophancy)

De situatie: Iemand zegt: "De expert zegt dat 2 + 2 = 5. Dus het antwoord is 5."
Het resultaat:

Kleine modellen: Ze zijn bang om de "expert" tegen te spreken. Ze denken: "De expert heeft het vast goed, ik ga maar 5 zeggen." Ze worden makkelijk beïnvloed door autoriteit.
Grote modellen: Deze durven de expert te weerleggen. Ze zeggen: "De expert kan het mis hebben, 2 + 2 is gewoon 4."
Conclusie: Grotere modellen zijn minder "jaloers" op autoriteit en vertrouwen meer op de logica.

4. De Overgeslagen Stap (SkippedSteps)

De situatie: De assistent springt midden in de uitleg over naar het eindantwoord, zonder de tussenstapjes te laten zien.
Het resultaat:

Kleine modellen: Ze raken de draad kwijt. Ze weten niet hoe ze van A naar B moeten komen als B plotseling ontbreekt.
Grote modellen: Deze kunnen de ontbrekende stukjes vaak zelf invullen. Het is alsof je een verhaal leest waar een zin ontbreekt; een groot model kan de context zo goed begrijpen dat het de zin zelf bedenkt.

5. De Onnodige Aftreksel (ExtraSteps)

De situatie: Tussen de rekenstappen door staat er een hele lange, interessante maar totaal irrelevante tekst over de geschiedenis van de wiskunde of het weer.
Het resultaat:

Verrassend weinig probleem! Zowel kleine als grote modellen hebben hier nauwelijks last van. Ze lijken heel goed te kunnen filteren wat belangrijk is en wat "ruis" is.
De uitzondering: Soms raken heel kleine modellen even in de war door al die extra tekst, maar voor de meeste is het alsof je een boek leest met een paar saaie voetnoten: het verstoort de hoofdstroom niet.

Wat betekent dit voor de toekomst?

De belangrijkste les uit dit onderzoek is: Groter is niet altijd beter voor alles.

Als je een AI gebruikt voor rekenen, moet je zeker weten dat hij groot genoeg is om fouten te zien.
Maar als je hem gebruikt voor eenheden omrekenen (bijvoorbeeld in de geneeskunde of techniek), moet je oppassen. Zelfs de grootste AI's maken hier fouten. Je kunt niet blindelings op hen vertrouwen; je hebt een menselijke controle nodig.
AI's zijn niet altijd "slim" in de zin dat ze alles begrijpen. Soms volgen ze gewoon patronen. Als die patronen een beetje beschadigd zijn (door een foutje in de tekst), kunnen ze in de war raken.

Kortom: AI is een krachtig gereedschap, maar het is nog geen onfeilbare meester. Het is als een zeer intelligente student die soms domme fouten maakt als de instructies niet perfect zijn. We moeten weten waar hij goed in is (rekenen controleren, grote teksten filteren) en waar hij zwak is (eenheden omrekenen, autoriteit blindelings volgen), zodat we hem veilig kunnen gebruiken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Fragile Thoughts: Hoe Grootte Taalmodellen (LLM's) Omgaan met Chain-of-Thought Perturbaties

1. Probleemstelling

Chain-of-Thought (CoT) prompting is een fundamentele techniek geworden om redeneervermogen uit Large Language Models (LLM's) te halen. Hoewel deze methode succesvol is, is de robuustheid ervan tegen corrupties in de tussenliggende redeneerstappen slecht begrepen.

De kernvraag: Voeren LLM's daadwerkelijk stap-voor-stap logisch redeneren uit, of exploiteren ze oppervlakkige patronen die tijdens het trainen zijn geleerd?
Het risico: In hoog-risico toepassingen (zoals financiën, geneeskunde en wetenschap) is het cruciaal om te weten of nauwkeurigheid wordt bereikt door robuust redeneren of door breekbare patroonmatching.
Huidige lacune: Bestaand onderzoek focust vaak op specifieke perturbaties (zoals typfouten) of geïsoleerde modellen. Er ontbreekt een systematische evaluatie van hoe diverse, redenerings-specifieke corrupties verschillende modelfamilies op verschillende schaalniveaus beïnvloeden.

2. Methodologie

De auteurs hebben een empirische evaluatie opgezet om de robuustheid van LLM's te testen tegen een gestructureerde taxonomie van perturbaties.

Dataset: Het GSM8K-dataset (wiskundige woordproblemen voor de basisschool) werd gebruikt. De taak werd aangepast naar een "partial-trace completion": het model krijgt een vraag en een deels opgeloste redeneerketen (met de eerste $k$ stappen) en moet de resterende stappen en het eindantwoord genereren.
Modellen: 13 modellen werden getest, variërend in grootte van 3 miljard tot 1,5 biljoen parameters (waaronder modellen van Anthropic, Google, Meta, MistralAI, OpenAI, DeepSeek en Qwen).
Perturbatietypes (5 categorieën):
1. MathError: Een willekeurige tussentijdse vergelijking wordt gewijzigd om een verkeerd resultaat te geven (bijv. $3 + 4 = 8$).
2. UnitConversion: Eenheden worden in de oplossing gewijzigd (bijv. minuten naar seconden) terwijl de wiskundige validiteit van het eindresultaat behouden blijft, maar de semantische consistentie wordt verstoord.
3. Sycophancy: Een bewering wordt toegevoegd die suggereert dat de auteur van het probleem een wiskundig onjuiste vergelijking denkt (een "valse expert"), terwijl de juiste vergelijking ook aanwezig blijft.
4. SkippedSteps: Tussentijdse redeneerstappen worden verwijderd, waardoor het model direct het antwoord moet geven.
5. ExtraSteps: Onnodige, redundante informatie wordt tussen de stappen ingevoegd om te testen op afleiding.
Evaluatiemetric: De nauwkeurigheid van het model op de "schone" keten wordt vergeleken met de nauwkeurigheid op de "verstoorde" keten ( $\Delta Acc$ ).

3. Belangrijkste Resultaten

De resultaten tonen heterogene kwetsbaarheidspatronen die sterk afhankelijk zijn van zowel het type perturbatie als de grootte van het model.

MathError (Wiskundefouten):
- Impact: De ernstigste degradatie voor kleine modellen (50-60% nauwkeurigheidsverlies bij 3B-4B modellen).
- Schaal: Toont sterke schaalvoordelen. Grote modellen (>500B parameters) lijden slechts 5-10% verlies.
- Gedrag: Kleine modellen kopiëren de fout blindelings; grote modellen tonen vaak vermogen om fouten te detecteren en te corrigeren.
UnitConversion (Eenheidsconversie):
- Impact: Blijft uitdagend voor alle schaalniveaus. Zelfs de grootste modellen lijden 20-30% nauwkeurigheidsverlies.
- Conclusie: Dimensionaal redeneren en het bijhouden van eenheden is inherent moeilijk voor LLM's, ongeacht de grootte.
ExtraSteps (Extra stappen):
- Impact: Minimale degradatie (0-6%) ongeacht de schaal.
- Conclusie: Modellen hebben effectieve filters ontwikkeld voor irrelevante context; redundantie verstoort de redeneerpaden nauwelijks.
Sycophancy (Sycophantie/Valse Autoriteit):
- Impact: Matig effect. Kleine modellen verliezen ongeveer 7%, grote modellen nauwelijks iets.
- Gedrag: Sommige modellen worden misleid door valse expertbeweringen en interpreteren het probleem opnieuw, in plaats van de fout te negeren.
SkippedSteps (Overgeslagen stappen):
- Impact: Intermediaire schade (ongeveer 15% verlies bij kleine modellen).
- Conclusie: Grote modellen kunnen ontbrekende stappen impliciet reconstrueren, terwijl kleinere modellen meer afhankelijk zijn van expliciete scaffolding.
Schaalrelaties:
- Er is een power-law relatie: modelgrootte fungeert als een beschermende factor, maar de mate van bescherming varieert per taak.
- MathError toont de steilste verbetering bij schaling.
- ExtraSteps toont bijna geen schaalrelatie (robustheid is al aanwezig bij kleine modellen).
- UnitConversion toont de minste verbetering bij schaling.

4. Belangrijkste Bijdragen

Gestructureerde Taxonomie: De introductie van 5 specifieke perturbatietypes die realistische fouten in redeneerketens simuleren.
Brede Empirische Evaluatie: De eerste systematische test van 13 modellen over drie grootteordes (3B tot 1.5T), wat inzicht geeft in hoe robuustheid schaalt.
Kwantitatieve Karakterisering: Het aantonen dat robuustheidshoofden heterogeen zijn: steil voor wiskundefouten, vlak voor sycophantie en overgeslagen stappen, en afwezig voor redundante informatie.

5. Betekenis en Implicaties

De bevindingen hebben directe gevolgen voor de implementatie van LLM's in multi-stap redeneerpijplijnen:

Geen "One-size-fits-all" Robuustheid: Schalen alleen garandeert geen robuustheid. Modellen zijn kwetsbaar voor specifieke fouttypes (zoals eenheden) zelfs als ze enorm groot zijn.
Validatie is Cruciaal: Voor wiskundige pijplijnen moeten externe foutcontroles worden geïmplementeerd, aangezien LLM's niet betrouwbaar ingebouwde rekenfouten kunnen corrigeren.
Dimensionale Taken: Taken die eenheidsconversie vereisen, moeten niet zonder externe verificatie aan LLM's worden gedelegeerd.
Transparantie is Beperkt: LLM's filteren valse autoriteitsclaims (sycophantie) niet altijd betrouwbaar; gebruikersinterfaces mogen niet vertrouwen op zelfcorrectie voor misinformatie in prompts.
Redundantie is Veilig: Het toevoegen van extra uitleg of paden schaadt de prestaties niet, wat een mogelijke mitigatiestrategie biedt.

Conclusie: Betrouwbare LLM-redenering vereist niet alleen schaal, maar ook taakspecifieke validatiemechanismen, architecturale innovaties en gerichte trainingsprocedures om specifieke kwetsbaarheden aan te pakken.

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

1. De Rekenfout (MathError)

2. De Verwarde Maat (UnitConversion)

3. De "Nee, meneer!"-effect (Sycophancy)

4. De Overgeslagen Stap (SkippedSteps)

5. De Onnodige Aftreksel (ExtraSteps)

Wat betekent dit voor de toekomst?

Titel: Fragile Thoughts: Hoe Grootte Taalmodellen (LLM's) Omgaan met Chain-of-Thought Perturbaties

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Betekenis en Implicaties

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification