Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep van 200 identieke koks hebt. Ze krijgen allemaal exact hetzelfde recept (de data) en dezelfde ingrediënten, maar ze beginnen met een heel klein verschil: de ene kok roert zijn soep met de klok mee, de andere tegen de klok in, en een derde begint net iets sneller. Dit noemen we in de wereld van kunstmatige intelligentie "training randomnes" of willekeur tijdens het leren.

De vraag die Romain, Jérémie en François-Xavier in hun paper stellen, is heel simpel: Als deze koks allemaal een gerecht maken dat er precies hetzelfde uitziet, leggen ze dan ook uit waarom het zo lekker is?

Hun antwoord is verrassend: Nee, niet altijd. En hoe groot dat verschil is, hangt af van drie dingen: de context, het type gerecht en de taak zelf.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Context: Het verschil tussen een geordende lijst en een blikje met losse letters

Stel je voor dat je een zin moet uitleggen.

Scenario A: De zin is "John houdt van appels".
Scenario B: De woorden zijn door elkaar geschud: "appels van houdt John".

De onderzoekers lieten hun koks (de AI-modellen) deze zinnen leren. Als de zinnen netjes op volgorde stonden, waren de uitleggen van de koks bijna identiek. Ze wezen allemaal op het woord "John" als het belangrijkste.
Maar als de woorden door elkaar zaten, begonnen de koks te twijfelen. Sommigen wezen op "appels", anderen op "houdt".
De les: De volgorde van de woorden (de context) maakt uit. Als de zinnen wat rommeliger zijn, wordt de uitleg van de AI onbetrouwbaarder. Het is alsof je probeert een verhaal te vertellen terwijl iemand de kaarten van je hand door elkaar schudt; je verhaal blijft hetzelfde, maar hoe je het vertelt, wordt chaotischer.

2. De Klasse: Het zoeken naar een speld in een hooiberg

Soms moet een AI een beslissing nemen op basis van iets dat niet aanwezig is.

Klas A: De zin bevat het woord "John".
Klas B: De zin bevat geen "John" (misschien staat er "James" of helemaal niets).

Als de AI moet zeggen: "Dit is Klas A omdat er 'John' in staat", is dat makkelijk. De AI wijst naar "John" en zegt: "Kijk, daar is het!"
Maar als de AI moet zeggen: "Dit is Klas B omdat er geen 'John' is", is dat lastiger. Er is geen specifiek woord om naar te wijzen.
De onderzoekers zagen dat de koks hier veel minder eensgezind waren. Als er geen duidelijk "speld" (een belangrijk woord) is om naar te wijzen, beginnen de koks te gokken over welke andere woorden misschien wel belangrijk zijn. De uitleg wordt dan wisselvallig, alsof ze in het donker proberen te raden waar de speld zit.

3. De Taak: Een simpele sorteerklus vs. een complexe filosofische discussie

Tot slot keken ze naar twee heel verschillende taken:

Taak 1 (ArXiv): Het onderscheiden van wetenschappelijke artikelen over sterrenkunde versus wiskunde. Dit is als het sorteren van rode en blauwe sokken. De woorden zijn heel duidelijk verschillend (bijv. "ster" vs. "formule").
Taak 2 (InfOpinions): Het onderscheiden van nieuwsartikelen van opiniestukken. Dit is als het proberen te raden of iemand boos of blij is, puur op basis van de toon. Dit is veel subtieler.

De onderzoekers zagen dat de koks bij de "sokken-sorteerklus" (sterrenkunde) heel consistent waren in hun uitleg. Maar bij de "gevoels-sorteerklus" (opinie vs. nieuws) waren ze het veel minder eens.
De les: Hoe moeilijker en subtieler de taak is, hoe meer de AI afhankelijk wordt van de willekeur tijdens het leren. Bij moeilijke taken is de "uitleg" van de AI minder stabiel.

Wat betekent dit voor ons?

De kernboodschap van dit paper is als volgt:

Als je een AI vraagt om iets uit te leggen, moet je niet alleen kijken naar wat het zegt, maar ook naar hoe betrouwbaar die uitleg is.

Als de taak makkelijk is en de zinnen duidelijk, kun je de uitleg vertrouwen.
Maar als de taak moeilijk is, of als er geen duidelijk "woord" is dat de beslissing bepaalt, dan kan de uitleg van de AI puur toeval zijn. Twee keer dezelfde AI trainen kan leiden tot twee totaal verschillende redenen voor hetzelfde antwoord.

Conclusie in één zin:
Het is alsof je een groep detectives vraagt een misdaad op te lossen; bij een simpele zaak met duidelijke vingerafdrukken geven ze allemaal hetzelfde verhaal, maar bij een complexe zaak zonder bewijsmateriaal, vertellen ze allemaal een ander, willekeurig verhaal over wie de dader zou kunnen zijn. De onderzoekers waarschuwen ons om daar rekening mee te houden als we AI-uitingen serieus nemen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Sensitivity of LLMs' Explanations to the Training Randomness: Context, Class & Task Dependencies" in het Nederlands.

Probleemstelling

Hoewel Transformer-modellen een hoeksteen zijn geworden in de Natural Language Processing (NLP), blijft het verklaren van hun beslissingen een uitdaging. Een recent inzicht is dat hetzelfde model, getraind op dezelfde data maar met een andere trainingsrandomness (willekeurigheid in initialisatie en shuffling), aanzienlijk verschillende verklaringen kan opleveren.

De huidige literatuur analyseert vaak individuele voorbeelden, maar dit paper stelt dat men de verdeling van verklaringen moet analyseren in plaats van enkelvoudige instanties. De kernvraag is: hoe beïnvloeden syntactische context, de te leren klassen en de specifieke taak de gevoeligheid van deze verklaringen voor trainingsrandomness?

Methodologie

De auteurs hebben een experimenteel ontwerp opgezet om de stabiliteit van verklaringen te meten onder verschillende voorwaarden:

Modellen en Data:
- Gebruik van RoBERTa-base voor Engels en CamemBERT-base voor Frans.
- Per dataset werden 200 modellen gefinetuned met identieke hyperparameters, maar elk met een andere random seed. De seed controleert de volgorde van de trainingsdata, dropout-neuronen en de initialisatie van de classificatiekop.
- Er werd een subset van $m$ equivalente modellen geselecteerd die geen significant verschil in nauwkeurigheid op de testset vertoonden.
- Er werden "compatibele teksten" geselecteerd: teksten waarop alle modellen dezelfde label voorspellen.
Verklaringstechniek:
- Layer-wise Relevance Propagation (LRP) werd gebruikt om deterministische verklaringen te genereren. LRP levert per token een relevantiewaarde op.
- LRP werd gekozen vanwege de goede balans tussen geloofwaardigheid (plausibility) en trouw (faithfulness).
Meting (Stabiliteitsmetriek):
- De auteurs gebruiken de Mean Correlation With Mean Explanation (MCWME) metriek.
- Dit werkt door een gemiddelde verklaring te berekenen op basis van een deel van de modellen en vervolgens de correlatie te meten tussen de verklaringen van de overige modellen en dit gemiddelde (via leave-one-out cross-validatie).
- Een hoge MCWME-waarde duidt op hoge stabiliteit (lage gevoeligheid voor randomness), terwijl een lage waarde wijst op grote variatie.

Key Contributions & Experimenten

Het paper onderzoekt drie natuurlijke afhankelijkheden:

1. Impact van Syntactische Context

Opzet: Vergelijking tussen een dataset met logische zinnen en een dataset waarbij de woorden in de zinnen zijn geshuffeld (de woordvolgorde is willekeurig, maar de woordverdeling blijft gelijk). De taak was het onderscheiden van zinnen met de naam "John" versus "James".
Resultaat:
- Bij niet-geshuffelde zinnen is de stabiliteit bijna perfect (hoge MCWME).
- Bij geshuffelde zinnen daalt de stabiliteit significant.
- Conclusie: Zelfs bij eenvoudige taken leidt het shuffelen van woorden tijdens het finetunen tot een hogere gevoeligheid voor randomness. Dit wordt toegeschreven aan het feit dat Transformer-modellen kleine, niet-relevante relaties tussen woorden leren die door de attention-mechanismen van LRP toch als relevant worden gerapporteerd.

2. Class-afhankelijkheid (Afwezigheid van discriminatieve woorden)

Opzet: Vergelijking tussen een klasse met een duidelijk discriminatief kenmerk (aanwezigheid van "John") en een klasse waar dit kenmerk ontbreekt (afwezigheid van "John" of vervanging door een willekeurig woord).
Resultaat:
- De klasse zonder discriminatieve markers toont een significant lagere MCWME (hoge gevoeligheid voor randomness).
- De MCWME-waarden voor deze klasse liggen rond de 0,7 (terwijl willekeurige verklaringen rond de 0 zouden liggen). Dit suggereert dat niet alle woorden even onrelevant worden geacht; woorden aan het begin, einde of rond de vervanging krijgen soms toch een hogere relevantiewaarde.
- Conclusie: De gevoeligheid voor randomness is class-specifiek. Klassen die gebaseerd zijn op afwezigheid van een kenmerk zijn moeilijker stabiel te verklaren.

3. Taak-afhankelijkheid (Real-world use cases)

Opzet: Vergelijking van twee verschillende taken:
1. ArXiv: Classificatie van abstracts (Astrofysica vs. Wiskunde).
2. InfOpinion: Classificatie van persartikelen (Informatie vs. Mening).
Resultaat:
- Er is een significant verschil in stabiliteit tussen de twee taken. De ArXiv-taak (met sterkere discriminatieve vocabulaire) toont hogere stabiliteit dan de InfOpinion-taak.
- De InfOpinion-taak vereist een dieper begrip van relaties tussen woorden en heeft een complexere context, wat leidt tot grotere variatie in verklaringen bij verschillende seeds.
- Conclusie: De taak zelf heeft de grootste impact op de gevoeligheid voor randomness.

Belangrijkste Resultaten

De auteurs concluderen dat alle onderzochte factoren een statistisch significant effect hebben op de gevoeligheid van verklaringen voor trainingsrandomness, gerangschikt van kleinste naar grootste impact:

Syntactische context: Kleinste impact (maar nog steeds significant).
Klassen (Classes): Middelgrote impact (vooral bij afwezigheid van discriminatieve markers).
Taken (Tasks): Grootste impact (complexere taken met minder duidelijke discriminatieve patronen zijn gevoeliger).

Significantie en Conclusie

Dit paper biedt een kritische bijdrage aan het veld van Explainable AI (XAI) door aan te tonen dat de stabiliteit van verklaringen niet alleen een eigenschap van het model of de methode is, maar sterk afhankelijk is van de data-structuur en de taak.

Implicaties voor XAI-frameworks: Het karakteriseren van de gevoeligheid voor randomness zou een waardevolle toevoeging moeten zijn aan bestaande frameworks.
Open vragen:
- Plausibility: Het interpreteren van een verdeling van verklaringen (in plaats van één) vereist meer cognitieve inspanning van de gebruiker.
- Faithfulness: Het is onduidelijk of complexere verklaringstechnieken de afhankelijkheid van trainingsrandomness kunnen verminderen.
Aanbeveling: De auteurs suggereren het gebruik van eenvoudigere modellen wanneer deze geen nauwkeurigheidsverlies opleveren, aangezien complexere modellen (zoals Transformers) gevoeliger lijken te zijn voor deze variabiliteit in eenvoudige contexten.

Kortom, de stabiliteit van LLM-verklaringen is geen vaststaand feit, maar een dynamische eigenschap die afhankelijk is van de context, de specifieke klasse en de complexiteit van de taak.

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

1. De Context: Het verschil tussen een geordende lijst en een blikje met losse letters

2. De Klasse: Het zoeken naar een speld in een hooiberg

3. De Taak: Een simpele sorteerklus vs. een complexe filosofische discussie

Wat betekent dit voor ons?

Probleemstelling

Methodologie

Key Contributions & Experimenten

1. Impact van Syntactische Context

2. Class-afhankelijkheid (Afwezigheid van discriminatieve woorden)

3. Taak-afhankelijkheid (Real-world use cases)

Belangrijkste Resultaten

Significantie en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models