Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Dit artikel toont aan dat de uitleg van transformermodellen statistisch significant beïnvloed wordt door trainingsrandomness, waarbij de taak de grootste invloed heeft, gevolgd door de klassen en ten slotte de context.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep van 200 identieke koks hebt. Ze krijgen allemaal exact hetzelfde recept (de data) en dezelfde ingrediënten, maar ze beginnen met een heel klein verschil: de ene kok roert zijn soep met de klok mee, de andere tegen de klok in, en een derde begint net iets sneller. Dit noemen we in de wereld van kunstmatige intelligentie "training randomnes" of willekeur tijdens het leren.

De vraag die Romain, Jérémie en François-Xavier in hun paper stellen, is heel simpel: Als deze koks allemaal een gerecht maken dat er precies hetzelfde uitziet, leggen ze dan ook uit waarom het zo lekker is?

Hun antwoord is verrassend: Nee, niet altijd. En hoe groot dat verschil is, hangt af van drie dingen: de context, het type gerecht en de taak zelf.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Context: Het verschil tussen een geordende lijst en een blikje met losse letters

Stel je voor dat je een zin moet uitleggen.

  • Scenario A: De zin is "John houdt van appels".
  • Scenario B: De woorden zijn door elkaar geschud: "appels van houdt John".

De onderzoekers lieten hun koks (de AI-modellen) deze zinnen leren. Als de zinnen netjes op volgorde stonden, waren de uitleggen van de koks bijna identiek. Ze wezen allemaal op het woord "John" als het belangrijkste.
Maar als de woorden door elkaar zaten, begonnen de koks te twijfelen. Sommigen wezen op "appels", anderen op "houdt".
De les: De volgorde van de woorden (de context) maakt uit. Als de zinnen wat rommeliger zijn, wordt de uitleg van de AI onbetrouwbaarder. Het is alsof je probeert een verhaal te vertellen terwijl iemand de kaarten van je hand door elkaar schudt; je verhaal blijft hetzelfde, maar hoe je het vertelt, wordt chaotischer.

2. De Klasse: Het zoeken naar een speld in een hooiberg

Soms moet een AI een beslissing nemen op basis van iets dat niet aanwezig is.

  • Klas A: De zin bevat het woord "John".
  • Klas B: De zin bevat geen "John" (misschien staat er "James" of helemaal niets).

Als de AI moet zeggen: "Dit is Klas A omdat er 'John' in staat", is dat makkelijk. De AI wijst naar "John" en zegt: "Kijk, daar is het!"
Maar als de AI moet zeggen: "Dit is Klas B omdat er geen 'John' is", is dat lastiger. Er is geen specifiek woord om naar te wijzen.
De onderzoekers zagen dat de koks hier veel minder eensgezind waren. Als er geen duidelijk "speld" (een belangrijk woord) is om naar te wijzen, beginnen de koks te gokken over welke andere woorden misschien wel belangrijk zijn. De uitleg wordt dan wisselvallig, alsof ze in het donker proberen te raden waar de speld zit.

3. De Taak: Een simpele sorteerklus vs. een complexe filosofische discussie

Tot slot keken ze naar twee heel verschillende taken:

  • Taak 1 (ArXiv): Het onderscheiden van wetenschappelijke artikelen over sterrenkunde versus wiskunde. Dit is als het sorteren van rode en blauwe sokken. De woorden zijn heel duidelijk verschillend (bijv. "ster" vs. "formule").
  • Taak 2 (InfOpinions): Het onderscheiden van nieuwsartikelen van opiniestukken. Dit is als het proberen te raden of iemand boos of blij is, puur op basis van de toon. Dit is veel subtieler.

De onderzoekers zagen dat de koks bij de "sokken-sorteerklus" (sterrenkunde) heel consistent waren in hun uitleg. Maar bij de "gevoels-sorteerklus" (opinie vs. nieuws) waren ze het veel minder eens.
De les: Hoe moeilijker en subtieler de taak is, hoe meer de AI afhankelijk wordt van de willekeur tijdens het leren. Bij moeilijke taken is de "uitleg" van de AI minder stabiel.

Wat betekent dit voor ons?

De kernboodschap van dit paper is als volgt:

Als je een AI vraagt om iets uit te leggen, moet je niet alleen kijken naar wat het zegt, maar ook naar hoe betrouwbaar die uitleg is.

  • Als de taak makkelijk is en de zinnen duidelijk, kun je de uitleg vertrouwen.
  • Maar als de taak moeilijk is, of als er geen duidelijk "woord" is dat de beslissing bepaalt, dan kan de uitleg van de AI puur toeval zijn. Twee keer dezelfde AI trainen kan leiden tot twee totaal verschillende redenen voor hetzelfde antwoord.

Conclusie in één zin:
Het is alsof je een groep detectives vraagt een misdaad op te lossen; bij een simpele zaak met duidelijke vingerafdrukken geven ze allemaal hetzelfde verhaal, maar bij een complexe zaak zonder bewijsmateriaal, vertellen ze allemaal een ander, willekeurig verhaal over wie de dader zou kunnen zijn. De onderzoekers waarschuwen ons om daar rekening mee te houden als we AI-uitingen serieus nemen.