Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen Koch (das ist unser KI-Modell, ein sogenanntes „Transformer"-Modell), der dir genau erklären soll, warum er ein Gericht so gewürzt hat. Das Problem ist: Wenn du denselben Koch mit denselben Zutaten (den Daten) zweimal anstellst, aber beim ersten Mal die Gewürzdosen ein wenig anders schüttelst (das ist der „Zufall" beim Training), erzählt er dir beim zweiten Mal eine ganz andere Geschichte über die Gewürze.

Diese Forschungsarbeit von Loncour, Bogaert und Standaert fragt sich: Wie sehr hängt diese verwirrende Geschichte davon ab, wie der Koch die Zutaten mischt? Und welche Faktoren machen diese Geschichte noch verrückter?

Die Forscher haben drei Hauptfaktoren untersucht, die wie verschiedene „Reibungspunkte" wirken:

1. Der Satzbau (Der Kontext)

Die Analogie: Stell dir vor, du hast einen Satz wie „Der John isst den Apfel". Das KI-Modell soll erkennen, dass „John" der wichtige Teil ist.

Was passiert: Die Forscher haben die Wörter im Satz durcheinandergewürfelt (z. B. „Apfel isst John der").
Das Ergebnis: Wenn die Wörter in der richtigen Reihenfolge sind, erzählt der Koch fast immer die gleiche Geschichte. Wenn sie durcheinander sind, wird die Erklärung etwas wackeliger. Es ist, als würde der Koch versuchen, eine Beziehung zwischen Wörtern zu finden, die eigentlich gar keine haben, und dabei manchmal „Halluzinationen" produziert.
Fazit: Das ist der kleinste Störfaktor. Die Reihenfolge der Wörter macht einen Unterschied, aber nicht den größten.

2. Die Zielgruppe (Die Klasse)

Die Analogie: Stell dir vor, der Koch soll zwei Arten von Gästen unterscheiden:

Gast A: Kommt immer mit einem roten Hut (ein eindeutiges Merkmal).
Gast B: Kommt ohne roten Hut (das Fehlen des Merkmals ist das Signal).
Was passiert: Wenn der Koch einen Gast mit rotem Hut sieht, ist er sich sicher und erklärt: „Aha, roter Hut!". Aber wenn er einen Gast ohne Hut sieht, muss er raten: „Kein Hut? Okay, dann ist es Gast B."
Das Ergebnis: Die Erklärung für den Gast ohne das eindeutige Merkmal (den roten Hut) ist viel instabiler. Je nach Zufall beim Training sagt der Koch mal „Der Gast ist lang", mal „Der Gast ist kurz", obwohl es eigentlich nur um das Fehlen des Huts geht.
Fazit: Das ist ein mittlerer Störfaktor. Wenn eine Entscheidung auf dem Fehlen eines klaren Hinweises beruht, ist die Erklärung viel verworrener als wenn ein klares Signal vorhanden ist.

3. Die Aufgabe selbst (Der Job)

Die Analogie: Hier vergleichen wir zwei völlig verschiedene Jobs für den Koch:

Job 1 (Wissenschaft): Unterscheidung zwischen „Astrophysik" und „Mathematik". Die Wörter sind hier sehr unterschiedlich (z. B. „Sterne" vs. „Formeln"). Das ist wie Äpfel und Orangen zu unterscheiden.
Job 2 (Meinung): Unterscheidung zwischen „Information" und „Meinung" in Zeitungsartikeln. Hier sind die Wörter oft sehr ähnlich, und man muss tief in den Zusammenhang schauen, um den Unterschied zu verstehen.
Das Ergebnis: Bei Job 1 (einfach, klare Wörter) ist die Erklärung sehr stabil. Bei Job 2 (schwierig, viele Nuancen) ist die Erklärung extrem wackelig. Je schwieriger die Aufgabe für das Modell ist, desto mehr hängt die Erklärung vom Zufall ab.
Fazit: Das ist der größte Störfaktor. Die Art der Aufgabe bestimmt am meisten, wie verlässlich die Erklärung ist.

Zusammenfassung für den Alltag

Die Forscher haben herausgefunden, dass KI-Erklärungen nicht so stabil sind, wie wir hoffen. Es ist wie bei einem Wetterbericht:

Wenn es nur darum geht, ob die Sonne scheint oder nicht (Kontext), ist der Bericht ziemlich stabil.
Wenn es darum geht, ob es nicht regnet, aber keine Wolken zu sehen sind (Klasse), wird der Bericht etwas ungenauer.
Wenn es aber darum geht, ob ein komplexes Gewitter mit Blitz und Donner kommt oder ein ganz normales Sommergewitter (Aufgabe), dann hängt die Vorhersage extrem davon ab, wie der Meteorologe heute Morgen seinen Kaffee getrunken hat (der Zufall beim Training).

Die große Lehre: Wenn wir KI-Modelle nutzen, um Entscheidungen zu erklären, dürfen wir nicht auf eine einzige Erklärung hören. Wir müssen verstehen, dass die Erklärung davon abhängt, wie „schwierig" die Aufgabe ist und ob es klare Hinweise gibt. Bei schwierigen Aufgaben sind die Erklärungen oft nur eine von vielen möglichen Geschichten, die der Zufall erzählt hat.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Sensitivity of LLMs' Explanations to the Training Randomness: Context, Class & Task Dependencies" auf Deutsch:

1. Problemstellung

Transformer-Modelle sind ein Eckpfeiler im Bereich des Natural Language Processing (NLP), doch die Erklärung ihrer Entscheidungen (Explainable AI, XAI) bleibt eine Herausforderung. Ein zentrales Problem ist die Stabilität von Erklärungen: Es wurde gezeigt, dass dasselbe Modell, das auf denselben Daten trainiert wird, aber mit einem anderen Zufallssamen (Random Seed), zu stark voneinander abweichenden Erklärungen führen kann.

Bisherige Analysen konzentrierten sich oft auf einzelne Instanzen. Diese Arbeit untersucht jedoch die Verteilung von Erklärungen über mehrere äquivalente Modelle hinweg. Die zentrale Forschungsfrage lautet: Wie beeinflussen der syntaktische Kontext, die zu lernenden Klassen und die spezifische Aufgabe die Empfindlichkeit von Erklärungen gegenüber Trainingszufälligkeiten?

2. Methodik

Modelle und Daten:

Es wurden RoBERTa-base (für Englisch) und CamemBERT-base (für Französisch) verwendet.
Für jedes Experiment wurden 200 Modelle mit identischen Hyperparametern (Lernrate $2 \times 10^{-5}$, Batch-Größe 16, 1 Epoche), aber unterschiedlichen Zufallssamen trainiert.
Der Zufallssamen steuert die Reihenfolge der Trainingsdaten, das Dropout (deaktivierte Neuronen) und die Initialisierung des Klassifizierungskopfes.
Es wurden nur Modelle ausgewählt, deren Genauigkeit auf dem Testset nicht signifikant voneinander abweicht (äquivalente Modelle).

Erklärungsmethode:

Zur Generierung der Erklärungen wurde Layer-wise Relevance Propagation (LRP) verwendet. LRP ist eine deterministische Methode, die einen guten Kompromiss zwischen Plausibilität und Treue (Faithfulness) bietet.
Für einen Text mit $n$ Wörtern erhält man $m$ Vektoren (je einer pro Modell) mit $n$ Relevanzwerten.

Stabilitätsmetrik:

Als Metrik wurde der Mean Correlation With Mean Explanation (MCWME) verwendet.
Funktionsweise: Es wird eine durchschnittliche Erklärung aus einem Teil der Modelle berechnet. Anschließend wird die Korrelation der Erklärungen der verbleibenden Modelle mit diesem Durchschnitt berechnet (Leave-One-Out-Verfahren). Ein hoher MCWME-Wert deutet auf hohe Stabilität (geringe Empfindlichkeit gegenüber dem Zufallssamen) hin.

3. Experimente und Ergebnisse

Die Autoren untersuchten drei natürliche Abhängigkeiten:

A. Einfluss des syntaktischen Kontexts

Setup: Zwei Datensätze wurden verglichen: Ein Datensatz mit 10.000 Sätzen (10 Wörter lang), bei dem sich nur ein Wort unterscheidet (z. B. „John" vs. „James"), und ein zweiter Datensatz, bei dem die Wortreihenfolge in den Sätzen zufällig gemischt (shuffled) wurde.
Ergebnis: Bei nicht gemischten Sätzen war die Erklärung fast perfekt stabil (hoher MCWME). Beim Mischen der Wörter während des Fine-Tunings sank die Stabilität signifikant.
Interpretation: Auch bei einfachen Aufgaben führt das Mischen zu einer höheren Empfindlichkeit. Dies liegt vermutlich daran, dass Transformer-Modelle kleine, irrelevante Wortbeziehungen lernen, die vom LRP-Mechanismus dennoch als relevant ausgegeben werden, obwohl sie eigentlich null sein sollten.

B. Klassenabhängigkeit (Fehlen diskriminierender Wörter)

Setup: Es wurde eine Klasse untersucht, die durch das Fehlen eines diskriminierenden Merkmals definiert ist (z. B. Sätze ohne den Namen „John", wobei „James" durch ein zufälliges Wort ersetzt wurde). Im Gegensatz dazu steht die Klasse, die das Vorhandensein von „John" markiert.
Ergebnis: Die Klasse ohne diskriminierendes Wort zeigte einen signifikant niedrigeren MCWME-Wert (ca. 0,7) im Vergleich zur Klasse mit dem Marker. Zufällige Erklärungen würden Werte um 0 ergeben.
Interpretation: Die Empfindlichkeit gegenüber Trainingszufälligkeiten ist klassenspezifisch. Wenn keine eindeutigen Marker vorhanden sind, verteilen sich die Relevanzwerte ungleichmäßiger (z. B. am Satzanfang, -ende oder um das ersetzte Wort), was die Stabilität verringert.

C. Aufgabenabhängigkeit (Real-World Use-Case)

Setup: Vergleich zweier komplexerer Aufgaben:
1. ArXiv: Klassifizierung von Abstracts in Astrophysik vs. Mathematik (hohe Diskriminierung durch Fachvokabular, 99,8% Genauigkeit).
2. InfOpinions: Klassifizierung von Presseartikeln in Information vs. Meinung (benötigt tieferes Verständnis von Beziehungen, 96% Genauigkeit).
Ergebnis: Es gab signifikante Unterschiede in der Erklärungstabilität zwischen den beiden Aufgaben. Die ArXiv-Aufgabe war stabiler.
Interpretation: Aufgaben mit stärker diskriminierendem Vokabular (einfacher zu lernen) führen zu stabileren Erklärungen. Aufgaben, die ein tieferes semantisches Verständnis erfordern, sind anfälliger für Trainingszufälligkeiten. Auch Textlänge und Sprache spielen eine Rolle.

4. Hauptbeiträge

Systematische Analyse: Erste umfassende Untersuchung, wie Kontext, Klassen und Aufgaben die Stabilität von LLM-Erklärungen beeinflussen.
Statistische Signifikanz: Nachweis, dass alle drei Faktoren einen statistisch signifikanten Einfluss haben. Die Rangfolge der Einflussstärke ist:
- Aufgabe (Task): Größter Einfluss.
- Klasse (Class): Mittlerer Einfluss.
- Kontext (Context): Kleinstes (aber dennoch signifikantes) Maß.
Metrik-Anwendung: Demonstration der MCWME-Metrik zur Bewertung der Erklärungstabilität über eine Verteilung von Modellen hinweg.

5. Bedeutung und Schlussfolgerung

Die Ergebnisse zeigen, dass die Stabilität von Erklärungen nicht als feste Eigenschaft eines Modells betrachtet werden kann, sondern stark von der spezifischen Anwendung und den Daten abhängt.

Implikationen für XAI-Frameworks: Die Charakterisierung der Empfindlichkeit gegenüber Trainingszufälligkeiten sollte als ergänzende Metrik in bestehende Erklärungsframeworks integriert werden.
Offene Fragen:
- Wie wirkt sich diese Instabilität auf die Plausibilität (Verständlichkeit für Menschen) aus? Die Interpretation einer Verteilung von Erklärungen ist komplexer als die eines einzelnen Explanations.
- Können komplexere Erklärungsmethoden die Abhängigkeit von Trainingszufälligkeiten bei komplexen Modellen reduzieren?
- Sollte man bei einfachen Aufgaben einfachere Modelle bevorzugen, um Stabilität zu gewährleisten, wenn keine Genauigkeitsverluste zu befürchten sind?

Zusammenfassend unterstreicht das Paper die Notwendigkeit, Erklärungen nicht isoliert, sondern im Kontext ihrer Trainingsstabilität und der spezifischen Aufgabenanforderungen zu betrachten.

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

1. Der Satzbau (Der Kontext)

2. Die Zielgruppe (Die Klasse)

3. Die Aufgabe selbst (Der Job)

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik

3. Experimente und Ergebnisse

A. Einfluss des syntaktischen Kontexts

B. Klassenabhängigkeit (Fehlen diskriminierender Wörter)

C. Aufgabenabhängigkeit (Real-World Use-Case)

4. Hauptbeiträge

5. Bedeutung und Schlussfolgerung

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models