Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber etwas nervösen Assistenten (einen "Large Language Model" oder LLM), der Ihnen Texte schreibt, Fragen beantwortet oder sogar mit anderen KI-Agenten zusammenarbeitet. Sie denken, wenn Sie ihm exakt denselben Befehl geben, bekommt er immer dasselbe Ergebnis.

Die neue Studie von Chashi Mahiul Islam und seinem Team an der Florida State University sagt jedoch: Nicht ganz.

Hier ist die Erklärung der Forschung in einfacher Sprache, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der "Flüstern-Effekt"

Stellen Sie sich vor, Sie stehen in einer riesigen, hallenden Kathedrale (das ist das neuronale Netz des KI-Modells). Sie flüstern ein Wort in Ihr Mikrofon. Normalerweise sollte das Mikrofon das Wort perfekt aufnehmen und weiterleiten.

Aber in der digitalen Welt gibt es ein kleines Problem: Computer rechnen nicht mit unendlich genauen Zahlen, sondern mit einer begrenzten Anzahl von Dezimalstellen (wie ein Lineal, das nur bis zum Millimeter genau ist). Wenn der Computer eine Zahl berechnet, muss er sie manchmal runden.

Die Entdeckung: Die Forscher haben herausgefunden, dass diese winzigen Rundungsfehler – so klein wie ein Staubkorn auf einem Berg – in den frühen Schichten des KI-Modells nicht einfach verschwinden. Stattdessen können sie sich wie eine Lawine aufschaukeln. Ein winziger Fehler am Anfang kann am Ende dazu führen, dass das Modell völlig andere Antworten gibt, obwohl Sie denselben Befehl gegeben haben.

2. Drei Zonen des Chaos

Die Forscher haben entdeckt, dass das KI-Modell in drei verschiedenen "Wetterzonen" operieren kann, je nachdem, wie stark der Input ist:

Zone 1: Die Stille (Konstante Region)
- Vergleich: Ein schwerer Felsblock auf einer flachen Ebene.
- Wenn Sie den Input nur winzig verändern (wie ein Hauch Wind), passiert gar nichts. Der Computer rundet den Fehler einfach weg, und das Ergebnis bleibt exakt gleich. Das ist gut für Stabilität.
Zone 2: Das Chaos (Chaotische Region)
- Vergleich: Ein Kartenhaus in einem Erdbeben.
- Hier ist das Modell so empfindlich, dass der winzige Rundungsfehler (das Erdbeben) das ganze Haus zum Einsturz bringt. Ein winziger Unterschied im Input führt zu einer völlig anderen Antwort. Das ist der Bereich, in dem die KI unvorhersehbar wird.
Zone 3: Der Signal-Sturm (Signal-dominierte Region)
- Vergleich: Ein Orkan.
- Wenn Sie den Input stark verändern (ein echter Orkan), ist der Unterschied so groß, dass die winzigen Rundungsfehler (die Staubkörner) völlig egal sind. Das Modell reagiert auf Ihre echte Frage, nicht auf den Rauschen.

3. Warum das wichtig ist (Der "Zwilling"-Effekt)

Stellen Sie sich vor, Sie haben zwei KI-Agenten, die zusammenarbeiten. Sie sitzen in verschiedenen Rechenzentren (vielleicht auf einer NVIDIA-Grafikkarte in New York und einer anderen in Berlin).

Beide bekommen denselben Befehl: "Löse dieses Mathe-Problem."
Beide starten mit exakt denselben Zufallszahlen.
Aber: Wegen der unterschiedlichen Hardware und der Art, wie sie Zahlen runden, berechnet der eine Agent das Ergebnis als "5,000000001" und der andere als "4,999999999".
In der Chaotischen Zone entscheidet diese winzige Differenz, ob der erste Agent "Ja" sagt und der zweite "Nein".
Die Studie zeigt, dass dies in 23–31 % der Fälle passiert, wenn KIs zusammenarbeiten. Sie scheitern nicht, weil sie "dumm" sind, sondern weil sie mathematisch nicht stabil genug sind.

4. Die Überraschung: Es liegt nicht an der "Wichtigkeit" der Frage

In der klassischen Mathematik dachte man: "Wenn eine Frage sehr wichtig ist (hoher mathematischer Wert), reagiert sie stark auf Fehler. Wenn sie unwichtig ist, reagiert sie schwach."

Die Forscher haben aber gezeigt: Das ist falsch.
Ob die Frage "wichtig" oder "unwichtig" ist, spielt kaum eine Rolle. Die winzigen Rundungsfehler brechen sich durch alle Pfade hindurch. Es ist, als ob ein einziger Tropfen Wasser in einem riesigen Labyrinth von Rohren immer den Weg findet, um einen riesigen Damm zu sprengen – egal, wie dick die Wände sind.

5. Die Lösung: "Rauschen" als Heilmittel

Wie kann man das reparieren? Die Forscher schlagen einen cleveren Trick vor: Mittelwertbildung.

Statt das Modell nur einmal zu fragen, fragen Sie es 100 Mal mit winzigen, zufälligen Störungen (wie wenn Sie 100 Mal denselben Satz flüstern, aber jedes Mal mit einer ganz leichten, zufälligen Stimmveränderung).

Die Rundungsfehler sind zufällig (mal hierhin, mal dorthin).
Die wahre Antwort des Modells ist aber immer gleich.
Wenn Sie den Durchschnitt aus 100 Versuchen nehmen, heben sich die zufälligen Fehler auf, und Sie erhalten das stabile, wahre Ergebnis.

Fazit

Diese Studie warnt uns: KI-Systeme sind nicht so stabil, wie wir dachten. Sie operieren oft am Rand des Chaos, wo winzige mathematische Unvollkommenheiten zu großen Fehlern führen können. Für Anwendungen, bei denen es auf Sicherheit ankommt (wie autonome Autos oder medizinische Diagnosen), müssen wir verstehen, dass "exakt derselbe Befehl" nicht immer "exakt dasselbe Ergebnis" bedeutet. Wir müssen neue Wege finden, um diese KI-Systeme robuster zu machen, bevor wir sie in kritische Aufgaben einbinden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Integration von Large Language Models (LLMs) in komplexe Multi-Agenten-Workflows hat zu einem kritischen Zuverlässigkeitsproblem geführt: Unvorhersehbarkeit trotz identischer Eingaben und Seeds.

Kontext: In verteilten Systemen mit heterogener Hardware (verschiedene GPUs, Cloud-Umgebungen) führen nicht-deterministische Operationen (z. B. parallele Reduktionen) zu winzigen numerischen Abweichungen.
Hypothese: Ein signifikanter Teil der Fehler in Multi-Agenten-Systemen (z. B. 23–31 % Nicht-Reproduzierbarkeit in Studien zu AutoGen und MetaGPT) stammt nicht aus algorithmischen Mängeln, sondern aus numerischer Instabilität durch Gleitkomma-Arithmetik (Floating-Point).
Lücke: Bisherige Arbeiten behandeln Instabilität als Engineering-Problem (zu lösen durch deterministische Modi oder höhere Präzision), ohne die zugrundeliegenden dynamischen Mechanismen zu verstehen. Es fehlte ein prinzipielles Verständnis, wie Rundungsfehler mit der Transformer-Architektur interagieren.

2. Methodik

Die Autoren verwenden einen direktionalen Ansatz, um die Stabilität von LLMs gegenüber spezifischen Eingangsstörungen zu quantifizieren.

Absolute Richtungsbedingungszahl ( $\kappa_{abs}$ ): Anstatt der klassischen spektralen Norm (worst-case), nutzen sie die Norm der Richtungsableitung:
$\kappa_{abs}(f, x, v) \approx \frac{\|f(x + \epsilon v) - f(x)\|_2}{\epsilon}$
Dies misst die lokale Verstärkung von Störungen in einer spezifischen Richtung $v$ .
Fokus auf Logits: Um die probabilistische Natur der finalen Token-Auswahl zu umgehen, analysieren sie die Ausgabe vor dem letzten Softmax-Layer (die unnormalisierten Logits bzw. den „last pseudo token").
Experimentelles Setup:
- Modelle: Meta-Llama-3.1-8B und OpenAI-GPT-OSS-20B.
- Hardware: NVIDIA GPUs (für Llama) und CPU (für GPT-OSS, um Float32-Präzision erzwingen zu können).
- Datensätze: TruthfulQA (allgemeines Wissen) und AdvBench (adversarielle Prompts).
- Präzision: Analyse unter Float32, BFloat16 und Float64.

3. Wichtige Beiträge

Das Paper identifiziert drei fundamentale Erkenntnisse:

Chaotische Dynamik („Avalanche Effect"):
LLMs zeigen chaotisches Verhalten, bei dem Störungen in der Größenordnung von Maschinengenauigkeit ( $\epsilon \sim 10^{-14}$ ) entweder exponentiell verstärkt oder vollständig gedämpft werden. Dies geschieht bereits in den frühen Transformer-Schichten. Die bedingten Zahlen ( $\kappa_{abs}$ ) können Werte von über $10^6$ erreichen.
Drei Stabilitätsregime:
Die Autoren charakterisieren das Verhalten von LLMs in drei universelle, skalierungsabhängige Regime:
- Konstantes Regime (Constant Regions): Störungen liegen unter einem schwellenwertabhängigen Limit und verschwinden; die Ausgabe bleibt bitweise identisch.
- Chaotisches Regime (Chaotic Regions): Rundungsfehler dominieren und führen zu einer Divergenz der Ausgaben, unabhängig von der ursprünglichen Eingabe.
- Signal-dominiertes Regime (Signal-Dominated Regions): Echte Eingabevariationen sind stark genug, um das numerische Rauschen zu überlagern.
Empirische Validierung:
Die Ergebnisse wurden über verschiedene Architekturen, Datensätze und Präzisionsstufen hinweg validiert, was zeigt, dass es sich um ein universelles Phänomen und nicht um modell-spezifische Artefakte handelt.

4. Ergebnisse und Analyse

Skalenabhängigkeit vs. Spektrum:
Die Empfindlichkeit wird nicht durch das Spektrum der Jacobi-Matrix (Singulärwerte) bestimmt, sondern primär durch die Störungsgröße $\epsilon$ . Bei sehr kleinen $\epsilon$ (mikroskopisch) kollabiert die Richtungsstruktur: Störungen in Richtungen mit hohem und niedrigem Singulärwert verhalten sich ähnlich, da die endliche Gleitkomma-Präzision (ULP - Unit in the Last Place) den Effekt dominiert.
Schichtweise Propagation:
- Bei großen Störungen ( $\epsilon = 0.1$ ) folgt die Verstärkung dem Singulärspektrum (Signal-dominiert).
- Bei mikroskopischen Störungen ( $\epsilon = 10^{-10}$ ) kollabiert die Struktur. Störungen wachsen schichtweise an, unabhängig von ihrer ursprünglichen Richtung, was auf einen „Lawinen-Effekt" hindeutet.
Diskontinuität und Treppenstufen:
Die Analyse zeigt „plateauartige" Bereiche, in denen Störungen keine Änderung bewirken, unterbrochen von diskreten Sprüngen. Dies führt zu einer Treppenstruktur in der kumulativen Ausgabeänderung. Die Median-Instabilität ist oft 0, während der Mittelwert extrem hoch ist, da seltene, aber massive Sprünge die Statistik verzerren.
Chaotische Entscheidungsgrenzen:
In der Nähe von „Tie"-Situationen (wo zwei Token fast gleiche Wahrscheinlichkeiten haben) fragmentiert der Entscheidungsraum in hunderte diskontinuierliche Regionen. Mikroskopische Störungen führen zu „Salt-and-Pepper"-Mustern in den Entscheidungsgrenzen. Diese Instabilität ist universell und betrifft den gesamten 4096-dimensionalen Embedding-Raum, nicht nur hochsensitive Unterräume.
Einfluss der Präzision:
Der Wechsel zu BFloat16 oder Float64 verschiebt nur die Schwellenwerte, an denen das chaotische Verhalten einsetzt, beseitigt aber das Phänomen nicht. Die Skalierungsabhängigkeit bleibt bestehen.
Minderung durch Rauschen-Averaging:
Als Lösung wird vorgeschlagen, mehrere Durchläufe mit injiziertem Rauschen zu mitteln. Dies nutzt das Gesetz der großen Zahlen, um stochastische Rundungsfehler zu eliminieren und die wahre algorithmische Empfindlichkeit (die theoretische Singulärzahl) wiederherzustellen.

5. Bedeutung und Fazit

Die Arbeit stellt fest, dass LLMs an der Grenze des numerischen Chaos operieren.

Reproduzierbarkeit: Selbst bei identischen Eingaben können heterogene Hardware-Umgebungen zu unterschiedlichen Berechnungspfaden führen, was die Reproduzierbarkeit in Multi-Agenten-Systemen fundamental einschränkt.
Sicherheit: Die chaotischen Entscheidungsgrenzen machen Modelle anfällig für unvorhersehbare Fehler, die nicht durch semantische Angriffe, sondern durch reine numerische Ungenauigkeiten ausgelöst werden.
Praxis: Für sicherheitskritische Anwendungen müssen Entwickler diese Stabilitätsregime verstehen. Das Paper liefert einen Rahmen, um zu bestimmen, wann ein System stabil ist und wann es in den chaotischen Modus kippt.

Zusammenfassend zeigt das Paper, dass numerische Instabilität kein Randproblem ist, sondern eine fundamentale Eigenschaft von Transformer-Architekturen, die durch die endliche Präzision von Gleitkommazahlen und die Tiefe des Netzwerks verstärkt wird.

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

1. Das Problem: Der "Flüstern-Effekt"

2. Drei Zonen des Chaos

3. Warum das wichtig ist (Der "Zwilling"-Effekt)

4. Die Überraschung: Es liegt nicht an der "Wichtigkeit" der Frage

5. Die Lösung: "Rauschen" als Heilmittel

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse und Analyse

5. Bedeutung und Fazit

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI