Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem intelligenten, aber sehr müden Assistenten. Dieser Assistent kann Bilder sehen und Fragen dazu beantworten (wie: „Was ist auf dem Bild?" oder „Beschreibe das Bild"). In der Forschung nennt man das „Multimodale Large Language Models" (LVLMs).

Dieser Assistent ist so programmiert, dass er unglaublich schnell arbeiten muss. Um das zu schaffen, spart er an der Genauigkeit seiner Berechnungen. Er rechnet nicht mit ganzen, perfekten Zahlen, sondern mit „gerundeten" Zahlen, ähnlich wie wenn man beim Einkaufen Cent-Beträge auf ganze Euro rundet, um es schneller zu machen. Das nennt man numerische Instabilität.

Normalerweise ist das kein Problem. Aber die Autoren dieses Papers haben eine verrückte Idee: Was, wenn wir den Assistenten absichtlich so verwirren, dass diese Rundungsfehler sich aufschaukeln?

Die Geschichte vom „Rauschen im Kopf"

Stell dir vor, dein Assistent rechnet in seinem Kopf mit kleinen Zetteln.

Der normale Weg: Du zeigst ihm ein Foto von einer Katze. Er rechnet: „Katze + 0,001 = Katze". Alles gut.
Der Angriff: Die Forscher haben einen Trick entwickelt, um das Bild auf dem Foto winzig, winzig zu verändern. So winzig, dass ein Mensch es gar nicht sieht (es sieht für uns immer noch wie eine Katze aus). Aber für den Computer ist das Bild jetzt wie ein „schiefes" Puzzle.

Wenn der Assistent dieses leicht verzerrte Bild betrachtet, passieren zwei Dinge:

Der Runden-Fehler: Weil er mit gerundeten Zahlen rechnet, summiert sich der kleine Fehler bei jedem Rechenschritt auf.
Der Kettenreaktion: Dieser kleine Fehler wird von Schicht zu Schicht im Gehirn des Assistenten weitergegeben und immer größer.

Das Ergebnis: Der Assistent wird verrückt

Das Schlimme ist: Der Assistent sieht das Bild immer noch, aber sein „Verständnis" kippt komplett um.

Beispiel aus dem Papier:
- Echtes Bild: Ein Mädchen liegt am Strand.
- Normaler Assistent: „Ein Mädchen mit einem lila Handtuch."
- Angegriffener Assistent (durch den Trick): „Ein Mann im lila Hemd, der mit einem anderen Mann kämpft."

Das Bild ist fast identisch, aber die Antwort ist völlig falsch. Es ist, als würdest du jemandem ein Foto von einem Apfel zeigen, und er würde schwören, es sei ein Auto, nur weil du den Apfel um einen winzigen Bruchteil gedreht hast, was in seinem „Rundungs-System" zu einem totalen Zusammenbruch führt.

Warum ist das gefährlich?

Bisher dachte man, man könne solche KI-Systeme nur täuschen, indem man das Bild mit starkem „Rauschen" (wie statischen Streifen auf einem alten Fernseher) oder klaren Mustern überdeckt. Das ist wie ein lauter Schrei, den man sofort bemerkt.

Dieser neue Angriff ist leiser und heimtückischer. Er ist wie ein unsichtbarer Virus.

Er nutzt keine offensichtlichen Fehler.
Er nutzt die Schwachstelle aus, dass die KI rechnet, um Speicherplatz zu sparen.
Er funktioniert bei fast allen modernen KI-Modellen, egal wie groß oder clever sie sind.

Die Analogie: Der Turm aus Karten

Stell dir den KI-Modell als einen riesigen Turm aus Karten vor.

Normale Störung: Wenn du einen Windstoß (Rauschen) gegen den Turm bläst, wackelt er vielleicht, aber er bleibt stehen.
Numerische Instabilität: Die Forscher haben eine Karte im innersten Teil des Turms so winzig verschoben, dass sie nicht mehr perfekt sitzt. Durch die Schwerkraft (die Berechnungen) kippt dieser kleine Fehler nach oben. Am Ende stürzt der ganze Turm ein, obwohl von außen alles ruhig aussieht.

Was bedeutet das für uns?

Die Botschaft des Papers ist: Unsere KI-Systeme sind fragiler, als wir dachten.

Wir bauen diese Systeme immer schneller und effizienter, indem wir die Rechen-Genauigkeit senken (um Energie und Speicher zu sparen). Aber diese Forscher zeigen uns, dass dabei eine unsichtbare Tür offen bleibt. Man kann die KI nicht nur durch „dumme" Bilder täuschen, sondern durch eine mathematische Täuschung, die ihre eigene Art zu rechnen gegen sie verwendet.

Zusammengefasst: Die KI ist wie ein Genie, das im Dunkeln rechnet. Die Forscher haben gelernt, wie man eine winzige Kerze an einer bestimmten Stelle ausbläst, damit das Genie im Dunkeln stolpert und völlig falsche Dinge sagt, obwohl es eigentlich alles sehen kann.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models" auf Deutsch:

1. Problemstellung

Die Arbeit identifiziert eine bisher wenig erforschte Fehlerart in Multimodalen Large Language Models (MLLMs), insbesondere in Large Vision Language Models (LVLMs). Während traditionelle Angriffe (wie Adversarial Attacks) darauf abzielen, die Leistung durch semantische Verzerrungen oder Rauschen zu beeinträchtigen, untersucht diese Studie induzierte numerische Instabilität.

Das Kernproblem liegt in der Diskrepanz zwischen der mathematischen Idealvorstellung von Berechnungen und der tatsächlichen Implementierung auf Hardware mit begrenzter Präzision (z. B. Float16 oder Float32).

Implementierungsebene: Durch die Verwendung von Halb-Präzision (Float16) zur Speicheroptimierung und Geschwindigkeitssteigerung entstehen Rundungsfehler. Diese Fehler summieren sich über die vielen Operationen eines tiefen neuronalen Netzwerks auf.
Funktionsebene: Kleine Änderungen im Eingabebereich können aufgrund der nichtlinearen Aktivierungsfunktionen und der Sensitivität des Modells zu großen Änderungen im Ausgabebereich führen (hohe lokale Lipschitz-Konstanten).
Hypothese: Die Autoren postulieren, dass es möglich ist, Eingabebilder so zu manipulieren, dass sie spezifisch diese numerischen Unsicherheiten ausnutzen, was zu einer signifikanten Verschlechterung der Modellleistung führt, ohne dass das Bild für das menschliche Auge merklich verändert wird. Dies stellt einen orthogonalen Angriffsvektor dar, der von herkömmlichen Adversarial-Perturbations-Methoden nicht erfasst wird.

2. Methodik

Die Autoren entwickeln einen Whitebox-Ansatz, um Eingabebilder zu generieren, die numerische Instabilität maximieren.

Ziel: Die Konstruktion eines gestörten Bildes $X' = X + \delta$ , wobei $\|\delta\|_\infty < \epsilon$ (typischerweise $\epsilon = 16/255$ ), das die numerischen Fehler im Inferenzprozess des Modells $M$ maximiert.
Proxy-Loss-Funktion: Da die direkte Berechnung des unendlichen Präzisionsfehlers (der Unterschied zwischen Float16 und Float32/64) rechnerisch nicht machbar ist, leiten die Autoren eine Proxy-Loss-Funktion ab.
- Basierend auf dem IEEE 754 Standard und Lemma 3.1 zeigen sie, dass der Rundungsfehler mit dem Betrag der Eingabewerte skaliert.
- Der Loss zielt darauf ab, den Betrag der Ausgaben jeder elementaren Operation $g_k$ im Netzwerk zu maximieren:
  $\max_{\delta} \sum_{k} |\hat{\theta}_k(X_I + \delta)_D|$
- Dies führt implizit dazu, dass das Modell in Regionen gedrängt wird, in denen kleine Änderungen im Input zu maximalen Änderungen im Output führen (hohe Sensitivität).
Optimierung:
- Mixed Precision: Um Genauigkeitsverluste während der Optimierung zu vermeiden, werden die Perturbationen $\delta$ und der akkumulierte Loss als float64 gespeichert, während das Modell in float16 läuft.
- Gradient Scaling: Da die Gradienten oft sehr klein sind, wird eine Technik ähnlich dem Fast Gradient Sign Method (FGSM) verwendet, bei der nur das Vorzeichen der Gradienten genutzt wird, um das Update durchzuführen: $\delta'_{i+1} = \delta'_i + \alpha \cdot \text{sign}(\nabla_{\delta'} \text{loss})$ .

3. Schlüsselergebnisse

Die Methode wurde auf mehreren State-of-the-Art-Modellen (LLaVA-v1.5-7B, Idefics3-8B, SmolVLM-2B, Janus-Pro-1B) und Standard-Datensätzen (MSCOCO, Flickr30k, TextVQA, VQAv2, POPE) evaluiert.

Leistungsabfall: Die induzierte numerische Instabilität (NUM) führt zu einem drastischen Leistungsabfall, der deutlich stärker ist als bei Baselines wie Gaußschem Rauschen (GAUS) oder zufälligem Rauschen (RAND).
- Beispiel: Beim Modell Idefics3-8B auf MSCOCO sank der CIDEr-D-Score von 0,664 (ohne Störung) auf 0,273 (eine Verschlechterung von ca. 59 %).
- Im Vergleich dazu zeigten Baseline-Methoden nur minimale Abweichungen (z. B. 5 % bei SmolVLM auf VQAv2).
Semantische Inkonsistenz: Die generierten Antworten sind oft semantisch inkonsistent mit dem Bildinhalt, obwohl die Eingabebilder visuell fast identisch sind (z. B. wird ein Mädchen mit einem Handtuch als „ein Mann, der kämpft" beschrieben).
Einfluss der Präzision: Experimente mit verschiedenen Floating-Point-Typen (bfloat16, float16, float32) zeigen, dass die Leistung unter NUM-Bedingungen stark von der Präzision abhängt. Eine Erhöhung der Bit-Präzision allein (z. B. von Float16 auf Float32) mildert den Leistungsabfall nur teilweise, was darauf hindeutet, dass die Verwundbarkeit auch in der funktionalen Sensitivität der Netzwerkarchitektur liegt und nicht nur in der begrenzten numerischen Darstellung.
Unterschied zu Adversarial Attacks: Im Gegensatz zu FGSM oder PGD, die oft lokalisierte Verzerrungen erzeugen, führt die numerische Instabilität zu diffusen und fehlgerichteten Aktivierungskarten, was auf einen fundamental anderen Degradationsmechanismus hinweist.

4. Hauptbeiträge

Neue Fehlerkategorie: Einführung und Charakterisierung einer neuen Fehlerart in LVLMs, die auf der Ausnutzung numerischer Instabilität beruht und nicht auf semantischer Manipulation.
Effiziente Angriffsmethode: Entwicklung einer rechnerisch effizienten Proxy-Loss-Funktion, die numerische Fehler maximiert, ohne Ground-Truth-Labels für den Angriff zu benötigen.
Umfassende Evaluation: Demonstration der Verletzlichkeit führender Modelle über verschiedene Architekturen und Aufgaben hinweg (Bildbeschriftung, VQA).
Analyse der Ursachen: Nachweis, dass die Degradation durch die Akkumulation von Gleitkommafehlern und die Verstärkung lokaler Aktivierungen verursacht wird, was durch reine Eingabestörungen (Rauschen) nicht erklärt werden kann.

5. Bedeutung und Ausblick

Die Arbeit hat weitreichende Implikationen für die Sicherheit und Zuverlässigkeit von KI-Systemen:

Sicherheitsrisiko: Sie zeigt, dass LVLMs nicht nur gegen visuelle Täuschungen, sondern auch gegen subtile, rechnerische Angriffe verwundbar sind, die in realen Szenarien (z. B. autonome Agenten, kritische Systeme) katastrophale Folgen haben könnten.
Grenzen aktueller Robustheit: Herkömmliche Verteidigungsmechanismen gegen Adversarial Examples (wie Rauschen oder Lipschitz-Beschränkungen) sind gegen diesen Angriffsvektor möglicherweise wirkungslos, da dieser auf einer anderen Ebene (numerische Präzision vs. semantische Merkmale) operiert.
Zukünftige Forschung: Die Autoren fordern die Entwicklung neuer Architekturen und Verteidigungsstrategien, die numerische Stabilität explizit berücksichtigen, sowie prinzipielle Methoden zur Detektion und theoretischen Schätzung von Stabilitätsgrenzen.

Zusammenfassend enthüllt das Paper, dass die Optimierung von Multimodalen Modellen für Effizienz (durch reduzierte Präzision) unbeabsichtigte, schwerwiegende Schwachstellen schafft, die durch gezielte Eingabemanipulation ausgenutzt werden können.

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Die Geschichte vom „Rauschen im Kopf"

Das Ergebnis: Der Assistent wird verrückt

Warum ist das gefährlich?

Die Analogie: Der Turm aus Karten

Was bedeutet das für uns?

1. Problemstellung

2. Methodik

3. Schlüsselergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers