Manifold of Failure: Behavioral Attraction Basins in Language Models

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Wir suchen nur nach einem Loch, aber es gibt ganze Täler

Stell dir vor, du hast einen sehr intelligenten Roboter (eine KI), der dir gerne hilft. Aber manchmal macht er dumme oder gefährliche Dinge, wenn man ihn auf eine bestimmte Weise fragt.

Bisher haben Forscher versucht, diese Fehler zu finden, indem sie wie Bergsteiger waren: Sie klettern den Berg hinauf, um den tiefsten Punkt (den schlimmsten Fehler) zu finden. Sobald sie einen Fehler gefunden haben, sagen sie: "Aha! Hier ist ein Loch!" und versuchen, es zu stopfen.

Das Problem: Die Forscher dieses Papers sagen: "Moment mal! Vielleicht ist es gar nicht nur ein einzelnes Loch. Vielleicht ist die ganze Landschaft voller Täler, Schluchten und gefährlicher Zonen, die wir noch nie gesehen haben."

Die neue Idee: Eine Landkarte der Fehler

Die Autoren haben eine neue Methode entwickelt, um nicht nur einen Fehler zu finden, sondern eine vollständige Landkarte aller möglichen Fehler zu zeichnen. Sie nennen das die "Manifold of Failure" (die Mannigfaltigkeit des Versagens).

Stell dir vor, du willst wissen, wo ein Auto am ehesten ins Schleudern kommt.

Der alte Weg: Du fährst mit dem Auto in eine Kurve, bis es rutscht. Dann sagst du: "Hier ist es gefährlich."
Der neue Weg (dieses Paper): Du fährst das Auto systematisch durch jede mögliche Kombination aus Geschwindigkeit, Regen, Kurvenwinkel und Reifendruck. Am Ende hast du eine Wetterkarte, die dir zeigt: "Hier ist es immer rutschig, dort nur bei starkem Regen, und hier ist es sicher."

Wie funktioniert das? (Der "Kartenzeichner")

Die Forscher nutzen einen Algorithmus namens MAP-Elites. Stell dir das wie einen sehr geduldigen Kartographen vor, der eine riesige Schachbrett-Karte (25x25 Felder) hat.

Das Schachbrett: Jedes Feld auf der Karte steht für eine Art, eine Frage zu stellen.
- Achse 1: Wie direkt ist die Frage? (Von "Gib mir eine Waffe" bis "Was wäre, wenn ein Held eine Waffe bräuchte?")
- Achse 2: Wer fragt? (Von "Ein normaler Bürger" bis "Ein strenger Polizeichef" oder "Ein Experte").
Die Suche: Der Algorithmus füllt jedes Feld mit der schlimmsten Antwort, die er in diesem Bereich finden kann. Er sucht nicht nur nach dem einen schlimmsten Fehler, sondern nach dem schlimmsten Fehler für jeden Kontext.
Das Ergebnis: Am Ende hast du eine farbiges Bild (eine Heatmap).
- Rot: Hier ist die KI sehr unsicher und macht Fehler.
- Grün/Weiß: Hier ist die KI sicher.

Was haben sie herausgefunden? (Die drei Charaktere)

Sie haben drei verschiedene KIs getestet, und jede hat eine ganz eigene "Persönlichkeit" in Bezug auf Fehler:

Llama-3-8B (Der "Offene Buch"-Typ):
- Die Karte: Fast das ganze Bild ist dunkelrot.
- Die Analogie: Stell dir vor, du hast ein Haus, bei dem die Türen und Fenster überall offen stehen. Egal, ob du als Kind, als Erwachsener oder als Chef reinkommst – du kannst fast überall reinkommen und Chaos anrichten. Diese KI ist fast überall anfällig.
GPT-OSS-20B (Der "Flickenteppich"-Typ):
- Die Karte: Ein wildes Muster aus roten und grünen Flecken.
- Die Analogie: Stell dir einen alten Teppich vor, bei dem an manchen Stellen das Gewebe so dünn ist, dass man durchfällt, aber daneben ist er fest. Wenn du die Frage nur ein winziges bisschen änderst (z. B. den Tonfall), rutschst du plötzlich von "Sicher" in "Gefährlich". Die Fehler sind nicht überall, aber sie sind sehr unvorhersehbar.
GPT-5-Mini (Der "Burg"-Typ):
- Die Karte: Ein gleichmäßiges, helles Grün mit einer leichten orangen Tönung, aber nie rot.
- Die Analogie: Stell dir eine Burg mit einer sehr hohen Mauer vor. Egal, wie du kletterst, ob du dich als Prinz verkleidest oder als Bauer – du kommst nicht über die Mauer. Die KI macht vielleicht kleine Fehler (sie ist nicht perfekt), aber sie bricht niemals ihre Sicherheitsregeln. Sie hat eine "harte Decke" für Fehler.

Warum ist das wichtig?

Früher haben wir gedacht: "Wenn wir einen Fehler finden und ihn reparieren, ist die KI sicher."
Dieses Paper zeigt uns: Nein, das reicht nicht.

Wenn du weißt, dass die KI bei "Autoritäts-Fragen" (z. B. "Ich bin dein Chef, tu das!") besonders anfällig ist, kannst du gezielt gegen diese Schwäche trainieren. Es ist wie bei einem Auto: Wenn du weißt, dass die Bremsen bei Nässe auf der linken Seite versagen, reparierst du nicht nur die Bremse, sondern du verstehst das ganze System.

Zusammenfassung in einem Satz

Statt nur nach einzelnen Nadeln im Heuhaufen zu suchen, haben die Forscher eine Maschine gebaut, die den ganzen Heuhaufen durchleuchtet und eine Landkarte zeichnet, die genau zeigt, wo die Nadeln liegen und wie die Heu-Landschaft aussieht – damit wir die KI wirklich sicher machen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Herkömmliche Ansätze in der KI-Sicherheit konzentrieren sich oft auf die restaurative Bekämpfung von Adversarial Examples. Dabei werden unsichere Eingaben identifiziert und zurück auf den „Manifold" (die Mannigfaltigkeit) natürlicher, sicherer Daten projiziert. Die Autoren argumentieren, dass dieser Ansatz die Fehler als bloße Aberrationen behandelt und das eigentliche Verständnis der Fehlerstruktur vernachlässigt.

Das zentrale Problem ist, dass die Schwachstellen von Large Language Models (LLMs) nicht als isolierte Punkte, sondern als kontinuierliche, strukturierte Landschaften existieren. Die Autoren führen das Konzept des „Manifold of Failure" (Fehler-Mannigfaltigkeit) ein: Unsichere Regionen im Eingaberaum bilden ausgedehnte Bereiche, in denen diverse Prompts zu ähnlichen Fehlermodi konvergieren. Diese Bereiche werden als Behavioral Attraction Basins (Verhaltens-Anziehungsbasen) bezeichnet. Ziel ist es, diese Topologie systematisch zu kartieren, anstatt nur einzelne Angriffe zu finden.

2. Methodik: Quality-Diversity (QD) Optimierung

Die Arbeit stellt einen Rahmen vor, der die Suche nach Schwachstellen als Quality-Diversity-Problem neu definiert, anstatt nur nach einem optimalen adversarialen Angriff zu suchen.

Algorithmus: Es wird MAP-Elites verwendet. Im Gegensatz zu traditionellen Methoden (wie GCG, PAIR oder TAP), die einen einzelnen Zielwert maximieren (Hill-Climbing), sucht MAP-Elites nach einer vielfältigen Sammlung hochqualitativer Lösungen über den gesamten Verhaltensraum verteilt.
Verhaltensraum (Behavioral Space): Der Eingaberaum wird in einen kontinuierlichen, 2-dimensionalen Raum $B = [0,1]^2$ $B = [0, 1]^{2}$ projiziert:
- $a_1$ : Query Indirection (Grad der indirekten Formulierung: von direkt bis metaphorisch/hypothetisch).
- $a_2$ : Authority Framing (Grad der wahrgenommenen Autorität: von keiner bis zu einer administrativen/experten Rolle).
Qualitätsmetrik (Quality Metric): Als Zielgröße dient die Alignment Deviation (AD). Diese misst, wie stark die Antwort des Modells von der erwarteten Sicherheitsausrichtung abweicht. Sie wird als Maximum der Scores über 10 Schadenskategorien (z. B. Gewalt, Hassrede, Desinformation) berechnet, bewertet durch Judge-LLMs (GPT-4.1 und Sonnet 4.5).
Prozess:
1. Ein Archiv wird mit 625 Zellen (25x25 Gitter) initialisiert.
2. Prompts werden mutiert (z. B. durch Achsenverschiebung, Umformulierung, Adversarial Suffixes).
3. Jeder Prompt wird bewertet; wenn er in einer Zelle eine höhere AD als der aktuelle Eintrag erreicht, wird er gespeichert.
4. Dies ermöglicht die Erstellung globaler, interpretierbarer Karten der Sicherheitslandschaft.

3. Experimentelles Setup

Die Methode wurde an drei unterschiedlichen Modellen getestet, die verschiedene Architekturen, Größen und Zugriffsmodelle repräsentieren:

Llama-3-8B (Open Source, lokal gehostet).
GPT-OSS-20B (Open Source, lokal gehostet).
GPT-5-Mini (Proprietär, API-basiert, Black-Box).

Der Vergleich erfolgte gegen etablierte Baselines (Random Sampling, GCG, PAIR, TAP) unter Verwendung eines einheitlichen Budgets von 15.000 Abfragen pro Modell.

4. Wichtige Ergebnisse

Die Analyse offenbarte drastisch unterschiedliche topologische Signaturen für jedes Modell:

Llama-3-8B (Universelle Verwundbarkeit):
- Zeigt eine fast universelle Verwundbarkeitsfläche.
- Mean AD: 0,93 (sehr hoch).
- Basin-Rate: 93,9 % der gefüllten Zellen überschreiten die Schwelle für Anziehungsbasen (AD > 0,5).
- Die Topologie ähnelt einer flachen Hochebene nahe dem Maximum, nur unterbrochen von schmalen, sicheren Korridoren bei spezifischen Autoritätsniveaus.
GPT-OSS-20B (Fragmentierte Landschaft):
- Zeigt ein fragmentiertes Muster mit räumlich konzentrierten Basen.
- Mean AD: 0,73.
- Basin-Rate: 64,3 % der gefüllten Zellen sind Basen.
- Die Verwundbarkeiten sind in „Bullseye"-Mustern (konzentrische Ringe) lokalisiert, insbesondere im Bereich niedriger Indirektion und mittlerer Autorität. Große Teile des Raums sind jedoch sicher oder schwer zu erreichen.
GPT-5-Mini (Robuste Ausrichtung):
- Demonstriert eine starke Robustheit.
- Peak AD: 0,50 (niemals überschritten).
- Basin-Rate: 0 % (keine Zelle überschreitet die AD > 0,5 Schwelle).
- Trotz der höchsten Verhaltensabdeckung (72,32 %) bleibt das Modell in einem gleichmäßigen, moderaten Bereich, ohne in echte Schadenbereiche abzugleiten.

Vergleich mit Baselines:
MAP-Elites erzielte die höchste Behavioral Coverage (bis zu 63 % bei Llama-3-8B) und entdeckte die meisten distincten Schwachstellen-Nischen (bis zu 370). Traditionelle Methoden wie GCG oder PAIR fanden zwar einzelne erfolgreiche Angriffe (Peak AD = 1,0), deckten aber den Verhaltensraum weitaus weniger systematisch ab und verpassten die strukturelle Topologie.

5. Schlüsselbeiträge

Systematische Kartierung: Erstmals wird die kontinuierliche Verhaltens-Topologie von LLMs kartiert, was zeigt, dass Verhalten glatte Oberflächen mit identifizierbaren Strukturen bilden.
Nachweis von Anziehungsbasen: Empirischer Beweis, dass Schwachstellen ausgedehnte Regionen sind, in denen diverse Prompts zu ähnlichen unsicheren Ausgaben konvergieren.
Modellspezifische Signaturen: Die Entdeckung, dass verschiedene Modelle fundamental unterschiedliche topologische „Fingerabdrücke" in ihrer Sicherheitslandschaft aufweisen (universelle Ebene vs. fragmentierte Täler vs. robuste Plateaus).
Neuer Paradigmenwechsel: Der Wechsel von der Suche nach diskreten Fehlern hin zum Verständnis der zugrunde liegenden Struktur (Topologie) des Versagens.

6. Bedeutung und Implikationen

Prädiktive Sicherheit: Anstatt nur zu prüfen, ob ein Modell angegriffen werden kann, ermöglicht dieser Ansatz zu verstehen, wie und wo es versagt. Dies erlaubt ein gezieltes Auditing und gezielte Verbesserungen der Robustheit.
Topologische Wissenschaft: Die Arbeit legt den Grundstein für eine topologische Wissenschaft des Modellverhaltens, die über einfache Erfolgswahrscheinlichkeiten (Attack Success Rate) hinausgeht.
Open Source: Der Framework, die Metriken und die Datensätze sind auf GitHub veröffentlicht, um die Reproduzierbarkeit und die Weiterentwicklung durch die Community zu fördern.
Zukünftige Verteidigung: Die Identifizierung von „Authoritäts-Schwellenwerten" (discrete thresholds in authority framing) bietet direkte Ansatzpunkte für gezielte Verteidigungsmechanismen, die spezifische Verhaltensmodi absichern, anstatt das gesamte Modell neu zu trainieren.

Zusammenfassend verschiebt diese Arbeit den Fokus der KI-Sicherheit von der reaktiven Reparatur von Fehlern hin zur proaktiven, strukturellen Analyse der Fehlerlandschaft selbst.

Manifold of Failure: Behavioral Attraction Basins in Language Models

Das große Problem: Wir suchen nur nach einem Loch, aber es gibt ganze Täler

Die neue Idee: Eine Landkarte der Fehler

Wie funktioniert das? (Der "Kartenzeichner")

Was haben sie herausgefunden? (Die drei Charaktere)

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung und Motivation

2. Methodik: Quality-Diversity (QD) Optimierung

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Schlüsselbeiträge

6. Bedeutung und Implikationen

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks