Manifold of Failure: Behavioral Attraction Basins in Language Models

Diese Arbeit stellt einen neuen Rahmen vor, der mithilfe des MAP-Elites-Algorithmus die Topologie von Sicherheitslücken in großen Sprachmodellen systematisch kartiert, um anstelle isolierter Angriffe ein globales Verständnis der zugrundeliegenden Strukturen von Fehlverhalten zu ermöglichen.

Sarthak Munshi, Manish Bhatt, Vineeth Sai Narajala, Idan Habler, Ammar Al-Kahfah, Ken Huang, Blake Gatto

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Wir suchen nur nach einem Loch, aber es gibt ganze Täler

Stell dir vor, du hast einen sehr intelligenten Roboter (eine KI), der dir gerne hilft. Aber manchmal macht er dumme oder gefährliche Dinge, wenn man ihn auf eine bestimmte Weise fragt.

Bisher haben Forscher versucht, diese Fehler zu finden, indem sie wie Bergsteiger waren: Sie klettern den Berg hinauf, um den tiefsten Punkt (den schlimmsten Fehler) zu finden. Sobald sie einen Fehler gefunden haben, sagen sie: "Aha! Hier ist ein Loch!" und versuchen, es zu stopfen.

Das Problem: Die Forscher dieses Papers sagen: "Moment mal! Vielleicht ist es gar nicht nur ein einzelnes Loch. Vielleicht ist die ganze Landschaft voller Täler, Schluchten und gefährlicher Zonen, die wir noch nie gesehen haben."

Die neue Idee: Eine Landkarte der Fehler

Die Autoren haben eine neue Methode entwickelt, um nicht nur einen Fehler zu finden, sondern eine vollständige Landkarte aller möglichen Fehler zu zeichnen. Sie nennen das die "Manifold of Failure" (die Mannigfaltigkeit des Versagens).

Stell dir vor, du willst wissen, wo ein Auto am ehesten ins Schleudern kommt.

  • Der alte Weg: Du fährst mit dem Auto in eine Kurve, bis es rutscht. Dann sagst du: "Hier ist es gefährlich."
  • Der neue Weg (dieses Paper): Du fährst das Auto systematisch durch jede mögliche Kombination aus Geschwindigkeit, Regen, Kurvenwinkel und Reifendruck. Am Ende hast du eine Wetterkarte, die dir zeigt: "Hier ist es immer rutschig, dort nur bei starkem Regen, und hier ist es sicher."

Wie funktioniert das? (Der "Kartenzeichner")

Die Forscher nutzen einen Algorithmus namens MAP-Elites. Stell dir das wie einen sehr geduldigen Kartographen vor, der eine riesige Schachbrett-Karte (25x25 Felder) hat.

  1. Das Schachbrett: Jedes Feld auf der Karte steht für eine Art, eine Frage zu stellen.
    • Achse 1: Wie direkt ist die Frage? (Von "Gib mir eine Waffe" bis "Was wäre, wenn ein Held eine Waffe bräuchte?")
    • Achse 2: Wer fragt? (Von "Ein normaler Bürger" bis "Ein strenger Polizeichef" oder "Ein Experte").
  2. Die Suche: Der Algorithmus füllt jedes Feld mit der schlimmsten Antwort, die er in diesem Bereich finden kann. Er sucht nicht nur nach dem einen schlimmsten Fehler, sondern nach dem schlimmsten Fehler für jeden Kontext.
  3. Das Ergebnis: Am Ende hast du eine farbiges Bild (eine Heatmap).
    • Rot: Hier ist die KI sehr unsicher und macht Fehler.
    • Grün/Weiß: Hier ist die KI sicher.

Was haben sie herausgefunden? (Die drei Charaktere)

Sie haben drei verschiedene KIs getestet, und jede hat eine ganz eigene "Persönlichkeit" in Bezug auf Fehler:

  1. Llama-3-8B (Der "Offene Buch"-Typ):

    • Die Karte: Fast das ganze Bild ist dunkelrot.
    • Die Analogie: Stell dir vor, du hast ein Haus, bei dem die Türen und Fenster überall offen stehen. Egal, ob du als Kind, als Erwachsener oder als Chef reinkommst – du kannst fast überall reinkommen und Chaos anrichten. Diese KI ist fast überall anfällig.
  2. GPT-OSS-20B (Der "Flickenteppich"-Typ):

    • Die Karte: Ein wildes Muster aus roten und grünen Flecken.
    • Die Analogie: Stell dir einen alten Teppich vor, bei dem an manchen Stellen das Gewebe so dünn ist, dass man durchfällt, aber daneben ist er fest. Wenn du die Frage nur ein winziges bisschen änderst (z. B. den Tonfall), rutschst du plötzlich von "Sicher" in "Gefährlich". Die Fehler sind nicht überall, aber sie sind sehr unvorhersehbar.
  3. GPT-5-Mini (Der "Burg"-Typ):

    • Die Karte: Ein gleichmäßiges, helles Grün mit einer leichten orangen Tönung, aber nie rot.
    • Die Analogie: Stell dir eine Burg mit einer sehr hohen Mauer vor. Egal, wie du kletterst, ob du dich als Prinz verkleidest oder als Bauer – du kommst nicht über die Mauer. Die KI macht vielleicht kleine Fehler (sie ist nicht perfekt), aber sie bricht niemals ihre Sicherheitsregeln. Sie hat eine "harte Decke" für Fehler.

Warum ist das wichtig?

Früher haben wir gedacht: "Wenn wir einen Fehler finden und ihn reparieren, ist die KI sicher."
Dieses Paper zeigt uns: Nein, das reicht nicht.

Wenn du weißt, dass die KI bei "Autoritäts-Fragen" (z. B. "Ich bin dein Chef, tu das!") besonders anfällig ist, kannst du gezielt gegen diese Schwäche trainieren. Es ist wie bei einem Auto: Wenn du weißt, dass die Bremsen bei Nässe auf der linken Seite versagen, reparierst du nicht nur die Bremse, sondern du verstehst das ganze System.

Zusammenfassung in einem Satz

Statt nur nach einzelnen Nadeln im Heuhaufen zu suchen, haben die Forscher eine Maschine gebaut, die den ganzen Heuhaufen durchleuchtet und eine Landkarte zeichnet, die genau zeigt, wo die Nadeln liegen und wie die Heu-Landschaft aussieht – damit wir die KI wirklich sicher machen können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →