Where Do LLM-based Systems Break? A System-Level Security Framework for Risk Assessment and Treatment

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bauen ein hochmodernes, künstliches Gehirn – einen KI-Assistenten für ein Krankenhaus. Dieser Assistent soll Ärzten helfen, Patientendaten zu lesen, Notizen zu schreiben und sogar bei der Diagnose zu unterstützen. Das klingt toll, aber wie bei jedem neuen Werkzeug gibt es auch hier neue Möglichkeiten, dass etwas schiefgeht.

Das Problem: Bisher haben Sicherheitsleute oft nur auf den „KI-Motor" selbst geschaut (z. B. „Kann man die KI verwirren?"). Sie haben aber vergessen, dass dieser Motor in einem riesigen, komplexen System aus Webservern, Datenbanken und Benutzerkonten eingebettet ist. Es ist, als würde man nur den Motor eines Autos prüfen und dabei die Bremsen, die Reifen und den Fahrer ignorieren.

Diese Forschung von Neha Nagaraja und Hayretdin Bahsi bietet nun einen neuen Bauplan für die Sicherheit, der das ganze System betrachtet. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Schneckenhaus"-Effekt

Stellen Sie sich den KI-Assistenten wie einen sehr klugen, aber leicht zu verwirrenden Dolmetscher vor.

Der alte Ansatz: Man fragte nur: „Kann jemand den Dolmetscher dazu bringen, Lügen zu sagen?" (Prompt Injection).
Die Realität: Der Dolmetscher sitzt in einem Gebäude mit vielen Türen, Fenstern und Sicherheitsleuten. Ein Angreifer könnte:
1. Den Dolmetscher selbst verwirren (KI-Angriff).
2. Dem Dolmetscher gefälschte Dokumente in die Hand drücken (Datenlecks).
3. Die Stromleitung zum Gebäude kappen, damit niemand mehr sprechen kann (Ausfall des Systems).
4. Oder den Dolmetscher bestechen, damit er die Tür zum Archiv öffnet (Zugriff auf Patientendaten).

Bisher haben die Sicherheitspläne diese verschiedenen Angriffe oft getrennt betrachtet. Das neue Papier sagt: „Wir müssen den gesamten Weg des Angreifers vom ersten Türgriff bis zum Ziel im Archiv verfolgen."

2. Die Lösung: Ein „Schadens-Karten"-System (Attack-Defense Trees)

Die Autoren nutzen eine Methode, die sie Angriffs- und Verteidigungs-Bäume nennen.

Der Baum: Stellen Sie sich einen Baum vor. Die Wurzeln sind die Ziele des Angreifers (z. B. „Patientendaten stehlen" oder „Falsche Medikamente verschreiben"). Die Äste sind die verschiedenen Wege, wie man dorthin kommt.
Die Blätter: Jedes Blatt ist ein kleiner Schritt, den der Angreifer tun muss (z. B. „Passwort klauen" oder „Netzwerk abhören").
Die Verteidigung: An diesen Ästen hängen Schilder (Verteidigungsmaßnahmen), die den Weg blockieren sollen.

Das Besondere: Sie verbinden diese Bäume mit einem standardisierten Risikorechner (CVSS). Das ist wie ein Bewertungssystem für Erdbeben. Statt nur zu sagen „Das ist gefährlich", geben sie jedem Schritt eine Zahl. So können sie berechnen: „Wenn wir diese eine Tür verstärken, sinkt das Risiko für den ganzen Weg um 50 %."

3. Die drei großen Albträume (Die Ziele)

Die Forscher haben drei Hauptszenarien für ihr Krankenhaus-Beispiel durchgespielt:

Der falsche Arzt (Intervention): Jemand manipuliert die KI, damit sie eine tödliche Dosis verschreibt.
Der Lauscher (Datenleck): Jemand stiehlt die privaten Krankengeschichten der Patienten.
Der Saboteur (Ausfall): Jemand bringt das System zum Absturz, damit Ärzte in einem Notfall keine Daten mehr sehen können.

4. Die Erkenntnis: Wenige Schwachstellen, viele Wege

Das Spannendste an der Studie ist ihre Entdeckung:
Obwohl es Dutzende von kleinen Angriffsmöglichkeiten gibt, laufen fast alle gefährlichen Pfade durch ein paar wenige „Engpässe" (Choke Points).

Analogie: Es ist wie bei einem Schloss. Es gibt viele Wege, ein Haus zu betreten (Fenster, Hintertür, Dach), aber wenn Sie die Haupttür (z. B. die Authentifizierung oder die Orchestrierung der KI) sichern, sind fast alle anderen Wege nutzlos.

Die Studie zeigt, dass es oft sinnvoller ist, diese einen Engpass extrem stark zu sichern (z. B. durch Multi-Faktor-Authentifizierung oder strenge Prüfungen), als hunderte kleine Fenster zu vergittern.

5. Der Kosten-Nutzen-Check

Ein wichtiger Teil der Arbeit ist die Frage: „Was bringt uns das für unser Geld?"
Die Autoren haben eine einfache Skala von 1 bis 4 entwickelt, um zu messen, wie viel Aufwand eine Sicherheitsmaßnahme kostet (von „nur eine Einstellung ändern" bis „ganze IT-Infrastruktur umbauen").

Sie zeigen: Manchmal kostet eine kleine Änderung (wie das Hinzufügen einer Bestätigung durch einen Menschen für kritische Entscheidungen) wenig, senkt das Risiko aber massiv.
Manchmal ist eine teure Maßnahme weniger effektiv als eine billigere, die einen anderen Schwachpunkt trifft.

Fazit: Warum das wichtig ist

Dieses Papier ist wie ein neuer Bauplan für Architekten, die KI in kritischen Bereichen (Krankenhäuser, Stromnetze, Finanzen) einsetzen.
Es sagt uns:

Schauen Sie nicht nur auf die KI, sondern auf das ganze System.
Nutzen Sie bewährte Methoden (wie den Risikorechner), um zu verstehen, wo die größten Löcher sind.
Investieren Sie Ihr Geld dort, wo es den Weg des Angreifers am effektivsten unterbricht, statt überall kleine Flickschustereien zu machen.

Durch diesen Ansatz können wir sicherstellen, dass diese mächtigen KI-Assistenten nicht nur clever, sondern auch sicher und vertrauenswürdig sind, bevor sie unser Leben beeinflussen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Where Do LLM-based Systems Break? A System-Level Security Framework for Risk Assessment and Treatment" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend in sicherheitskritischen Workflows integriert, insbesondere im Gesundheitswesen (z. B. zur Unterstützung klinischer Entscheidungen, Zusammenfassung von Patientenakten). Bestehende Sicherheitsanalysen sind jedoch oft fragmentiert und isolieren das Modellverhalten vom größeren Systemkontext.

Lücke: Traditionelle Bedrohungsmodelle (wie STRIDE) oder reine LLM-Sicherheitsstudien (fokussiert auf Prompt-Injection oder Jailbreaks) erfassen nicht die komplexen, mehrstufigen Angriffspfade, die durch die Interaktion von LLMs, Orchestrierungsschichten, externen Tools und Infrastruktur entstehen.
Herausforderung: Es fehlt ein systemischer Ansatz, der konventionelle Cyber-Bedrohungen, adversarische ML-Angriffe und konversationelle Angriffe (Prompt-Injection) in einem einzigen Modell vereint, um realistische Angriffspfade von einem Einstiegspunkt bis zu einem konkreten Sicherheitsziel zu verfolgen und priorisierte Gegenmaßnahmen zu ermöglichen.

2. Methodik

Die Autoren stellen einen zielorientierten (goal-driven) Risikobewertungsrahmen vor, der Systemmodellierung mit Attack–Defense Trees (ADTrees) und dem Common Vulnerability Scoring System (CVSS) kombiniert. Der Workflow gliedert sich in drei Hauptschritte:

A. Systemmodellierung und Zieldefinition

Das System wird als LLM-gestützter Gesundheitsassistent modelliert, der aus einer Webanwendung, einem Orchestrator (Agent-Schicht), dem LLM und externen Ressourcen (EHR-Datenbanken, Tools) besteht.
Drei primäre Sicherheitsziele (Goals) werden definiert:

G1: Eingriff in medizinische Verfahren (unsichere/manipulierte klinische Anleitung).
G2: Offenlegung von EHR-Daten (Verletzung der Patientendatenschutz).
G3: Störung des Zugriffs oder der Verfügbarkeit (Denial-of-Service).

B. Attack–Defense Tree (ADT) Modellierung

Für jedes Ziel werden ADTs erstellt, die Angriffe in drei semantische Schichten zerlegen:

Preconditions (P): Was muss bereits geschehen sein, damit ein Angriff möglich ist? (z. B. Kompromittierung des Prompt-Kanals, schwache Authentifizierung).
Execution (V): Der aktive Angriffsschritt (z. B. Prompt-Injection, Session-Hijacking).
Impact: Das Erreichen des Sicherheitsziels.

Die Logik verwendet OR (alternative Strategien), AND (simultane Anforderungen) und SAND (sequenzielle Abhängigkeiten: Preconditions müssen vor Execution erfüllt sein). Verteidigungsmaßnahmen werden als Gegenknoten an spezifischen Stellen eingefügt, um die Schwierigkeit des Erreichens des Ziels zu erhöhen.

C. Quantifizierung mittels CVSS v3.1

Um die Ausnutzbarkeit (Exploitability) zu quantifizieren, wird CVSS v3.1 adaptiert:

Blattknoten: Jeder Angriffsschritt wird einem repräsentativen CVE zugeordnet (oder analog abgebildet), um CVSS-Metriken (Attack Vector, Complexity, Privileges Required, User Interaction) zu erhalten.
Aggregation:
- OR-Knoten: Der Pfad mit der höchsten Ausnutzbarkeit (einfachster Weg) bestimmt den Wert.
- AND-Knoten: Der schwierigste Pfad bestimmt den Wert.
- SAND-Knoten: Die Ausnutzbarkeit des Preconditions-Familie ( $E(P)$ ) wird mit der Execution ( $E(V)$ ) kombiniert. Ein wichtiger Mechanismus ist die Majority-Attack-Complexity: Wenn die Preconditions die Umgebung für den nächsten Schritt verändern (z. B. durch schwache Isolation), wird die Komplexität des Execution-Schritts angepasst.
Trennung von Ausnutzbarkeit und Impact: Die Ausnutzbarkeit wird entlang des Pfades berechnet. Der Impact (Vertraulichkeit, Integrität, Verfügbarkeit) wird erst am Zielknoten (Root) hinzugefügt, um eine saubere Trennung zwischen „Wie leicht ist der Angriff?" und „Wie schlimm ist das Ergebnis?" zu gewährleisten.

D. Risikobehandlung und Kostenmodell

Gegenmaßnahmen werden als Transformationen der CVSS-Metriken modelliert (z. B. Erhöhung der erforderlichen Privilegien von L auf H durch MFA, Erhöhung der Komplexität durch Guardrails).
Ein Kostenmodell (Stufen 1–4) bewertet den Aufwand (Engineering, Infrastruktur, Betrieb, UX). Verschiedene Szenarien werden verglichen:

Nur Preconditions härten.
Alle Preconditions härten.
Nur Execution härten (Guardrails).
Kombination beider.

3. Wichtige Beiträge

Zielorientierte Systemmodellierung: Ein Framework, das heterogene Bedrohungsklassen (konventionell, adversarisch, konversationell) in einem einzigen Systemmodell vereint und explizite mehrstufige Angriffspfade für LLM-Systeme erzeugt.
CVSS-basierte Ausnutzbarkeit für Mehrschritt-Angriffe: Eine Methode, um CVSS v3.1 Vektoren auf ADT-Blätter zu übertragen und diese über logische Operatoren (OR/AND/SAND) zu aggregieren, um Pfad-spezifische Ausnutzbarkeitsscores zu erhalten. Dies ermöglicht den Vergleich von Risiken über verschiedene Ziele hinweg.
Vergleich von Verteidigungsportfolios unter Kostenbeschränkungen: Ein Workflow, der konkrete Sicherheitskontrollen als Metrik-Transformationen modelliert und deren Effizienz (Risikoreduktion pro Kostenstufe) bewertet. Dies hilft, „Over-Engineering" zu vermeiden und die effektivsten Hebel zu identifizieren.

4. Ergebnisse (Fallstudie im Gesundheitswesen)

Die Anwendung des Frameworks auf einen LLM-gestützten Gesundheitsassistenten ergab:

Konsolidierung von Pfaden: Bedrohungen aus verschiedenen Kategorien (z. B. MitM, Prompt-Injection, Session-Hijacking) konvergieren oft in wenigen dominanten Pfaden und gemeinsamen System-Engpässen (Choke Points).
Quantitative Analyse: Viele Angriffspfade führten zu ähnlichen CVSS-Basis-Scores (ca. 7.5), was auf die hohe Ausnutzbarkeit in frühen Entwicklungsstadien ohne Gegenmaßnahmen hinweist.
Effizienz von Gegenmaßnahmen:
- Das Härten nur eines Precondition-Schritts (z. B. MFA) hatte oft nur begrenzte Wirkung, da andere Pfade (OR-Logik) offen blieben.
- Das Härten der gesamten Preconditions-Familie (Infrastruktur-first) oder das Hinzufügen von Guardrails auf der Execution-Ebene (Guardrails-first) zeigte signifikante Reduktionen der Pfad-Ausnutzbarkeit.
- Das Framework identifizierte klar, wo zusätzliche Kontrollen abnehmende Grenzerträge bringen (z. B. wenn der Pfad bereits durch einen anderen Engpass limitiert ist).
Spezifische Erkenntnisse:
- Bei G1 (Intervention) waren Prompt-Injection und Orchestrierungsfehler die kritischsten Pfade.
- Bei G2 (Datenleck) waren Session-Kompromittierung und KV-Cache-Leaks (PromptPeek) dominant.
- Bei G3 (Verfügbarkeit) waren Prompt-Flooding und Ressourcen-Erschöpfung durch rekursive Logik die Hauptbedrohungen.

5. Bedeutung und Fazit

Brückenschlag: Das Framework überbrückt die Lücke zwischen abstrakten KI-Sicherheitsbedenken und etablierten Vulnerability-Management-Praktiken (CVSS), was es für Sicherheitsteams in Unternehmen praktikabel macht.
Systemischer Blick: Es zwingt dazu, LLMs nicht als isolierte Modelle, sondern als Teil einer komplexen Architektur zu betrachten, in der Angriffe über mehrere Komponenten hinweg propagieren.
Frühe Risikobewertung: Die Methode ist für die frühe Entwicklungsphase geeignet, wo noch keine detaillierten Deployments vorliegen, aber dennoch priorisierte Engineering-Aufgaben definiert werden müssen.
Domänenunabhängigkeit: Obwohl im Gesundheitswesen getestet, ist der Workflow universell auf andere kritische LLM-Systeme übertragbar.

Zusammenfassend bietet das Paper ein strukturiertes, quantitatives Werkzeug, um die Sicherheit von LLM-Systemen nicht nur qualitativ zu beschreiben, sondern messbare, vergleichbare und kosteneffiziente Verteidigungsstrategien zu entwickeln.