Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Each language version is independently generated for its own context, not a direct translation.

🛠️ Wenn KI versucht, Sicherheitslücken zu flicken: Ein Bericht über gut gemeinte, aber katastrophale Versuche

Stellen Sie sich vor, Sie haben ein altes, kaputtes Haus (das ist Ihr Computerprogramm). Es gibt ein Loch in der Wand, durch das Einbrecher (Hacker) hereinkommen können. Sie rufen einen extrem intelligenten, aber etwas naiven Handwerker an – einen KI-Handwerker (den LLM).

Die Studie von Amir Al-Maamari untersucht genau das: Was passiert, wenn dieser KI-Handwerker versucht, das Loch zu flicken? Die Antwort ist überraschend und ein wenig beunruhigend.

1. Das große Missverständnis: Der Handwerker versteht die Aufgabe falsch

Die KI ist sehr gut darin, die Sprache zu lernen. Sie kann Sätze bilden, die grammatikalisch perfekt klingen (der Code funktioniert technisch). Aber sie versteht oft nicht, warum das Loch da ist.

Die Analogie: Stellen Sie sich vor, das Loch in der Wand ist so groß, dass ein Einbrecher hindurchklettert. Der KI-Handwerker kommt, betrachtet das Loch und sagt: „Ah, das ist ein Ärgernis!" Er nimmt dann einen riesigen, schweren Stein und klebt ihn einfach vor das Loch.
- Das Problem: Der Stein hält zwar den Wind draußen (die Funktion des Hauses bleibt erhalten), aber der Einbrecher kann immer noch durch das Fenster daneben oder durch die Tür hereinkommen. Oder schlimmer: Der Stein blockiert den Weg für die Bewohner selbst.
Das Ergebnis der Studie: Von allen Versuchen, die die KI unternahm, waren über die Hälfte (51,4%) komplett falsch. Sie haben nicht nur das Loch nicht gestopft, sondern haben oft sogar die normale Funktion des Hauses zerstört.

2. Die zwei Arten von Fehlern: „Scheint gut, ist aber gefährlich"

Die Studie unterscheidet zwischen zwei Hauptproblemen:

Der „Stille Killer" (Sicherheitsfehler):
Dies ist der gefährlichste Fall. Der Handwerker repariert das Loch so, dass es für den Hausbesitzer (die normalen Tests) aussieht, als wäre alles perfekt. Der Strom läuft, das Licht geht an. Aber der Einbrecher kann immer noch hereinkommen.
- Warum ist das schlimm? Wenn Sie diesen „reparierten" Code in Ihr System laden, denken Sie, Sie sind sicher. Aber Sie sind es nicht. Die Studie fand heraus, dass 10% aller Patches genau so sind: Sie funktionieren, sind aber unsicher. Das ist wie ein Schloss, das sich leicht öffnen lässt, aber vom Schlossmacher als „geöffnet" bestätigt wurde.
Der „Offensichtliche Fehler" (Funktionsfehler):
Hier macht die KI einen so großen Fehler, dass das Haus nicht mehr bewohnbar ist. Das Licht geht nicht mehr an, die Tür klemmt. Das ist zwar ärgerlich, aber wenigstens wissen Sie sofort, dass etwas schiefgelaufen ist.

3. Warum scheitert die KI? (Die „Bimodale" Kurve)

Die Forscher stellten fest, dass die KI nicht „ein bisschen" besser wird. Es gibt nur zwei Zustände:

Perfekt: Die KI versteht das Problem und repariert es genau richtig.
Totaler Fehlschlag: Die KI versteht das Problem gar nicht und macht etwas völlig anderes.

Es gibt kaum „fast geschafft"-Situationen.

Die Analogie: Es ist, als würde ein Schüler eine Matheaufgabe lösen. Entweder er hat die Formel verstanden und kommt auf das richtige Ergebnis, oder er hat die Formel völlig falsch verstanden und rechnet etwas völlig anderes aus. Es gibt selten den Fall, dass er die Formel fast richtig hat, aber einen kleinen Rechenfehler macht. Die KI scheitert meist am Verständnis des Sicherheitsproblems, nicht an der Technik des Code-Schreibens.

4. Nicht alle Löcher sind gleich schwer zu flicken

Die Studie zeigte, dass die Art des Lochs entscheidend ist:

Einfache Fälle (z. B. eine endlose Schleife): Wenn das Problem technisch ist (z. B. ein Motor, der nie anhält), schafft die KI es in 45% der Fälle, das Problem zu lösen. Das ist wie ein Mechaniker, der einen losen Schraube festzieht.
Schwierige Fälle (z. B. Eingabeprüfung): Wenn das Problem darin besteht zu verstehen, was ein „guter" oder „schlechter" Input ist (z. B. darf ein Benutzer hier nur Zahlen eingeben?), schafft die KI es in 0% der Fälle.
- Warum? Das erfordert Weltwissen und Kontext. Die KI weiß nicht, was in diesem speziellen Programm erlaubt ist. Sie kann das nicht auswendig lernen.

5. Was bedeutet das für uns? (Die wichtigsten Lehren)

Vertraue der KI nicht blind: Wenn die KI einen Sicherheitspatch schreibt, ist das kein „Fertig". Es ist eher wie ein Entwurf, den ein erfahrener Sicherheits-Experte (ein menschlicher Handwerker) sofort überprüfen muss.
Die „Sicherheits-Test-Suite" reicht nicht: Normale Tests prüfen nur, ob das Programm läuft. Sie prüfen nicht, ob Einbrecher reinkommen. Man braucht spezielle Tests (die in der Studie „PoV-Tests" genannt werden), die versuchen, das Loch aktiv auszunutzen, um zu sehen, ob es wirklich geflickt ist.
Kein Kompromiss: Man muss nicht befürchten, dass eine sichere Lösung das Programm kaputt macht. Die Studie zeigt: Wenn die KI es schafft, sicher zu machen, funktioniert es auch. Das Problem ist nur, dass sie es selten schafft.

Fazit in einem Satz

Die KI ist ein genialer Handwerker, der perfekt bauen kann, aber oft vergisst, warum sie baut. Sie füllt Löcher mit Beton, wo eigentlich ein Schloss gebraucht wird. Bevor wir ihre Arbeit nutzen, müssen wir sie also sehr genau prüfen – besonders bei den schwierigen, kontextabhängigen Problemen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung der Arbeit „Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation" von Amir Al-Maamari auf Deutsch.

1. Problemstellung

Große Sprachmodelle (LLMs) zeigen vielversprechende Ergebnisse im Bereich des automatisierten Programmreparatur (Automated Program Repair, APR) für funktionale Fehler. Im Sicherheitsbereich bestehen jedoch erhebliche Lücken:

Unterschiedliche Anforderungen: Herkömmliche Test-Suites prüfen das erwartete Verhalten, nicht jedoch die Sicherheit gegenüber adversarialen Eingaben. Ein Patch kann alle funktionalen Tests bestehen, aber die Anwendung weiterhin angreifbar lassen.
Risiko: Studien zeigen, dass LLM-Agenten Sicherheitslücken fast neunmal häufiger einführen als menschliche Entwickler.
Zielkonflikt: Es besteht oft die Annahme, dass Sicherheitsfixe die Funktionalität beeinträchtigen, was zu einem Spannungsfeld zwischen Sicherheit und Funktionalität führt.
Forschungsfrage: Wie genau scheitern LLMs bei der Generierung von Sicherheitspatches, inwieweit gelingt ihnen eine teilweise Korrektur, und welche Merkmale einer Schwachstelle sagen die Reparatur-Schwierigkeit voraus?

2. Methodik

Die Studie analysiert systematisch 319 von einem LLM generierte Sicherheitspatches für 64 Java-Sicherheitslücken aus dem Benchmark Vul4J.

Modell & Prompting: Es wurde Gemini 2.0 Flash (im Text auch als Gemini 3.0 Flash im Experiment-Setup erwähnt, basierend auf dem Kontext vermutlich eine spezifische Version) mit einem Zero-Shot-Prompt eingesetzt. Der Prompt forderte das Modell auf, den Code zu reparieren, ohne zusätzliche Erklärungen oder Formatierung zu liefern.
Datensatz: 64 reproduzierbare Java-Sicherheitslücken (aus 79 verfügbaren), abgedeckt durch 21 verschiedene CWE-Kategorien (Common Weakness Enumeration).
Tri-Achsen-Bewertung (Tri-axis Evaluation): Jeder Patch wurde entlang drei Achsen bewertet:
1. Kompilierung: Erfolgreicher Build (Maven/Gradle).
2. Sicherheit: Bestehen des Proof-of-Vulnerability (PoV) Tests (Exploit-Code) und Reduktion von Warnungen durch statische Analyse (Semgrep).
3. Funktionalität: Bestehen des gesamten Entwickler-Test-Suites.
Metriken:
- Security Score ( $S_{score}$ ): Kombiniert PoV-Ergebnis und Reduktion von Semgrep-Warnungen.
- Functionality Score ( $F_{score}$ ): Verhältnis bestandener Tests zu Gesamttests.
- Security Repair Score (SRS): Eine neue Metrik, die den Kompilierungserfolg ( $C$ ) mit dem gewichteten Durchschnitt von Sicherheits- und Funktionsscore kombiniert: $SRS = C \times (0.5 \cdot S_{score} + 0.5 \cdot F_{score})$ . Dies ermöglicht eine Messung von „teilweisem Erfolg".
Analyse: Korrelationsanalysen (Pearson und Spearman) wurden durchgeführt, um Zusammenhänge zwischen Code-Komplexität, Patch-Größe und Reparaturerfolg zu identifizieren.

3. Wichtige Beiträge

Die Arbeit leistet vier wesentliche Beiträge:

Fehler-Taxonomie: Eine Klassifizierung von LLM-Sicherheitspatches in fünf Kategorien (z. B. „Sicher & Korrekt", „Kompilierungsfehler", „Sicherheitsfehler", „Funktionalitätsfehler", „Unsicher & Defekt").
Security Repair Score (SRS): Eine kontinuierliche Metrik zur Quantifizierung von teilweisem Erfolg, die über binäre Pass/Fail-Metriken hinausgeht.
Identifikation von Schwierigkeitsfaktoren: Aufdeckung, dass die Art der Schwachstelle (CWE) und die Größe des menschlichen Referenzpatches den Erfolg stärker vorhersagen als traditionelle Komplexitätsmetriken.
Handlungsleitfaden: Praktische Empfehlungen für Entwickler und Forscher basierend auf den analysierten Fehlermustern.

4. Ergebnisse und Schlüsselerkenntnisse

A. Art des Scheiterns (RQ1)

Gesamterfolg: Nur 24,8 % der Patches waren vollständig korrekt (sicher und funktional).
Dominantes Fehlermuster: 51,4 % der Patches scheiterten sowohl bei der Sicherheit als auch bei der Funktionalität. Der Hauptgrund war keine Syntaxfehler, sondern ein semantisches Missverständnis: Das LLM wendete grundlegend falsche Reparaturstrategien an.
Kompilierung: Die Kompilierungsrate lag bei 86,8 %, was zeigt, dass LLMs Java-Syntax beherrschen, dies aber nicht in korrekte Sicherheitslogik übersetzt wird.
Gefährlichste Kategorie: 10,3 % der Patches waren funktional korrekt, aber unsicher. Diese stellen das größte Risiko dar, da sie in CI/CD-Pipelines unbemerkt durchlaufen würden. Besonders stark ausgeprägt war dies bei Berechtigungsproblemen (CWE-264).

B. Grad des teilweisen Erfolgs (RQ2)

Asymmetrie: LLMs erhalten die Funktionalität sehr gut (mittlerer Score: 0,832), scheitern aber massiv bei der Sicherheit (mittlerer Score: 0,251).
Bimodale Verteilung: Die SRS-Werte zeigen eine bimodale Verteilung. Patches sind entweder „perfekt" (SRS ≈ 1,0) oder „fast gescheitert" (SRS ≈ 0,5, da sie funktional sind, aber unsicher).
Kein „Nahe-Erfolg": Nur 0,3 % der Patches lagen im Bereich „nahe Erfolg" (0,8 ≤ SRS < 1,0). Dies deutet darauf hin, dass LLMs bei Sicherheitsproblemen eine „Alles-oder-Nichts"-Fähigkeit besitzen; es gibt kaum einen graduellen Fortschritt, der durch Prompt-Optimierung leicht verbessert werden könnte.
Kein Trade-off: Es gab keine signifikante Korrelation zwischen Sicherheits- und Funktionsscore. Das bedeutet: Ein Sicherheitsfix muss nicht zu einem Funktionsverlust führen; das Scheitern liegt in der mangelnden Sicherheitslogik, nicht in einem Zielkonflikt.

C. Vorhersage von Schwierigkeiten (RQ3)

CWE-abhängige Schwierigkeit: Der Erfolg variiert stark je nach Schwachstellentyp:
- CWE-835 (Endlosschleife): 45 % Fix-Rate (mechanisch lösbar).
- CWE-20 (Eingabevalidierung): 0 % Fix-Rate (erfordert domänenspezifisches Kontextwissen).
Patch-Größe als Prädiktor: Die Größe des menschlichen Referenzpatches korreliert negativ mit dem Erfolg (Spearman $\rho = -0,331$ ). Je komplexer der menschliche Fix, desto schwieriger für das LLM.
Irrelevanz traditioneller Metriken: Zeilenanzahl (LOC) und zyklomatische Komplexität zeigten keine signifikante Korrelation mit dem Erfolg. Das Problem liegt also im semantischen Verständnis („Was muss geändert werden?"), nicht in der strukturellen Komplexität des Codes.

5. Bedeutung und Implikationen

Für Praktiker:
- LLM-generierte Sicherheitspatches dürfen nicht ohne rigorose Validierung (insbesondere PoV-Tests) deployed werden.
- Besonders bei Eingabevalidierung und Berechtigungsproblemen ist menschliche Überprüfung zwingend erforderlich, da LLMs hier systematisch versagen.
- Da es kaum „nahe Erfolge" gibt, ist iteratives Prompting bei gescheiterten Patches wenig aussichtsreich; stattdessen sollte die Strategie geändert werden (z. B. spezialisierte Modelle oder andere Ansätze).
- Die Annahme, dass Sicherheitsfixe die Funktionalität opfern müssen, ist falsch und sollte verworfen werden.
Für Forscher:
- Der Fokus sollte sich von der Syntaxgenerierung hin zum Verständnis von Schwachstellen (Vulnerability Comprehension) verschieben.
- Ansätze, die CWE-spezifisches Wissen einbeziehen (z. B. Routing verschiedener Schwachstellentypen zu unterschiedlichen Reparaturstrategien), könnten die Erfolgsraten deutlich steigern.
- Die Einführung von kontinuierlichen Metriken (wie SRS) ist essenziell, um den Fortschritt bei Sicherheitsreparaturen besser zu bewerten als durch binäre Pass/Fail-Tests.

Fazit: Die Studie zeigt, dass LLMs zwar syntaktisch korrekten Code generieren und Funktionalität bewahren können, ihnen jedoch das semantische Verständnis fehlt, um Sicherheitslücken zuverlässig zu schließen. Der Erfolg ist stark vom Typ der Schwachstelle abhängig, und die aktuellen Modelle benötigen dringend sicherheitsbewusstes Training und spezialisierte Validierungsmechanismen.