AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie KI Cyber-Verbrechen versteht

Stell dir vor, Cyber-Sicherheits-Experten sind wie Detektive, die ständig dicke, chaotische Aktenberge durchwühlen. Diese Akten sind die sogenannten CTI-Berichte (Cyber Threat Intelligence). Sie beschreiben, wie Hacker Angriffe planen und ausführen. Das Problem? Diese Berichte sind oft unstrukturiert, langatmig und voller Fachchinesisch. Für einen Menschen ist es eine enorme Arbeit, die einzelnen Schritte eines Angriffs daraus herauszufiltern und zu verstehen, wie sie zusammenhängen.

In den letzten Jahren haben wir Künstliche Intelligenz (KI), genauer gesagt „Large Language Models" (LLMs), wie einen super-intelligenten Assistenten entdeckt. Diese KI kann Texte lesen, Fakten extrahieren und sogar Zusammenhänge herstellen. Aber: Versteht sie wirklich, wie ein Hacker-Plan abläuft?

Das ist das Herzstück dieser Forschung. Die Autoren haben ein neues Werkzeug namens AttackSeqBench entwickelt, um genau das zu testen.

Die Metapher: Der Koch und das Rezept

Stell dir einen Cyber-Angriff wie ein kompliziertes Kochrezept vor.

Ein Hacker (der Koch) muss zuerst Zutaten besorgen (Phishing-E-Mail).
Dann muss er den Herd anmachen (Code ausführen).
Danach rührt er die Suppe um (Daten stehlen).
Und am Ende serviert er das Gericht (Daten an die Hacker-Server senden).

Ein normaler KI-Assistent könnte dir vielleicht sagen: „Ah, hier steht 'Herd anmachen' und dort 'Suppe rühren'." Er kann die Wörter finden.
Aber AttackSeqBench fragt: „Versteht die KI, dass man den Herd nicht erst nach dem Servieren anmachen darf? Versteht sie die Reihenfolge und die Logik?"

Wenn die KI die Reihenfolge nicht versteht, ist sie für die Sicherheitsarbeit wertlos. Sie könnte denken, der Hacker hat erst die Daten gestohlen und dann den Virus installiert – was in der Realität unmöglich ist.

Was haben die Forscher gemacht? (Das Prüfungs-System)

Die Forscher haben ein riesiges Prüfungssystem gebaut, um verschiedene KI-Modelle zu testen. Sie haben 408 echte Hacker-Berichte genommen und daraus automatisch Fragen generiert, die wie ein Quiz aufgebaut sind.

Die Prüfung hat drei Schwierigkeitsstufen (wie in einem Videospiel):

Die Taktik-Ebene: „Welcher große Schritt kam als Nächstes?" (z. B. „Zuerst Zugang verschaffen, dann ausführen").
Die Technik-Ebene: „Welches spezielle Werkzeug wurde benutzt?" (z. B. „Haben sie eine Phishing-Mail oder einen USB-Stick benutzt?").
Die Verfahrens-Ebene: „Ist es wahrscheinlich, dass Schritt A vor Schritt B passiert?" (Ja/Nein-Fragen).

Sie haben dabei drei verschiedene Szenarien getestet:

Ohne Hilfe (Zero-Shot): Die KI muss alles aus ihrem eigenen Gedächtnis wissen.
Mit Kontext: Die KI darf den Bericht lesen, aber ein wichtiger Teil ist schwarz gemacht (wie ein Lückentext). Sie muss raten, was fehlt.
Mit Recherche (RAG): Die KI darf in einer Datenbank nachschlagen, um ihre Antwort zu stützen.

Die überraschenden Ergebnisse

Das war das Spannendste an der Studie:

Die „Super-KIs" sind nicht immer die Besten: Es gab neue, besonders „nachdenkliche" KI-Modelle (die sogenannten LRMs), die in Mathe und Programmieren überragend sind. Man dachte, sie wären auch in Cyber-Sicherheit die Könige. Aber: Bei der Analyse von Angriffsreihenfolgen haben sie oft schlechter abgeschnitten als einfachere Modelle!
- Warum? Sie haben zu viel nachgedacht („Overthinking"). Sie haben sich in Details verstrickt und die einfache Logik des Angriffsplans übersehen. Sie haben sich in ihren eigenen Gedankenschleifen verheddert, wie ein Student, der eine einfache Aufgabe zu kompliziert löst und dabei den Fehler macht.
Wissen ist nicht alles: Auch wenn man den KIs extra Cyber-Sicherheits-Wissen „einpaukt" (durch Training), helfen sie nicht immer besser. Manchmal bringt ihnen das extra Wissen sogar mehr Verwirrung als Hilfe.
Die Reihenfolge ist König: Die größte Herausforderung für alle KIs war es, die zeitliche Abfolge zu verstehen. KIs sind gut darin, Wörter zu finden, aber schlecht darin, zu verstehen, dass Schritt 3 unbedingt vor Schritt 4 passieren muss.

Was bedeutet das für die Zukunft?

Die Forscher sagen: „Wir haben einen neuen Maßstab geschaffen."

Für die Sicherheit: Wir können jetzt genau sehen, welche KI wirklich verlässlich ist, wenn es um die Analyse von Hacker-Angriffen geht.
Für die Entwicklung: Wir wissen jetzt, dass wir KIs nicht einfach nur „mehr Wissen" geben müssen. Wir müssen sie so trainieren, dass sie die Logik und den Zeitablauf von Ereignissen besser verstehen, statt nur Fakten auswendig zu lernen.

Zusammenfassend:
Die Studie ist wie ein Führerschein-Test für KIs im Bereich Cyber-Sicherheit. Sie zeigt uns, dass viele unserer „intelligenten" Assistenten zwar gut darin sind, Texte zu lesen, aber noch nicht gelernt haben, die Geschichte eines Verbrechens logisch zu rekonstruieren. Mit diesem neuen Test (AttackSeqBench) können wir sie jetzt besser trainieren, damit sie uns in Zukunft wirklich vor Cyber-Bedrohungen schützen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Cyber Threat Intelligence (CTI)-Berichte dokumentieren Beobachtungen von Cyber-Bedrohungen und fassen die Aktionen und Absichten von Angreifern zusammen. Diese Berichte sind jedoch oft unstrukturiert und sehr umfangreich, was die manuelle Extraktion und Analyse von Angriffsmustern für Sicherheitsfachkräfte zu einer arbeitsintensiven Aufgabe macht.

Obwohl Large Language Models (LLMs) vielversprechende Ergebnisse bei Aufgaben wie der Entitätsextraktion oder dem Aufbau von Wissensgraphen in der Cybersicherheit zeigen, bleibt ihre Fähigkeit, sequenzielle Abhängigkeiten von Angriffen (Attack Sequences) zu verstehen und zu schlussfolgern, weitgehend unerforscht. Reale Cyberangriffe, insbesondere durch Advanced Persistent Threats (APTs), verlaufen selten als einzelne Schritte, sondern als komplexe, mehrstufige Workflows. Die Fähigkeit, diese zeitlichen und logischen Abfolgen (Tactics, Techniques, and Procedures – TTPs) korrekt zu interpretieren, ist jedoch entscheidend für die Vorhersage zukünftiger Angriffe und die effektive Verteidigung.

Bisherige Benchmarks konzentrierten sich stark auf die Extraktion von Entitäten oder die Zuordnung von Angriffen, vernachlässigten aber das tiefergehende Verständnis der sequenziellen Beziehungen zwischen den Verhaltensweisen des Angreifers.

2. Methodik: AttackSeqBench

Die Autoren stellen AttackSeqBench vor, einen neuen Benchmark, der speziell entwickelt wurde, um die reasoning-Fähigkeiten von LLMs im Kontext von Angriffssequenzen systematisch zu evaluieren. Der Ansatz basiert auf drei zentralen Säulen:

Datenerstellung und Automatisierung:
- Der Benchmark nutzt 408 reale CTI-Berichte verschiedener Sicherheitsanbieter.
- Ein automatisierter Pipeline-Prozess extrahiert TTPs, ordnet sie nach dem MITRE ATT&CK-Framework und konstruiert daraus strukturierte Angriffssequenzen ( $S = (T, E, P, O)$ ), die Taktiken, Techniken und Prozeduren abbilden.
- Es werden drei Aufgabentypen generiert (Multiple Choice und Ja/Nein-Fragen):
  1. AttackSeqBench-Tactic: Inferenz der übergeordneten Taktik.
  2. AttackSeqBench-Technique: Inferenz der spezifischen Technik.
  3. AttackSeqBench-Procedure: Bewertung der Wahrscheinlichkeit, ob eine bestimmte Prozedur in der Sequenz stattfindet (inkl. negativer Beispiele, um Fehlinformationen zu testen).
- Die Qualität der generierten Fragen wird durch einen mehrstufigen Prozess (Self-Refinement) und sowohl menschliche als auch automatische Evaluation (mittels G-Eval) sichergestellt.
Bewertungsszenarien:
Um die Fähigkeiten der Modelle unter verschiedenen Bedingungen zu testen, wurden drei Settings definiert:
1. Zero-Shot: Das Modell nutzt nur sein internes Vorwissen.
2. Context Setting: Dem Modell wird ein „maskierter" CTI-Outline gegeben, bei dem die direkte Antwort fehlt, um abduktives Schlussfolgern zu erzwingen.
3. RAG-empowered Setting: Retrieval-Augmented Generation wird verwendet, um relevantes Wissen aus einer ATT&CK-Datenbank abzurufen und in den Kontext zu integrieren.
Modellvielfalt:
Der Benchmark testet 7 LLMs (z. B. LLaMa, Qwen, GPT-4o), 5 Large Reasoning Models (LRMs, z. B. DeepSeek-R1, GPT-o3-mini) und verschiedene Post-Training-Strategien (SFT, Reasoning Distillation, RLIF, RLVR).

3. Wichtige Beiträge

Pionier-Benchmark: AttackSeqBench ist der erste Benchmark, der LLMs systematisch auf ihre Fähigkeit zur Analyse von Angriffssequenzen (Taktik, Technik, Prozedur) in realen CTI-Berichten untersucht.
Erweiterbarkeit: Durch die automatisierte Pipeline kann der Benchmark leicht um neue CTI-Berichte erweitert werden, um mit der sich wandelnden Bedrohungslandschaft Schritt zu halten.
Umfassende Evaluierung: Die Studie deckt nicht nur Standard-LLMs ab, sondern untersucht erstmals auch die Leistung von LRMs (Reasoning Models) und Post-Training-Strategien in diesem spezialisierten Domänenbereich.

4. Ergebnisse und Erkenntnisse

Die experimentellen Ergebnisse liefern mehrere überraschende und wichtige Erkenntnisse:

LRMs unterperformen oft: Im Gegensatz zu Domänen wie Mathematik oder Coding, wo Reasoning Models (LRMs) deutlich besser abschneiden, versagen LRMs in der Analyse von Angriffssequenzen oft oder schneiden sogar schlechter ab als ihre Basis-LLMs.
- Ursache: Die Analyse der Reasoning-Pfade zeigt, dass LRMs dazu neigen, „zu viel zu denken" (Overthinking). Sie konstruieren redundante Schlussfolgerungsschleifen und interpretieren zeitliche Einschränkungen (z. B. „nur vor") falsch, was zu inkorrekten Ergebnissen führt. LLMs hingegen nutzen oft direktere Mustererkennung, die hier effektiver ist.
Skalierungsgesetze: Die Leistung folgt zwar den allgemeinen Skalierungsgesetzen (größere Modelle sind tendenziell besser), aber kein Modell dominiert konsistent alle Aufgaben. Die beste Leistung variiert je nach Aufgabe.
Kontext vs. RAG:
- Das Context-Setting (maskierte Texte) führt bei den meisten Modellen zu den besten Ergebnissen, da es das Modell zwingt, die logische Struktur der Sequenz zu verstehen.
- Das RAG-Setting führt oft zu einer Verschlechterung der Leistung. Fehleranalysen zeigen, dass Modelle entweder Faktenfehler machen (trotz korrekten Abrufs), sich zu stark auf den Abruf verlassen (Over-reliance) oder irrelevante TTPs abrufen. Die Integration von abgerufenem Wissen in die Schlussfolgerungskette gelingt den Modellen noch nicht zuverlässig.
Post-Training: Post-Training-Strategien (wie SFT oder RLVR) verbessern die Leistung im Zero-Shot-Modus, können aber die Leistung von Modellen mit spezialisierten Instruktionen (Prompting) nicht vollständig einholen.

5. Bedeutung und Ausblick

Die Arbeit zeigt fundamentale Grenzen aktueller KI-Modelle im Bereich der Cybersicherheit auf:

Fehlende Domänenlogik: Modelle haben Schwierigkeiten, die spezifische Logik und die zeitliche Abfolge von Cyberangriffen zu verstehen, selbst wenn sie über das notwendige Faktenwissen verfügen.
Herausforderung für RAG: Die naive Integration von Retrieval-Augmented Generation reicht nicht aus, um Halluzinationen in komplexen Sicherheitskontexten zu vermeiden; es sind fortschrittlichere Methoden zur Wissensintegration nötig.
Richtung für zukünftige Forschung: Die Ergebnisse unterstreichen die Notwendigkeit, spezialisierte Post-Training-Strategien zu entwickeln, die nicht nur Faktenwissen vermitteln, sondern auch das Verständnis von sequenziellen Abhängigkeiten und die Vermeidung von „Overthinking" in spezifischen Domänen fördern.

AttackSeqBench bietet somit eine kritische Grundlage für die Weiterentwicklung von KI-Systemen, die in der Lage sein müssen, komplexe Cyberbedrohungen nicht nur zu erkennen, sondern deren dynamische Abläufe logisch zu durchdringen. Der Code und die Datensätze sind öffentlich verfügbar, um die Forschung in diesem Bereich zu beschleunigen.

AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Das große Rätsel: Wie KI Cyber-Verbrechen versteht

Die Metapher: Der Koch und das Rezept

Was haben die Forscher gemacht? (Das Prüfungs-System)

Die überraschenden Ergebnisse

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: AttackSeqBench

3. Wichtige Beiträge

4. Ergebnisse und Erkenntnisse

5. Bedeutung und Ausblick

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks