AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Each language version is independently generated for its own context, not a direct translation.

AttackSeqBench: Een Simpele Uitleg over Hoe Slimme Computers Cyberaanvallen Begrijpen

Stel je voor dat je een detective bent die duizenden lange, rommelige politierapporten moet lezen. Deze rapporten beschrijven hoe hackers (de "boeven") een computerinbraak hebben gepleegd. Maar hier is het probleem: de rapporten zijn niet netjes geschreven. Ze zijn vol met jargon, springen van het ene onderwerp naar het andere, en vertellen het verhaal niet in de juiste volgorde. Voor een mens is het al heel moeilijk om hieruit te halen: "Eerst deden ze dit, toen dat, en daarna dat."

Nu hebben we slimme computers (zogenaamde LLMs of "Grote Taalmodellen") die heel goed kunnen lezen en samenvatten. Maar kunnen ze ook denken als een detective? Kunnen ze de hele reeks van een aanval begrijpen, in plaats van alleen losse feiten?

Dit is precies wat de onderzoekers van deze paper hebben onderzocht. Ze hebben een nieuwe test gemaakt, genaamd AttackSeqBench. Laten we kijken hoe dit werkt, met een paar leuke vergelijkingen.

1. Het Probleem: De "Lego-Doos" van de Hackers

Hackers werken zelden in één stap. Een echte aanval is meer als het bouwen van een complex Lego-kasteel.

Eerst moeten ze de grond vinden (Reconnaissance).
Dan moeten ze de poort openen (Initial Access).
Vervolgens bouwen ze een ladder om binnen te komen (Execution).
Daarna verstoppen ze zich (Persistence).
En uiteindelijk stelen ze de schatten (Exfiltration).

De rapporten van de beveiligingsexperts beschrijven dit proces, maar vaak in een rommelige tekst. De onderzoekers wilden weten: Begrijpen deze slimme computers het verhaal van begin tot eind, of zien ze alleen losse Lego-blokjes?

2. De Oplossing: AttackSeqBench (De "Hackers-Detective Test")

De onderzoekers hebben een speciale test ontwikkeld, AttackSeqBench. Denk hierbij aan een examen voor een detective, maar dan speciaal voor cybercrime.

In plaats van alleen vragen te stellen als "Wat is de naam van de hacker?", stellen ze vragen over de volgorde:

"De hacker heeft eerst een e-mail gestuurd. Welke stap deed hij waarschijnlijk daarna?"
"Stel je voor dat de hacker eerst de database heeft gestolen en dan pas de poort openbrak. Is dat logisch?" (Het antwoord is hier: Nee, dat is onlogisch).

Ze hebben deze test gebouwd op basis van 408 echte rapporten van echte hackers. Ze hebben een slimme robot gebruikt om deze rapporten om te zetten in een gestructureerde "stap-voor-stap" handleiding, zodat de test eerlijk en consistent is.

3. De Deelnemers: De "Slimme" vs. De "Nadenkende" Computers

Voor de test hebben ze verschillende soorten computers ingezet:

De Snelle Lezers (LLMs): Dit zijn de standaard slimme modellen (zoals de modellen die je nu gebruikt voor chat). Ze zijn snel en hebben veel kennis, maar denken soms niet diep na over de volgorde.
De Diepdenkers (LRMs): Dit zijn nieuwere modellen die zijn getraind om eerst lang na te denken voordat ze antwoorden (net als iemand die een wiskundig probleem oplost door eerst alle stappen op te schrijven).
De Gespecialiseerde Detectives: Computers die extra zijn getraind met specifieke cybersecurity-kennis.

4. De Resultaten: Wat bleek er?

De resultaten waren verrassend en leerzaam:

De "Nadenkers" zijn niet altijd de beste detectives: Je zou denken dat de modellen die eerst lang nadenken (LRMs) beter zouden zijn in het begrijpen van complexe volgorde. Maar in deze test presteerden ze vaak slechter dan de snelle lezers!
- Waarom? De "Nadenkers" begonnen soms te twijfelen aan de juiste volgorde of maakten te veel onnodige aannames. Ze "overdenkten" het probleem en raakten de eenvoudige logica kwijt. Het is alsof een detective die te lang nadenkt over een moord, vergeet dat het slachtoffer gewoon een sleutel in de deur had gestoken.
Kennis is niet genoeg: Zelfs de modellen die extra waren getraind met cybersecurity-boeken (de "Gespecialiseerde Detectives") deden het niet altijd goed. Ze wisten de feiten, maar het verbinden van die feiten in een logische tijdlijn bleek moeilijk.
Context is koning: Als je de computers de volledige tekst van het rapport gaf (in plaats van ze alleen de vraag te stellen), deden ze het veel beter. Maar als je ze alleen een paar losse stukjes informatie gaf (zoals bij een zoekmachine), raakten ze de draad kwijt.

5. Waarom is dit belangrijk?

Cyberaanvallen worden steeds slimmer. Hackers werken in teams en in stappen. Als we onze beveiligingssoftware (die vaak op deze slimme computers draait) niet kunnen vertrouwen om de hele aanval te begrijpen, dan missen we de grote lijn.

Deze paper zegt eigenlijk: "We moeten stoppen met alleen te kijken of de computer de feiten kent, en gaan kijken of hij het verhaal van de aanval echt begrijpt."

Samenvatting in één zin

De onderzoekers hebben een nieuwe test bedacht om te zien of slimme computers cyberaanvallen als een logisch verhaal kunnen lezen, en ze ontdekten dat de "diepdenkende" computers soms juist te veel nadenken en de simpele volgorde van de aanval missen.

Dit helpt beveiligingsexperts om betere tools te bouwen die niet alleen feiten kennen, maar ook begrijpen hoe hackers te werk gaan.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Cyber Threat Intelligence (CTI) rapporten bevatten waardevolle observaties over cyberdreigingen die essentieel zijn voor proactieve verdediging. Echter, deze rapporten zijn vaak ongestructureerd, langdradig en bevatten complexe sequenties van aanvalsgedrag. Voor beveiligingspraktici is het handmatig analyseren en extraheren van deze aanvalspatronen (Attack Sequences) een tijdrovende taak.

Hoewel Large Language Models (LLMs) veelbelovend blijken voor taken zoals entiteitsextractie en het bouwen van kennisgrafieken in de cybersecurity, is hun vermogen om sequentiële afhankelijkheden en de logische volgorde van vijandelijk gedrag in CTI-rapporten te begrijpen en te redeneren, nog onvoldoende onderzocht. Bestaande benchmarks focussen voornamelijk op het extraheren van individuele dreigingsentiteiten of het attribueren van aanvallen, maar missen de nuance van het begrijpen van de volgorde en afhankelijkheid tussen tactieken, technieken en procedures (TTPs) binnen een multi-stadia aanval (zoals die van Advanced Persistent Threats - APTs).

Methodologie: AttackSeqBench

De auteurs introduceren AttackSeqBench, een nieuw benchmarkframework ontworpen om het redeneervermogen van LLMs systematisch te evalueren op het gebied van aanvalsequenties. De aanpak omvat drie kernprincipes:

Dataverzameling en Constructie:
- Er zijn 408 real-world CTI-rapporten van diverse beveiligingsleveranciers gebruikt.
- Een geautomatiseerde pipeline (gebaseerd op LLMs en Knowledge Graphs) heeft deze rapporten verwerkt om gestructureerde aanvalsequenties te extraheren volgens het MITRE ATT&CK-framework.
- De sequenties worden gemodelleerd als een 4-tupel: Tactiek-sequentie ( $T$ ), Techniek-mapping ( $E$ ), Procedure-mapping ( $P$ ) en een CTI-ontwerp ( $O$ ).
- Er is een automatische Q&A-generatiepijplijn ontwikkeld die nieuwe rapporten kan converteren naar het benchmarkformaat, wat zorgt voor extensibiliteit.
Benchmarks en Taken:
De dataset bestaat uit drie hoofdtaken, elk gericht op een ander niveau van het MITRE ATT&CK-hierarchie:
- AttackSeqBench-Tactic: Voorspellen van de juiste tactiek in een sequentie (Multiple Choice).
- AttackSeqBench-Technique: Identificeren van de specifieke techniek binnen een tactiek (Multiple Choice).
- AttackSeqBench-Procedure: Beoordelen van de waarschijnlijkheid van specifieke procedures (Ja/Nee-vragen), inclusief het herkennen van onwaarschijnlijke of tegenstrijdige stappen in een aanval.
Evaluatie Settings:
De modellen worden getest onder drie verschillende contextuele omstandigheden:
- Zero-Shot: Het model gebruikt alleen zijn interne kennis.
- Context Setting: Het model krijgt een gemaskerde CTI-ontwerp (waarbij het antwoordgedeelte is verwijderd) om abductief redeneren te testen.
- RAG-empowered Setting: Retrieval-Augmented Generation wordt gebruikt om relevante TTPs uit een kennisbank op te halen en aan het model te geven.
Validatie:
Een hybride evaluatiestrategie werd toegepast met menselijke experts (cybersecurity-specialisten) en automatische evaluatie (LLM-as-a-Judge) om de kwaliteit, logica en consistentie van de gegenereerde vragen te garanderen.

Belangrijkste Resultaten

De auteurs hebben 7 LLMs, 5 Large Reasoning Models (LRMs, zoals DeepSeek-R1 en GPT-o3-mini) en diverse post-training strategieën (SFT, RD, RLIF, RLVR) getest. De bevindingen zijn opmerkelijk:

LRMs presteren niet beter dan LLMs: In tegenstelling tot hun superioriteit in wiskunde en codering, presteren LRMs (modellen met ingebouwde "redeneer"-stappen) niet significant beter dan standaard LLMs op AttackSeqBench. In veel gevallen presteren ze zelfs slechter.
- Oorzaak: LRMs lijken vatbaar voor "overthinking". Ze bouwen redundante redeneerkringen op en interpreteren tijdsgebonden beperkingen (zoals "alleen voor") verkeerd, wat leidt tot foutieve conclusies. Standaard LLMs vertrouwen vaak op directere sequentiële matching, wat in dit domein effectiever blijkt.
Context is cruciaal: De Context Setting (waarbij contextuele informatie wordt gegeven maar het specifieke antwoordgedeelte ontbreekt) leverde over het algemeen de beste prestaties op, vooral bij grotere modellen. Dit benadrukt het belang van contextuele aanwijzingen voor het identificeren van onwaarschijnlijke acties.
RAG heeft beperkingen: De RAG-instelling presteerde vaak slechter dan Zero-Shot of Context settings.
- Foutanalyse: 59% van de fouten in RAG kwam door "Factuele Fouten", waarbij het model de opgehaalde informatie niet correct integreerde in de redeneerketen, of de opgehaalde informatie als absolute autoriteit beschouwde zonder de vraagcontext te valideren.
Post-training: Strategieën zoals Supervised Fine-Tuning (SFT) verbeterden de prestaties ten opzichte van de basismodellen, maar bleven achter bij instructie-geoptimaliseerde modellen met aangepaste prompts. Dit suggereert dat gespecialiseerde post-training voor cybersecurity noodzakelijk is.
Schalingswetten: Hoewel grotere modellen over het algemeen beter presteerden, volgden ze niet altijd de verwachte schalingswetten in dit specifieke domein, en de prestaties varieerden sterk per taak (Tactiek vs. Techniek vs. Procedure).

Bijdragen

AttackSeqBench: Een pionierende benchmark die systematisch de capaciteit van LLMs, LRMs en post-training strategieën evalueert voor het begrijpen van aanvalsequenties, met een focus op extensibiliteit, redeneerschaalbaarheid en domeinspecifieke kennisuitbreiding.
Empirische Inzichten: Het paper levert kwantitatief bewijs dat LRMs niet automatisch beter zijn voor complexe cybersecurity-taken en identificeert de fundamentele beperkingen van huidige modellen in het redeneren over sequentiële TTPs.
Analyse van Foutpatronen: Een diepgaande analyse van waarom RAG en LRMs falen in dit domein (o.a. door hallucinaties, over-reliance op retrieval en foutieve interpretatie van tijdsafhankelijkheden).
Open Source: De dataset, de code voor de constructiepijplijn en de evaluatie-scripts zijn openbaar beschikbaar gesteld.

Betekenis en Toekomst

De studie benadrukt dat het automatiseren van CTI-rapportanalyse (CRU) meer vereist dan alleen het extraheren van entiteiten; het vereist een holistisch redeneervermogen over de structuur en dynamiek van aanvalspatronen. De bevindingen dat "overthinking" (zoals bij LRMs) contraproductief kan zijn in dit domein, biedt een nieuwe richting voor onderzoek: het ontwikkelen van modellen die specifiek getraind zijn op de logische volgorde van cyberaanvallen in plaats van generieke redeneermodellen.

Toekomstig werk richt zich op het uitbreiden van de evaluatiemethoden naar complexere redeneertaken, het verfijnen van RAG-strategieën voor betere integratie van domeinkennis, en het dynamisch updaten van de dataset om mee te groeien met de evoluerende dreigingslandschap.

AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

1. Het Probleem: De "Lego-Doos" van de Hackers

2. De Oplossing: AttackSeqBench (De "Hackers-Detective Test")

3. De Deelnemers: De "Slimme" vs. De "Nadenkende" Computers

4. De Resultaten: Wat bleek er?

5. Waarom is dit belangrijk?

Samenvatting in één zin

Probleemstelling

Methodologie: AttackSeqBench

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomst

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks