Learning the APT Kill Chain: Temporal Reasoning over Provenance Data for Attack Stage Estimation

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Jacht op de Onzichtbare Dieven: Wat is StageFinder?

Stel je voor dat een hackersbende (een zogenaamde APT of Advanced Persistent Threat) een groot kantorencomplex binnendringt. Ze zijn niet zoals de gewone inbrekers die snel iets stelen en wegrennen. Nee, deze groep is als een sluwe spion: ze sluipen maandenlang onopgemerkt rond, verkennen de gangen, vinden de sleutels, verplaatsen zich naar de kluis en stelen uiteindelijk de waardevolle documenten.

Het probleem voor de beveiliging is dat ze vaak pas merken dat er iets mis is als het te laat is, of ze zien alleen losse stukjes puzzel (een raam open, een vreemde mail) zonder te weten dat het één groot plan is.

StageFinder is een slimme nieuwe tool die precies dit probleem oplost. Het is als een super-intelligente detective die niet alleen kijkt naar losse gebeurtenissen, maar het hele verhaal reconstrueert om te zeggen: "Aha! We zijn nu in de fase van 'verkenning', over een uur gaan ze proberen de deuren te forceren, en morgen proberen ze de kluis te openen."

🧩 Hoe werkt het? (De Drie Stappen)

De onderzoekers hebben StageFinder gebouwd met drie slimme onderdelen, die we kunnen vergelijken met een detectivebureau:

1. Het Grote Netwerk (De "Provenance Graph")

Stel je voor dat elke computer, elk bestand en elke gebruiker in het bedrijf een spook is. Normale beveiliging kijkt alleen naar één spook op één moment.
StageFinder doet echter iets anders: het tekent een enorme, levende kaart van wie met wie praat.

De slimme truc: Het combineert twee soorten bewijs.
- Binnenin het huis: Wat doet de computer? (Bijv. "PowerShell start een nieuw programma op").
- Buiten het huis: Wat ziet de beveiligingscamera? (Bijv. "Er is een verdachte verbinding met een vreemd IP-adres").
De analogie: Stel je voor dat je een verdachte ziet die een raam openmaakt (binnen) én tegelijkertijd een auto ziet die wegrijdt (buiten). Een gewone camera ziet ze apart. StageFinder koppel ze direct aan elkaar: "Die auto is de vluchtweg van die man bij het raam!" Dit heet vroege fusie.

2. De Architect (De "GNN" - Graph Neural Network)

Nu hebben we die enorme kaart met alle lijntjes en punten. Een mens kan dat niet snel lezen.
De GNN is als een super-snel architect die deze kaart bekijkt en zegt: "Kijk eens naar dit patroon! Dit lijkt op een spion die eerst de muren inspecteert (verkenning) en dan probeert een sleutel te maken (privilege escalatie)."
Het vertaalt die complexe kaart naar een simpele, begrijpelijke code die een computer makkelijk kan verwerken.

3. De Tijdreis (De "LSTM" - Long Short-Term Memory)

Hackers werken in een tijdlijn. Eerst verkennen, dan binnenkomen, dan stelen.
De LSTM is als een detective met een fantastisch geheugen. Hij kijkt niet alleen naar wat er nu gebeurt, maar remembert wat er gisteren en de week daarvoor gebeurde.

De analogie: Als je plotseling een auto ziet die wegrijdt met een koffer, is dat verdacht. Maar als je weet dat die auto gisteren al drie keer langs het pand reed om de beveiliging te testen, dan is het duidelijk: dit is de diefstal-fase.
De LSTM houdt rekening met deze tijdlijn en voorspelt: "We zitten nu in fase 4 (verplaatsing naar andere kamers), en over 10 minuten gaan ze in fase 6 (de data stelen)."

🏆 Waarom is dit zo goed?

De onderzoekers hebben StageFinder getest tegen andere bekende systemen (zoals Cyberian en NetGuardian) met echte data van het Amerikaanse leger (DARPA).

Hoger scoren: StageFinder had een 96% kans om de juiste fase te raden. De anderen lagen rond de 90%. Dat klinkt als een klein verschil, maar in beveiliging betekent dat veel minder foutalarmen en minder gemiste dieven.
Minder paniek: Andere systemen schakelden vaak wild heen en weer: "Nu is het verkenning... wacht, nu is het diefstal... wacht, nu weer verkenning!" Dit noemen ze "volatiliteit". StageFinder is veel rustiger en stabieler. Het zegt niet elke seconde iets anders, maar volgt het verhaal logisch.
De "Tijdreis" werkt: De analyse toonde aan dat StageFinder echt begrijpt wanneer iets belangrijk is, in plaats van alleen te kijken naar losse pieken.

💡 De Kernboodschap

Vroeger keken beveiligingssystemen vaak naar losse puzzelstukjes en probeerden ze raadsels op te lossen zonder de randjes.
StageFinder doet alsof het de hele puzzel in elkaar heeft gezet en vervolgens de tijdslijn van de dieven bestudeert.

Door te kijken naar zowel wat er op de computers gebeurt als wat er in het netwerk gebeurt, en door die twee te combineren in één groot verhaal, kan StageFinder precies zeggen: "We zijn niet alleen aangevallen; we weten precies in welk stadium van de aanval we zitten, en we kunnen nu de juiste maatregelen nemen."

Het is de overgang van "Er is iets raars aan de hand" naar "We weten wie het is, wat ze doen, en wat ze als volgende gaan doen."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Learning the APT Kill Chain: Temporal Reasoning over Provenance Data for Attack Stage Estimation" in het Nederlands.

Titel: Learning the APT Kill Chain: Temporal Reasoning over Provenance Data for Attack Stage Estimation

Auteurs: Trung V. Phan en Thomas Bauschert (Technische Universität Chemnitz)
Publicatie: IEEE ICC 2026

1. Het Probleem

Geavanceerde Persistent Threats (APTs) vormen een van de grootste uitdagingen in de cybersecurity. In tegenstelling tot opportunistische malware, kenmerken APT's zich door sluipende, langdurige campagnes die bestaan uit meerdere fasen (bijv. verkenning, initiële compromittering, privilege-escalatie, laterale beweging, command-and-control, en data-exfiltratie).

De huidige uitdagingen bij het detecteren en classificeren van deze aanvallen zijn:

Gecombineerde complexiteit: APT-fasen zijn vaak subtiel, vermengd met normaal verkeer en verspreid over zowel host-logs als netwerkdata.
Tekortkomingen in bestaande methoden:
- Signature-based IDS/IPS: Falen bij nieuwe of evoluerende TTP's (Tactics, Techniques, and Procedures).
- Anomalie-detectie: Heeft vaak een hoog aantal false positives en mist de context van meervoudige aanvalsstappen.
- Bestaande ML-modellen:
  - Cyberian: Gebruikt LSTMs voor tijdsafhankelijkheid, maar negeert causale relaties tussen entiteiten (processen, bestanden).
  - NetGuardian: Gebruikt specifieke classifiers per fase, wat interpretatie verbetert maar geen uniforme tijdscoherentie biedt en afhankelijk is van handmatige feature-engineering.
Ontbrekende integratie: Bestaande methoden behandelen host- en netwerklogs vaak als onafhankelijke stromen, waardoor causale afhankelijkheden tussen systemen worden gemist.

2. Methodologie: Het StageFinder Framework

Het paper introduceert StageFinder, een tijdelijk-grafisch leerframework (temporal-graph learning) dat host- en netwerk-provenance-data fuseert om de voortgang van een APT-aanval te schatten. Het framework werkt als een sequentiële pijplijn:

A. Vroege Fusie van Data (Early Fusion)

In plaats van data later te combineren, fuseert StageFinder host-logs (bijv. Sysmon) en netwerkwaarschuwingen (bijv. van IDS/Zeek) direct tijdens het bouwen van de provenance-graf.

Methode: Netwerkwaarschuwingen worden gemodelleerd als "first-class nodes" die causaal gekoppeld zijn aan de relevante host-entiteiten (processen, sockets).
Voordeel: Dit creëert een uniforme causale ruimte die zowel intra-host afhankelijkheden als inter-host communicatie vastlegt, waardoor volledige aanvalsketens in plaats van geïsoleerde gebeurtenissen kunnen worden geredeneerd.

B. Provenance Graph Builder

Voor elk tijdsvenster $t$ wordt een gefuseerde provenance-graf $G_t$ geconstrueerd:

Knooppunten ( $V_t$ ): Processen, bestanden, sockets, IP-adressen en alert-gebeurtenissen.
Randen ( $E_t$ ): Causale of temporale afhankelijkheden (bijv. 'spawn', 'read', 'connect', 'triggered by').
Kenmerken: Nodes en edges krijgen feature-vectors toegewezen (bijv. TF-IDF voor commando's, severity-scores voor alerts, tijdstempels).

C. Grafische Encoder (GNN)

Een Graph Neural Network (GNN) encodeert de complexe grafen naar lage-dimensionale embeddings ( $g_t$ ).

Architectuur: Een multi-layer GNN met message passing aggregatie over verschillende relatie-types.
Output: Een compacte vector die zowel structurele patronen als contextuele informatie van de gefuseerde graf vastlegt.

D. Tijdelijke Schatter (LSTM)

De sequentie van graf-embeddings $\{g_1, g_2, ..., g_t\}$ wordt ingevoerd in een Long Short-Term Memory (LSTM) netwerk.

Doel: Het modelleren van tijdsafhankelijkheden om de waarschijnlijkheid van de huidige aanvalsfase te schatten, gebaseerd op de MITRE ATT&CK-framework (6 fasen + 'Normaal').
Output: Een kansverdeling over de aanvalsfasen.

E. Trainingsstrategie

Het model maakt gebruik van een twee-staps trainingsaanpak:

Zelftoezichtende Pre-training: Op het grote, ongelabelde DARPA OpTC dataset (8,7 miljard host-events) om algemene tijdsafhankelijkheden tussen host en netwerk te leren (via next-step prediction en contrastive loss).
Supervisie Fine-tuning: Op het gelabelde DARPA Transparent Computing (TC) dataset om specifieke aanvalsfasen te classificeren.

3. Belangrijkste Bijdragen

Unificatie van Modaliiteiten: StageFinder is het eerste framework dat host- en netwerk-provenance data op graf-niveau fuseert ("early fusion") om causale ketens te reconstrueren.
Temporaal-Structureel Leren: Combinatie van GNN's (voor structurele causale redenering) en LSTM's (voor tijdsdynamiek), wat de beperkingen van puur sequentiële of puur structurele modellen overbrugt.
Interpreteerbaarheid: Het framework levert niet alleen een classificatie, maar ook een tijdsgebonden evolutie van de aanvalsfasen, wat analisten helpt bij het begrijpen van de aanvalsdynamiek.
Robustheid: Door pre-training op grote datasets en vroege fusie, is het model beter bestand tegen de "low-and-slow" aard van APT's.

4. Resultaten

Het framework is getest op de DARPA TC (Engagement 5) dataset en vergeleken met state-of-the-art baselines: Cyberian en NetGuardian.

Prestaties:
- Macro F1-score: StageFinder bereikte 0,96, een verbetering van ~6% ten opzichte van Cyberian (0,90) en ~4% ten opzichte van NetGuardian (0,92).
- Precisie en Recall: Beide lagen op 0,96, wat wijst op minder false positives en false negatives.
- Temporale Stabiliteit: De Temporal Flip Rate (TFR), een maat voor hoe vaak de voorspelling van fase naar fase wisselt (volatiliteit), daalde met 31% (van 0,182/0,160 naar 0,125). Dit betekent dat het model veel stabielere en vloeiendere voorspellingen doet.
Fase-specifieke prestaties: StageFinder presteerde consistent beter in alle fasen, met name bij complexe fasen zoals "Lateral Movement" en "Command & Control", waar causale afhankelijkheden cruciaal zijn.
Attention Analyse: Visualisaties tonen aan dat StageFinder gerichte attention-pieken heeft die overeenkomen met kritieke aanvalsfasen, terwijl baselines diffuus en onregelmatig reageren.

5. Betekenis en Conclusie

De studie toont aan dat het combineren van provenance-gebaseerde grafische modellering met tijdsredenering essentieel is voor accurate en stabiele APT-detectie.

Praktische Toepassing: Een "stage-aware" systeem kan adaptieve verdedigingsmaatregelen nemen (bijv. selectieve monitoring tijdens verkenning, agressieve isolatie tijdens laterale beweging), wat de reactieprecisie verhoogt en false alarms vermindert.
Toekomst: De auteurs plannen uitbreidingen naar gezamenlijke schatting van aanvalsfasen en het leren van adaptieve verdedigingsbeleid.

Samenvattend biedt StageFinder een robuust, interpreteerbaar en nauwkeurig framework om de complexe levenscyclus van APT-aanvallen te doorgronden door de synergie tussen host- en netwerkdata optimaal te benutten.