CAM-LDS: Cyber Attack Manifestations for Automatic Interpretation of System Logs and Security Alerts

Dit paper introduceert CAM-LDS, een nieuw open-source dataset met gelabelde logbestanden van diverse cyberaanvallen, om de beperkingen van handmatige analyse en regelgebaseerde systemen te overwinnen en het potentieel van Large Language Models voor semantische loginterpretatie en aanvalsdetectie te demonstreren.

Max Landauer, Wolfgang Hotwagner, Thorina Boenke, Florian Skopik, Markus Wurzenberger

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: De Digitale Politie en de Slimme Vertaler: Een Nieuw Gereedschap voor Cyberveiligheid

Stel je voor dat een computerbedrijf een enorme bibliotheek is. Elke dag komen er miljarden boeken binnen, maar deze boeken zijn niet geschreven in leesbare zinnen. Ze zijn vol met rare symbolen, codes en onbegrijpelijke krabbels. Dit zijn de systeemlogs: de dagboeken van computers die registreren wat er gebeurt.

Normaal gesproken moeten beveiligingsexperts (de "politie" van de digitale wereld) deze miljoenen boeken handmatig doorbladeren om te zien of er een inbreker is geweest. Dat is als proberen een naald te vinden in een hooiberg, terwijl de hooiberg elke seconde groter wordt.

De auteurs van dit paper, een team van onderzoekers uit Oostenrijk, hebben een oplossing bedacht die bestaat uit twee delen: een nieuwe "spoorboekje" en een slimme vertaler.

1. Het Spoorboekje: CAM-LDS

Tot nu toe was het heel moeilijk om te oefenen met het vinden van hackers, omdat er geen goede, openbare voorbeelden waren. Bestaande datasets waren vaak verouderd, te simpel, of alleen voor Windows-computers.

De onderzoekers hebben daarom CAM-LDS gemaakt.

  • De Metafoor: Stel je voor dat ze een volledig opgebouwd, leeg dorpje hebben gebouwd (een virtueel testomgeving). In dit dorpje hebben ze vervolgens 7 verschillende scenarios nagespeeld waarin hackers proberen in te breken.
  • De Actie: Ze hebben niet zomaar geknoeid; ze hebben 81 verschillende "trucs" (technieken) gebruikt die echte hackers ook gebruiken. Denk aan: wachtwoorden kraken, verborgen deuren openen, of bestaande systemen misbruiken.
  • Het Resultaat: Ze hebben elke stap van deze inbraken vastgelegd. Ze hebben niet alleen de logs van de computers zelf, maar ook de waarschuwingen van de alarmen (IDS) en zelfs hoe snel de computers werden belast tijdens de inbraak.
  • Waarom is dit cool? Omdat alles open-source is, kan elke onderzoeker ter wereld dit "dorpje" opnieuw opzetten en precies hetzelfde scenario spelen. Het is als een trainingscentrum voor digitale politieagenten, waar ze kunnen oefenen zonder echte schade aan te richten.

2. De Slimme Vertaler: LLM's

Nu hebben ze die logs, maar hoe lees je ze? Hier komt de Grote Taalmodel (LLM) in beeld. Denk aan een AI zoals ChatGPT, maar dan gespecialiseerd in beveiliging.

  • Het Probleem: Traditionele software kijkt alleen naar vaste patronen (bijvoorbeeld: "Als er 'hack' in de tekst staat, is het gevaarlijk"). Maar hackers zijn slim; ze veranderen hun taal.
  • De Oplossing: De onderzoekers hebben de AI gevraagd om de rare log-boeken te lezen en te vertalen naar menselijke taal. Ze vroegen de AI: "Wat is hier aan de hand? Is dit een hacker of gewoon een normale werknemer?"
  • De Test: Ze gaven de AI stukjes van die logs en keken of de AI de juiste "hack-truc" kon benoemen uit een lijst van 216 mogelijke trucs (de MITRE ATT&CK lijst).

Wat bleek eruit?

De resultaten waren verrassend goed, maar ook niet perfect:

  1. De Top-performers: Bij ongeveer 1 op de 3 inbraakstappen kon de AI de truc perfect benoemen. De AI zag bijvoorbeeld: "Oh, iemand probeerde een wachtwoord te kraken via een webpagina, en dat is verdacht!"
  2. De Gemiddelden: Bij nog eens 1 op de 3 stappen zat het antwoord in de top-10 van de AI. Het was dus niet perfect, maar de AI had wel de juiste richting opgepikt.
  3. De Moeilijke Cases: Bij de laatste derde was het lastig. Soms zijn de logs zo vaag of lijken ze zo veel op normaal gedrag dat zelfs de slimme AI het niet zag.

De les: De AI werkt het beste als de hacker duidelijk zichtbare sporen achterlaat (zoals het uitvoeren van een commando) of als er veel activiteit is (veel logs op een korte tijd). Als de hacker heel subtiel is, is het nog steeds lastig.

Waarom is dit belangrijk voor jou?

Vroeger moesten beveiligingsexperts urenlang zitten te zoeken in die onbegrijpelijke codes. Met dit nieuwe systeem (CAM-LDS) en de slimme AI kunnen ze:

  • Sneller reageren: De AI kan de logs in seconden "vertalen" naar een verhaal: "Er is iemand in het netwerk die wachtwoorden probeert te stelen."
  • Beter trainen: Omdat ze nu een openbaar spoorboekje hebben, kunnen bedrijven hun eigen beveiligingssystemen beter testen.
  • Minder fouten: De AI helpt om te onderscheiden wat echt gevaarlijk is en wat gewoon een normale administratieve taak is.

Kortom: De onderzoekers hebben een nieuw, open trainingsveld gebouwd waar hackers (in de goede zin) worden nagespeeld, en ze hebben getest of een slimme computer deze sporen kan lezen. Het antwoord is: ja, ze kunnen het al behoorlijk goed, en met meer training en betere data wordt het alleen maar slimmer. Dit helpt ons allemaal om onze digitale huizen veiliger te maken.