Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Security Operations Center (SOC) een enorme, drukke brandweerkazerne is. Elke dag krijgen de brandweerlieden (de beveiligingsanalisten) duizenden meldingen: "Er is rook!", "Er is een lekkage!", "Iemand heeft de deur open gelaten!". Het probleem? De helft van die meldingen is nep (een verbrande toast in de keuken), en de andere helft is een echte, levensgevaarlijke brand die complex is en snel moet worden opgelost.

De mensen in de kazerne raken overbelast. Ze zijn moe, maken fouten door vermoeidheid, en hebben niet genoeg tijd om elke melding tot in de puntjes te onderzoeken.

Nu komt er een nieuwe technologie op de markt: LLMs (grote taalmodellen, zoals slimme AI-assistenten). Bedrijven denken: "Wauw, laten we die AI gebruiken om ons te helpen! Die kan lezen, redeneren en misschien zelfs de brandblussers pakken."

Maar hier zit de hak: We weten niet of die AI's wel goed genoeg zijn. Zou je een onervaren AI de brandblussers laten pakken als je niet eerst hebt getest of hij niet per ongeluk je huis in brand steekt?

Dat is precies wat dit papier doet. De auteurs hebben een gigantische testbaan gebouwd om te zien of die AI's wel klaar zijn om het stuur over te nemen.

Hier is de uitleg, stap voor stap, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blindganger"

Vroeger hadden we geen goede manier om te testen of een AI goed was in beveiliging. Het was alsof je een auto koopt zonder ooit te hebben gereden. Je hoopt dat hij remt, maar je weet het niet zeker.

De uitdaging: Beveiliging is niet één ding. Het is een puzzel. Je moet kijken naar netwerken, geheugen van computers, virussen, en e-mails. En je moet dit doen terwijl de situatie elke seconde verandert.
Het gebrek: Er was geen "rijexamen" voor AI's in deze wereld. Geen standaardtest, geen dataset met echte branden en nepmeldingen.

2. De Oplossing: SIABENCH (De "Super-Testbaan")

De auteurs hebben SIABENCH bedacht. Denk hierbij aan een gokken-achtige testbaan (zoals een Circus of een Escape Room), maar dan voor AI's.

Ze hebben drie dingen gebouwd:

A. De "Puzzelboeken" (Het Dataset):
Ze hebben 25 complexe "misdadige" scenario's gemaakt (zoals een ransomware-aanval) en 135 simpele meldingen (waarvan sommige nep waren).
- Vergelijking: Stel je voor dat ze een doolhof hebben gebouwd met 25 verschillende soorten doolhoven. Sommige zijn makkelijk (een kind kan het), andere zijn zo complex dat alleen een detective het kan oplossen. Ze hebben ook "valstrikken" toegevoegd: meldingen die eruitzien als een brand, maar gewoon een verbrande toast zijn.
- Belangrijk: Ze hebben de vragen zo herschreven dat de AI niet kan "leren" uit zijn geheugen (zoals een student die het antwoord uit het boek leert). Ze moesten echt nadenken, net als een mens.
B. De "Robot-Detective" (De Agent):
Ze hebben een AI-agent gebouwd die de test zelf kan doen. Deze agent is niet alleen een slimme prater; hij heeft handen en voeten.
- Vergelijking: Een gewone AI is als iemand die in een auto zit en zegt: "Ik denk dat we links moeten afslaan." Deze agent zit in de auto, draait zelf het stuur, drukt op de rem en kijkt uit het raam. Hij kan echte software gebruiken om bestanden te openen, netwerken te scannen en codes te ontcijferen.
- Hij werkt in stappen: Eerst een plan maken, dan een actie uitvoeren, dan kijken wat er gebeurt, en dan opnieuw plannen.
C. De "Jury" (De Evaluatie):
Ze hebben 11 verschillende AI-modellen (zowel gratis als dure, bekende modellen) op deze testbaan gezet om te kijken wie er het beste scoort.

3. Wat hebben ze ontdekt? (De Resultaten)

Het is een gemengd verhaal, net als bij een nieuw rijbewijs:

De "Top-rijders": De nieuwste, slimste AI's (zoals Claude-4.5 en GPT-5) doen het verrassend goed. Ze kunnen complexe puzzels oplossen en vinden vaak de echte "brand" tussen de nepmeldingen. Ze zijn bijna klaar om de assistent van de mens te worden.
De "Leerlingen": Kleinere of oudere AI's raken vaak in de war. Ze maken fouten, blijven in een cirkel draaien (alsof ze vastlopen in een doolhof) of verzinnen feiten (hallucineren).
De "Valstrikken": De AI's zijn goed in simpele dingen (zoals "Is er een IP-adres?"), maar worstelen met complexe dingen (zoals "Waarom is dit bestand verborgen in een PDF?").
De "Nep-meldingen": De beste AI's zijn heel goed in het onderscheiden van echte bedreigingen en nep-meldingen. Dat is cruciaal, want als een AI elke toast voor een brand aanmerkt, wordt de mens weer overbelast.

4. Waarom is dit belangrijk voor jou?

Stel je voor dat je een autonome auto koopt. Je wilt weten: "Kan deze auto veilig rijden in de regen? Kan hij een kind op de weg zien?"

Dit papier is als een onafhankelijke test van de ANWB. Ze zeggen niet: "Deze auto is perfect." Ze zeggen: "Hier zijn de resultaten. De nieuwe modellen rijden goed, maar ze maken nog fouten in de sneeuw. Gebruik ze met een menselijke bestuurder naast je, tot ze bewezen hebben dat ze 100% veilig zijn."

Conclusie: "Niet zomaar het stuur overhandigen"

De titel van het papier, "Before You Hand Over the Wheel" (Voordat je het stuur overhandigt), is de kernboodschap.

AI is een krachtige hulpmiddel: Het kan helpen bij het zoeken in enorme hoeveelheden data.
Maar pas op: We mogen de AI nog niet volledig de leiding geven. Ze moeten nog getraind worden en we moeten weten waar ze falen.
De toekomst: Met deze testbaan (SIABENCH) kunnen bedrijven nu zien welke AI ze moeten kopen en hoe ze die veilig kunnen inzetten, zonder dat hun beveiliging in gevaar komt.

Kortom: De AI's worden steeds slimmer, maar ze zijn nog niet klaar om alleen te rijden. Ze hebben een co-piloot (de mens) nodig totdat ze alle doolhoven zonder fouten kunnen doorlopen.

Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

1. Het Probleem: De "Blindganger"

2. De Oplossing: SIABENCH (De "Super-Testbaan")

3. Wat hebben ze ontdekt? (De Resultaten)

4. Waarom is dit belangrijk voor jou?

Conclusie: "Niet zomaar het stuur overhandigen"

1. Het Probleem

2. Methodologie: SIABENCH

A. Het SIABENCH Dataset

B. De SIABENCH Agent

C. Evaluatie

3. Belangrijkste Resultaten

Algemene Prestaties

Foutanalyse

Alert Triage

Ablatie-studie

4. Belangrijkste Bijdragen

5. Significantie

Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

1. Het Probleem: De "Blindganger"

2. De Oplossing: SIABENCH (De "Super-Testbaan")

3. Wat hebben ze ontdekt? (De Resultaten)

4. Waarom is dit belangrijk voor jou?

Conclusie: "Niet zomaar het stuur overhandigen"

1. Het Probleem

2. Methodologie: SIABENCH

A. Het SIABENCH Dataset

B. De SIABENCH Agent

C. Evaluatie

3. Belangrijkste Resultaten

Algemene Prestaties

Foutanalyse

Alert Triage

Ablatie-studie

4. Belangrijkste Bijdragen

5. Significantie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities