Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

Each language version is independently generated for its own context, not a direct translation.

Titel: Bevor Sie das Lenkrad übergeben: Ein Test für KI im Sicherheitsbereich

Stellen Sie sich vor, ein Sicherheitszentrum (ein sogenanntes SOC) ist wie eine riesige, chaotische Kontrollstation in einem modernen Flughafen. Tausende von Alarmen leuchten auf den Bildschirmen auf. Manche bedeuten, dass jemand versucht, die Tür aufzubrechen (echte Bedrohungen), aber die meisten sind nur falsche Alarme – vielleicht hat jemand versehentlich die falsche Taste gedrückt oder ein Vogel hat gegen das Fenster geklopft.

Die menschlichen Sicherheitsanalysten, die hier arbeiten, sind wie erfahrene Detektive. Doch sie sind überlastet. Sie müssen riesige Datenberge durchsuchen, komplexe Werkzeuge bedienen und in Sekundenschnelle entscheiden, was echt ist und was nicht. Oft sind sie so müde von den falschen Alarmen, dass sie echte Gefahren übersehen.

Deshalb denken viele Firmen: „Warum setzen wir nicht Künstliche Intelligenz (KI) ein? Vielleicht kann ein super-smarter KI-Assistent uns helfen?"

Aber hier kommt das Problem: Man kann einem Piloten nicht einfach das Steuer übergeben, ohne vorher zu wissen, ob er fliegen kann. Wenn die KI falsch liegt, könnte sie die Sicherheit verschlechtern statt verbessern. Bisher gab es aber keinen „Flugsimulator" oder einen standardisierten Test, um zu prüfen, wie gut diese KIs wirklich sind.

Was haben die Forscher gemacht?

Die Autoren dieses Papers haben genau diesen Simulator gebaut. Sie nennen ihr Projekt SIABENCH. Man kann es sich wie einen riesigen, digitalen „Fahrschul-Parcours" für KI vorstellen, der speziell für Sicherheitsfälle entwickelt wurde.

Hier ist, was sie getan haben, einfach erklärt:

1. Der Prüfungsplan (Der Datensatz)
Statt nur ein paar einfache Fragen zu stellen, haben sie zwei Arten von Prüfungen erstellt:

Der „Detektiv-Test" (25 Szenarien): Hier müssen die KIs komplexe Fälle lösen. Stellen Sie sich vor, ein Hacker hat das Netzwerk infiltriert. Die KI muss wie ein Sherlock Holmes Beweise sammeln: Woher kam der Hacker? Welche Dateien wurden gestohlen? Wie hat er sich versteckt? Das erfordert viele Schritte und das Benutzen von speziellen Werkzeugen (wie digitale Lupe für Computer-Speicher oder Netzwerk-Daten).
Der „Wächter-Test" (135 Szenarien): Hier geht es darum, Alarme zu sortieren. Die KI bekommt eine Liste von Alarmen und muss sagen: „Das ist ein echter Einbrecher" oder „Das ist nur ein Vogel gegen das Fenster".

2. Der KI-Agent (Der Schüler)
Die Forscher haben eine KI-Agenten-Software gebaut. Diese KI ist nicht nur ein Chatbot, der redet. Sie ist wie ein digitaler Praktikant, der tatsächlich arbeiten kann.

Sie kann Befehle in einem Computer eingeben.
Sie kann Dateien öffnen und analysieren.
Sie kann Fehler machen, daraus lernen und einen neuen Plan schmieden.
Sie muss sich selbstständig durch den Fall arbeiten, genau wie ein menschlicher Analyst.

3. Die große Prüfung (Das Benchmarking)
Sie haben 11 verschiedene KI-Modelle (die bekanntesten und mächtigsten der Welt, wie GPT-5, Claude, Llama etc.) durch diesen Parcours geschickt. Sie wollten sehen: Wer besteht die Prüfung? Wer scheitert? Und wo liegen die Schwachstellen?

Was haben sie herausgefunden?

Die Ergebnisse sind eine Mischung aus „Gut gemacht" und „Noch viel zu tun":

Die Spitze ist stark: Die neuesten und stärksten KIs (wie Claude 4.5 und GPT-5) sind bereits sehr gut darin, einfache bis mittlere Fälle zu lösen. Sie können oft erkennen, ob ein Alarm echt ist oder falsch.
Der „Junior-Analyst"-Effekt: Die KIs wurden getestet, als ob sie „Junior-Analysten" wären. In einfachen Fällen schneiden sie gut ab. Aber sobald die Fälle sehr komplex werden (z. B. wenn der Hacker seine Spuren verwischt hat oder verschlüsselte Daten nutzt), stolpern viele KIs.
Die häufigen Fehler:
- Halluzinationen: Die KI erfindet Beweise, die gar nicht existieren (wie ein Detektiv, der sich einen Täter ausdenkt, weil er keine Beweise findet).
- Infinite Loops: Die KI steckt in einer Schleife fest und wiederholt immer wieder den gleichen falschen Befehl, ohne weiterzukommen.
- Oberflächlichkeit: Sie schaut nur auf offensichtliche Wörter und ignoriert die tiefere Bedeutung.
Der Unterschied zwischen „Reden" und „Tun": Die Studie zeigte, dass KIs, die erst nachdenken (Planung) und dann handeln (Befehle ausführen), viel besser sind als solche, die einfach nur drauflos tippen.

Warum ist das wichtig?

Dieses Papier ist wie ein Verbrauchertest für KI-Sicherheitswerkzeuge.

Für Sicherheitsfirmen: Es zeigt, welche KIs man kaufen sollte und welche noch nicht bereit sind, das Lenkrad zu übernehmen. Es warnt davor, blindlings auf KI zu vertrauen.
Für die Zukunft: Es hilft dabei, die KIs besser zu trainieren. Wenn wir wissen, wo sie scheitern (z. B. bei verschlüsselten Dateien), können wir sie genau dort verbessern.

Fazit:
KI ist ein mächtiger Assistent, der den Sicherheitsleuten helfen kann, den Überblick zu behalten. Aber wie bei einem Fahrschüler darf man ihm das Steuer noch nicht allein überlassen. Er braucht noch viel Übung, und wir brauchen klare Tests wie SIABENCH, um sicherzustellen, dass er nicht in den Graben fährt, bevor er auf die Autobahn darf.

Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

Was haben die Forscher gemacht?

Was haben sie herausgefunden?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: SIABENCH Framework

A. Der Datensatz (SIABENCH Dataset)

B. Der SIA-Agent

C. Evaluierung

3. Wichtige Ergebnisse

Leistung auf SIA-Aufgaben (RQ1 & RQ2)

Fehleranalyse (RQ3)

Konsistenz und Ablationsstudie (RQ4 & RQ6)

Alert Triaging (RQ7)

4. Schlüsselbeiträge

5. Bedeutung und Ausblick

Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis

Was haben die Forscher gemacht?

Was haben sie herausgefunden?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: SIABENCH Framework

A. Der Datensatz (SIABENCH Dataset)

B. Der SIA-Agent

C. Evaluierung

3. Wichtige Ergebnisse

Leistung auf SIA-Aufgaben (RQ1 & RQ2)

Fehleranalyse (RQ3)

Konsistenz und Ablationsstudie (RQ4 & RQ6)

Alert Triaging (RQ7)

4. Schlüsselbeiträge

5. Bedeutung und Ausblick

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities