AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Défi : Comprendre l'Histoire du Méchant

Imaginez que vous êtes un détective privé. Votre travail consiste à lire des rapports policiers très longs, écrits dans un jargon compliqué, pour comprendre comment un voleur a opéré. Le voleur ne frappe pas une seule fois ; il suit un scénario précis : il repère la maison, crochète la serrure, entre, vole le coffre-fort, puis s'enfuit.

Dans le monde de la cybersécurité, ces rapports s'appellent des rapports de renseignement sur les cybermenaces (CTI). Le problème ? Ils sont souvent désordonnés, très longs et écrits par des humains pour des humains. C'est épuisant à lire !

Récemment, nous avons créé des Intelligences Artificielles (les "LLM") qui sont comme des super-détectives capables de lire des millions de livres en une seconde. Mais il y a un gros doute : Ces IA sont-elles vraiment capables de comprendre la séquence d'un crime ? C'est-à-dire, comprennent-elles que l'étape 1 doit précéder l'étape 2, et que si l'étape 3 arrive avant l'étape 1, c'est impossible ?

C'est là qu'intervient AttackSeqBench.

🎯 Qu'est-ce que AttackSeqBench ?

Pensez à AttackSeqBench comme à un examen de conduite ou un test de QI spécialement conçu pour les IA, mais sur le thème du piratage informatique.

Au lieu de demander à l'IA "Qu'est-ce qu'un virus ?", ce test lui donne un scénario de vol complexe et lui pose des questions pièges du type :

"Le voleur a-t-il pu crocheter la porte (étape 2) avant d'avoir trouvé la clé (étape 1) ?"
"Si le voleur a utilisé un code secret (étape 3), quel outil a-t-il utilisé juste avant ?"

L'objectif est de voir si l'IA comprend la logique du temps et de la cause à effet dans une attaque informatique, et pas seulement si elle reconnaît des mots-clés.

🧪 Comment ont-ils créé ce test ?

Les chercheurs ont construit cet examen en trois étapes magiques :

La Collecte de Preuves : Ils ont pris 408 rapports réels de crimes informatiques (comme des rapports de police).
La Reconstruction du Scénario : Ils ont utilisé une IA pour transformer ces rapports en "scénarios de crime" structurés, étape par étape (comme un storyboard de film).
La Création des Questions : Ils ont demandé à une autre IA de générer des questions à choix multiples basées sur ces scénarios, puis des experts humains ont vérifié que les questions étaient logiques et difficiles.

C'est comme si un professeur créait un examen en utilisant de vraies histoires de crimes, pour s'assurer que l'étudiant (l'IA) ne triche pas en devinant, mais qu'il comprend vraiment l'histoire.

🤖 Les Résultats : Qui a réussi le test ?

Les chercheurs ont mis en lice plusieurs types d'IA :

Les IA classiques (LLM) : Les modèles standards.
Les IA "Réfléchissantes" (LRM) : Des modèles plus récents qui prennent le temps de "réfléchir" avant de répondre (comme un élève qui fait des brouillons).
Les IA entraînées spécifiquement : Des modèles qui ont lu des livres de cybersécurité avant le test.

Les découvertes surprenantes :

La surprise : Les IA "Réfléchissantes" (LRM), qui sont censées être les plus intelligentes, n'ont pas toujours gagné. Parfois, elles ont même fait plus d'erreurs que les IA classiques !
Pourquoi ? En voulant trop réfléchir, elles se sont perdues dans des boucles de logique complexes. Elles ont parfois inventé des scénarios impossibles parce qu'elles ont trop cherché des liens qui n'existaient pas. C'est comme un détective qui, en voulant trop analyser, imagine un complot là où il n'y a qu'un simple vol.
Le contexte est roi : Si on donne à l'IA le rapport complet (le contexte), elle réussit beaucoup mieux. Mais si on lui donne juste un petit bout de papier (RAG), elle se trompe souvent car elle ne voit pas le tableau d'ensemble.

💡 Pourquoi est-ce important ?

Aujourd'hui, les pirates informatiques (les APT) sont très malins. Ils ne font pas juste un "clic" et partent. Ils orchestrent des attaques sur plusieurs jours, avec des étapes précises.

Si nos IA de sécurité ne comprennent pas cette séquence, elles ne peuvent pas prédire ce que le pirate va faire ensuite. C'est comme essayer d'arrêter un train sans savoir dans quelle direction il va.

AttackSeqBench nous apprend que :

Avoir une IA "intelligente" ne suffit pas ; elle doit comprendre la chronologie des événements.
Les IA actuelles ont encore du mal à reconstituer l'histoire complète d'une attaque.
Il faut créer de nouveaux outils pour les aider à mieux "voir" le film entier, et pas juste des images isolées.

🚀 En résumé

Imaginez que vous essayez d'enseigner à un robot comment détecter un cambriolage. Jusqu'ici, on lui apprenait à reconnaître un marteau-piqueur. AttackSeqBench, c'est le test qui lui demande : "Si le marteau-piqueur est utilisé, est-ce que le voleur a déjà forcé la fenêtre avant ou après ?".

Ce test révèle que nos robots sont encore un peu brouillons sur la logique temporelle des crimes. Mais en les testant ainsi, les chercheurs savent exactement où ils doivent les entraîner pour les rendre plus sûrs et plus efficaces pour protéger nos données.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les rapports de Renseignement sur les Menaces Cybernétiques (CTI) sont des ressources cruciales pour la défense proactive, documentant les observations de menaces et synthétisant les actions et intentions des adversaires. Cependant, ces rapports sont souvent non structurés, verbeux et complexes, rendant l'extraction manuelle des séquences d'attaque (les dépendances comportementales entre les actions malveillantes) extrêmement laborieuse pour les praticiens.

Bien que les Grands Modèles de Langage (LLM) aient démontré des promesses dans des tâches de cybersécurité comme l'extraction d'entités ou la construction de graphes de connaissances, leur capacité à comprendre et raisonner sur les séquences d'attaques (c'est-à-dire l'enchaînement logique des tactiques, techniques et procédures ou TTP) reste sous-exploitée. Les benchmarks existants se concentrent principalement sur l'extraction d'entités ou l'attribution, négligeant la dimension temporelle et structurelle des attaques multi-étapes, essentielles pour anticiper les actions futures des menaces persistantes avancées (APT).

2. Méthodologie : AttackSeqBench

Pour combler ce vide, les auteurs introduisent AttackSeqBench, un benchmark conçu pour évaluer systématiquement les capacités de raisonnement des LLMs sur les séquences d'attaques. La méthodologie repose sur trois piliers fondamentaux :

A. Construction du Jeu de Données

Source : Le benchmark est construit à partir de 408 rapports CTI réels provenant de divers fournisseurs de sécurité.
Processus Automatisé : Une pipeline automatisée extrait les TTPs des rapports non structurés pour construire des séquences d'attaques structurées selon le cadre MITRE ATT&CK.
Format de Données : Une séquence d'attaque $S$ $S$ est définie comme un quadruplet $(T, E, P, O)$ $(T, E, P, O)$ comprenant :
- $T$ : La séquence ordonnée des tactiques.
- $E$ : Les techniques/sub-techniques associées.
- $P$ : Les procédures (triplets sujet-action-objet).
- $O$ : Un résumé textuel (outline) des TTPs.
Génération de Questions (Q&A) : Un système génère des paires Question-Réponse basées sur ces séquences, couvrant trois niveaux de granularité :
1. Tactic : Inférer la tactique suivante ou précédente.
2. Technique : Inférer la technique spécifique dans un contexte donné.
3. Procedure : Déterminer la vraisemblance d'une procédure (Oui/Non), y compris des cas négatifs (séquences contrefaites).
Raffinement : Un processus de « Self-Refine » utilise un LLM pour évaluer et améliorer la qualité des questions selon six critères (Clarté, Logique, Cohérence, etc.) avant validation humaine par des experts en cybersécurité.

B. Configurations d'Évaluation

Le benchmark teste les modèles dans trois settings distincts pour évaluer leur extensibilité et leur scalabilité de raisonnement :

Zero-Shot : Le modèle répond uniquement sur la base de ses connaissances internes.
Context Setting : Le modèle reçoit un contexte masqué (l'outline CTI où la tactique cible est retirée) pour forcer un raisonnement abductif.
RAG-empowered (Retrieval-Augmented Generation) : Le modèle utilise un système de récupération d'informations (RAG) basé sur la base de connaissances ATT&CK pour enrichir sa réponse.

C. Modèles et Stratégies Testés

L'étude évalue :

7 LLMs (ex: LLaMa3.1, Qwen2.5, GPT-4o).
5 LRM (Large Reasoning Models) (ex: DeepSeek-R1, GPT-o3-mini, QWQ-32B).
4 Stratégies de Post-entraînement (SFT, Distillation de Raisonnement, RLIF, RLVR) pour injecter des connaissances cybernétiques.

3. Contributions Clés

Premier Benchmark Spécialisé : AttackSeqBench est le premier benchmark conçu spécifiquement pour évaluer la compréhension des séquences d'attaques (dépendances temporelles et logiques) dans les rapports CTI, au-delà de la simple extraction d'entités.
Pipeline Extensible : Une architecture automatisée permettant d'intégrer facilement de nouveaux rapports CTI, assurant la pérennité du benchmark face à l'évolution des menaces.
Analyse Comparative Approfondie : Une évaluation rigoureuse comparant les LLMs classiques, les LRM (modèles de raisonnement avancés) et les modèles post-entraînés, révélant des écarts de performance inattendus.
Analyse des Limites : Identification des causes profondes des échecs des modèles, notamment les hallucinations dans le contexte RAG et les erreurs de raisonnement logique dans les LRM.

4. Résultats Principaux

Les expériences ont mis en lumière plusieurs découvertes surprenantes :

Performance des LRM vs LLM : Contrairement aux domaines des mathématiques ou du code où les LRM surpassent souvent les LLM, les LRM ne surperforment pas systématiquement les LLMs dans l'analyse de séquences d'attaques. Dans de nombreux cas, les LRM performants (comme R1) obtiennent des résultats inférieurs ou similaires aux LLMs de base, tout en consommant beaucoup plus de temps d'inférence.
L'importance du Contexte : L'ajout de contexte (Context Setting) améliore significativement les performances, en particulier pour les modèles plus grands (ex: Qwen2.5-32B), suggérant que la connaissance interne seule est insuffisante pour ce domaine de niche.
Échec du RAG Naïf : L'approche RAG standard a souvent dégradé les performances. L'analyse des erreurs montre que 59 % des erreurs proviennent d'erreurs factuelles où le modèle n'intègre pas correctement les preuves récupérées, les traitant comme du bruit plutôt que comme des informations contextuelles. De plus, 32 % des erreurs sont dues à une sur-reliance sur le contenu récupéré sans validation par rapport à l'intention de la question.
Sensibilité aux Paramètres : Les petits LLMs sont très sensibles à la température (baisse de performance avec l'augmentation), tandis que les LRM bénéficient d'un budget de tokens plus élevé pour améliorer leur précision, mais avec des rendements décroissants au-delà d'un certain seuil.
Analyse des Phases d'Attaque : Les modèles ont plus de mal à inférer les tactiques aux extrémités de la séquence (Reconnaissance, Impact) que dans les phases centrales (Exécution, Persistance), indiquant une difficulté à modéliser le début et la fin des campagnes APT.

5. Signification et Impact

Ce travail est significatif car il :

Redéfinit les attentes concernant l'application des LLMs en cybersécurité, montrant que la simple augmentation de la capacité de raisonnement (via des LRM) ne résout pas les problèmes de compréhension sémantique et temporelle des attaques complexes.
Met en lumière les limites actuelles des modèles face aux tâches nécessitant une connaissance factuelle précise et une intégration de contexte (RAG), soulignant la nécessité de stratégies de récupération et de fusion d'informations plus avancées.
Fournit une base solide pour le développement futur de modèles de fondation spécialisés en cybersécurité, en offrant un outil de référence pour mesurer les progrès dans la compréhension des comportements adverses.

En conclusion, AttackSeqBench démontre que si les LLMs ont un potentiel énorme pour l'analyse de CTI, leur capacité à raisonner sur les séquences d'attaques réelles reste un défi majeur, nécessitant des approches qui vont au-delà du simple fine-tuning ou de l'ajout de modules de raisonnement génériques.