Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Cet article propose et évalue une approche semi-supervisée combinant le clustering et les grands modèles de langage pour générer des étiquettes sémantiques afin d'améliorer l'efficacité et réduire les coûts de l'évaluation des risques cybernétiques liés aux tiers.

Ali Nour Eldin, Mohamed Sellami, Walid Gaaloul, Julien Steunou

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que votre entreprise doit embaucher un nouveau fournisseur (un prestataire de services cloud, par exemple). Avant de signer le contrat, vous devez vous assurer qu'il est aussi sécurisé que vous. Pour cela, vous lui envoyez un questionnaire de sécurité.

Le problème ? Ces questionnaires sont immenses. Ils contiennent des milliers de questions tirées de normes complexes (comme ISO 27001). Choisir les bonnes questions pour un fournisseur spécifique est comme essayer de trouver une aiguille dans une botte de foin, mais la botte de foin change tout le temps et les aiguilles sont toutes différentes.

Voici comment les auteurs de cette paper ont résolu ce casse-tête, expliqué simplement :

1. Le Problème : La recherche par "mots-clés" ne suffit pas

Aujourd'hui, les entreprises utilisent des robots pour chercher des questions similaires. Si vous tapez "mot de passe", le robot vous sortira tout ce qui contient ce mot.

  • L'analogie : C'est comme chercher un livre dans une bibliothèque uniquement par le titre. Si vous cherchez "Le Roi", le robot vous donnera Le Roi Lear, mais aussi Le Roi Lion et un manuel sur la royauté médiévale. C'est trop vague. Vous avez besoin de savoir si le livre parle de drame, de dessin animé ou d'histoire.

Dans la cybersécurité, chercher juste par mots-clés donne des questions trop générales qui ne correspondent pas exactement à ce que vous voulez vérifier (par exemple, vérifier si une politique existe vs vérifier si elle est appliquée sur un système critique).

2. La Solution : L'étiquetage sémantique (Donner des étiquettes intelligentes)

Les auteurs proposent d'ajouter des étiquettes (labels) à chaque question. Au lieu de juste lire le texte, on classe la question par son "sujet" (ex: "Contrôle d'accès") et son "but" (ex: "Vérification de l'existence").

  • L'analogie : C'est comme si chaque livre de la bibliothèque avait une étiquette colorée sur la tranche : "Drame", "Animation", "Histoire". Maintenant, pour trouver le bon livre, vous ne cherchez plus le titre, vous cherchez l'étiquette. C'est beaucoup plus précis.

3. Le Défi : Qui écrit ces étiquettes ?

Écrire manuellement ces étiquettes pour des milliers de questions prendrait des années. Utiliser une Intelligence Artificielle (IA) pour le faire pour chaque question individuellement coûte très cher et prend du temps (comme payer un traducteur pour chaque phrase d'un livre entier).

4. La Méthode Magique : Le "SSSL" (L'approche hybride)

C'est ici que la méthode proposée par les chercheurs devient ingénieuse. Ils ont créé un système en trois étapes, qu'on peut comparer à une grande fête de triage :

Étape 1 : Le Regroupement (La Danse des Questions)

Au lieu de regarder chaque question seule, l'ordinateur regroupe les questions qui se ressemblent (comme des invités qui se connaissent et se regroupent par danse).

  • L'analogie : Imaginez que les questions sont des invités. L'ordinateur dit : "Vous, vous parlez tous de 'pare-feu', allez dans le coin gauche. Vous, vous parlez de 'sauvegarde', allez dans le coin droit."

Étape 2 : L'Expert (L'IA ne travaille que sur les groupes)

Au lieu de demander à l'IA (l'expert) d'analyser chaque invité individuellement, on lui demande de regarder un seul groupe à la fois.

  • L'analogie : L'expert arrive dans le coin "Pare-feu", regarde tous les invités, et dit : "Ah, vous êtes tous des Gardiens de la Porte". Il donne cette étiquette à tout le groupe d'un coup.
  • Le gain : Au lieu de payer l'expert 1000 fois, on le paie 10 fois (une fois par groupe). C'est beaucoup moins cher et plus rapide.

Étape 3 : La Propagation (Le Copier-Coller Intelligent)

Une fois que le groupe a son étiquette, les questions restantes (celles qui n'ont pas été vues par l'expert) reçoivent l'étiquette de leur voisin le plus proche.

  • L'analogie : Si un nouvel invité arrive et qu'il ressemble à quelqu'un du groupe "Gardiens de la Porte", on lui colle automatiquement l'étiquette "Gardien" sans avoir besoin de l'expert.
  • Le résultat : On a étiqueté tout l'entrepôt de questions en utilisant l'IA très peu de fois, et le reste est fait automatiquement et instantanément.

5. Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode et voici ce qu'ils ont découvert :

  • Économie d'argent et d'énergie : Ils ont réduit le coût d'utilisation de l'IA de 40 % et le temps de traitement de 33 %. C'est comme passer d'une voiture qui consomme beaucoup à une voiture électrique très efficace.
  • Meilleure précision : Quand on cherche des questions pour un questionnaire, utiliser ces étiquettes donne de bien meilleurs résultats que de chercher juste par mots-clés. On trouve exactement ce qu'il faut, pas juste "quelque chose qui ressemble".
  • Le bémol (et la solution) : Parfois, si les questions sont très différentes (comme comparer des normes américaines et européennes), l'étiquette collée automatiquement peut être un peu imprécise. Mais les chercheurs suggèrent que l'on peut affiner cela en regroupant les étiquettes elles-mêmes (créer des "super-catégories") pour que le système soit encore plus robuste.

En résumé

Cette paper propose une méthode intelligente pour organiser le chaos des questionnaires de sécurité. Au lieu de faire travailler une IA sur chaque question (ce qui est lent et cher), on regroupe les questions similaires, on demande à l'IA de les étiqueter par groupe, et on laisse le système copier-coller ces étiquettes pour le reste.

C'est comme passer d'un travail de manutentionnaire qui porte chaque brique individuellement, à un système où l'on charge des palettes entières et où l'on utilise un chariot élévateur pour le reste. Résultat : plus rapide, moins cher, et tout aussi précis.