Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Each language version is independently generated for its own context, not a direct translation.

Imaginez que votre entreprise doit embaucher un nouveau fournisseur (un prestataire de services cloud, par exemple). Avant de signer le contrat, vous devez vous assurer qu'il est aussi sécurisé que vous. Pour cela, vous lui envoyez un questionnaire de sécurité.

Le problème ? Ces questionnaires sont immenses. Ils contiennent des milliers de questions tirées de normes complexes (comme ISO 27001). Choisir les bonnes questions pour un fournisseur spécifique est comme essayer de trouver une aiguille dans une botte de foin, mais la botte de foin change tout le temps et les aiguilles sont toutes différentes.

Voici comment les auteurs de cette paper ont résolu ce casse-tête, expliqué simplement :

1. Le Problème : La recherche par "mots-clés" ne suffit pas

Aujourd'hui, les entreprises utilisent des robots pour chercher des questions similaires. Si vous tapez "mot de passe", le robot vous sortira tout ce qui contient ce mot.

L'analogie : C'est comme chercher un livre dans une bibliothèque uniquement par le titre. Si vous cherchez "Le Roi", le robot vous donnera Le Roi Lear, mais aussi Le Roi Lion et un manuel sur la royauté médiévale. C'est trop vague. Vous avez besoin de savoir si le livre parle de drame, de dessin animé ou d'histoire.

Dans la cybersécurité, chercher juste par mots-clés donne des questions trop générales qui ne correspondent pas exactement à ce que vous voulez vérifier (par exemple, vérifier si une politique existe vs vérifier si elle est appliquée sur un système critique).

2. La Solution : L'étiquetage sémantique (Donner des étiquettes intelligentes)

Les auteurs proposent d'ajouter des étiquettes (labels) à chaque question. Au lieu de juste lire le texte, on classe la question par son "sujet" (ex: "Contrôle d'accès") et son "but" (ex: "Vérification de l'existence").

L'analogie : C'est comme si chaque livre de la bibliothèque avait une étiquette colorée sur la tranche : "Drame", "Animation", "Histoire". Maintenant, pour trouver le bon livre, vous ne cherchez plus le titre, vous cherchez l'étiquette. C'est beaucoup plus précis.

3. Le Défi : Qui écrit ces étiquettes ?

Écrire manuellement ces étiquettes pour des milliers de questions prendrait des années. Utiliser une Intelligence Artificielle (IA) pour le faire pour chaque question individuellement coûte très cher et prend du temps (comme payer un traducteur pour chaque phrase d'un livre entier).

4. La Méthode Magique : Le "SSSL" (L'approche hybride)

C'est ici que la méthode proposée par les chercheurs devient ingénieuse. Ils ont créé un système en trois étapes, qu'on peut comparer à une grande fête de triage :

Étape 1 : Le Regroupement (La Danse des Questions)

Au lieu de regarder chaque question seule, l'ordinateur regroupe les questions qui se ressemblent (comme des invités qui se connaissent et se regroupent par danse).

L'analogie : Imaginez que les questions sont des invités. L'ordinateur dit : "Vous, vous parlez tous de 'pare-feu', allez dans le coin gauche. Vous, vous parlez de 'sauvegarde', allez dans le coin droit."

Étape 2 : L'Expert (L'IA ne travaille que sur les groupes)

Au lieu de demander à l'IA (l'expert) d'analyser chaque invité individuellement, on lui demande de regarder un seul groupe à la fois.

L'analogie : L'expert arrive dans le coin "Pare-feu", regarde tous les invités, et dit : "Ah, vous êtes tous des Gardiens de la Porte". Il donne cette étiquette à tout le groupe d'un coup.
Le gain : Au lieu de payer l'expert 1000 fois, on le paie 10 fois (une fois par groupe). C'est beaucoup moins cher et plus rapide.

Étape 3 : La Propagation (Le Copier-Coller Intelligent)

Une fois que le groupe a son étiquette, les questions restantes (celles qui n'ont pas été vues par l'expert) reçoivent l'étiquette de leur voisin le plus proche.

L'analogie : Si un nouvel invité arrive et qu'il ressemble à quelqu'un du groupe "Gardiens de la Porte", on lui colle automatiquement l'étiquette "Gardien" sans avoir besoin de l'expert.
Le résultat : On a étiqueté tout l'entrepôt de questions en utilisant l'IA très peu de fois, et le reste est fait automatiquement et instantanément.

5. Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode et voici ce qu'ils ont découvert :

Économie d'argent et d'énergie : Ils ont réduit le coût d'utilisation de l'IA de 40 % et le temps de traitement de 33 %. C'est comme passer d'une voiture qui consomme beaucoup à une voiture électrique très efficace.
Meilleure précision : Quand on cherche des questions pour un questionnaire, utiliser ces étiquettes donne de bien meilleurs résultats que de chercher juste par mots-clés. On trouve exactement ce qu'il faut, pas juste "quelque chose qui ressemble".
Le bémol (et la solution) : Parfois, si les questions sont très différentes (comme comparer des normes américaines et européennes), l'étiquette collée automatiquement peut être un peu imprécise. Mais les chercheurs suggèrent que l'on peut affiner cela en regroupant les étiquettes elles-mêmes (créer des "super-catégories") pour que le système soit encore plus robuste.

En résumé

Cette paper propose une méthode intelligente pour organiser le chaos des questionnaires de sécurité. Au lieu de faire travailler une IA sur chaque question (ce qui est lent et cher), on regroupe les questions similaires, on demande à l'IA de les étiqueter par groupe, et on laisse le système copier-coller ces étiquettes pour le reste.

C'est comme passer d'un travail de manutentionnaire qui porte chaque brique individuellement, à un système où l'on charge des palettes entières et où l'on utilise un chariot élévateur pour le reste. Résultat : plus rapide, moins cher, et tout aussi précis.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires » (Exploration de stratégies d'étiquetage sémantique pour les questionnaires d'évaluation des risques de cybersécurité tiers).

1. Problématique

L'évaluation des risques tiers (TPRA - Third-Party Risk Assessment) est une pratique essentielle pour la conformité réglementaire (ISO 27001, NIST) et la gestion des risques. Cependant, le processus souffre d'un goulot d'étranglement opérationnel majeur : la sélection manuelle et répétitive de questions pertinentes à partir de vastes référentiels non structurés.

Les approches actuelles de récupération automatique reposent principalement sur la similarité textuelle (cosinus sur des embeddings denses). Ces méthodes présentent deux limites critiques :

Manque de contexte explicite : Elles ne capturent pas la portée de l'évaluation (ex: vérification d'existence vs application sur systèmes critiques) ni le domaine de contrôle spécifique (ex: contrôle d'accès, réponse aux incidents).
Résultats génériques : Elles tendent à retourner des questions topiquement proches mais mal alignées avec l'intention d'évaluation spécifique.

De plus, l'utilisation directe de grands modèles de langage (LLM) pour étiqueter chaque question individuellement est coûteuse (tokens, temps de calcul) et sensible aux variations de prompts.

2. Méthodologie : Le cadre SSSL

Les auteurs proposent un cadre hybride d'Étiquetage Sémantique Semi-Supervisé (SSSL) qui combine regroupement non supervisé et inférence assistée par LLM. Le pipeline se décompose en quatre phases :

A. Construction du Référentiel et Regroupement (Clustering)

Embeddings : Chaque question est convertie en vecteur dense à l'aide d'un modèle d'embedding pré-entraîné (text-embedding-3-large).
Clustering Possibiliste (PCM) : Contrairement au clustering dur, les auteurs utilisent le Possibilistic C-Means pour permettre un chevauchement des groupes. Une question peut appartenir à plusieurs clusters avec différents degrés d'appartenance.
Seuillage automatique : Un algorithme de détection du "coude" (elbow) sur les scores d'appartenance détermine automatiquement le seuil pour former des clusters discrets mais potentiellement chevauchants, évitant le réglage manuel.

B. Phase d'Annotation (LLM au niveau du Cluster)

Au lieu d'interroger le LLM pour chaque question, celui-ci est sollicité une fois par cluster.
Le LLM reçoit l'ensemble des questions d'un cluster et génère un ensemble de labels sémantiques réutilisables (ex: "Contrôle d'accès", "Gestion des incidents").
Chaque question hérite de l'union des labels de tous les clusters auxquels elle appartient.
Avantage : Réduction massive des coûts d'inférence et amélioration de la cohérence des labels grâce au contexte partagé au sein du cluster.

C. Phase de Prédiction (Propagation k-NN)

Pour étiqueter de nouvelles questions sans LLM, le système utilise un classifieur k-Plus Proches Voisins (kNN) dans l'espace des embeddings.
Les labels des $k$ questions les plus similaires sont agrégés par vote majoritaire.
Gestion des cas limites : Si aucun label n'obtient suffisamment de votes (seuil de robustesse), la question est marquée comme "hors distribution" (OOD) et renvoyée au LLM pour étiquetage manuel.

D. Phase de Récupération (Recherche par Labels)

Au lieu de chercher des questions similaires au texte de la requête, le système effectue une recherche dans l'espace des labels.
Les labels sont également vectorisés. La pertinence d'une question est calculée en comparant l'embedding de la requête utilisateur avec les embeddings des labels associés à chaque question.

3. Contributions Clés

Cadre SSSL Hybride : Une méthode innovante qui découple la découverte de labels (coûteuse, faite par LLM sur des clusters) de leur attribution (peu coûteuse, faite par k-NN).
Réduction des Coûts : Démonstration qu'il est possible de réduire drastiquement l'utilisation des LLM tout en maintenant une qualité d'étiquetage acceptable.
Amélioration de la Récupération : Preuve que l'indexation par labels sémantiques (domaine de contrôle + portée) surpasse la simple similarité textuelle pour l'alignement avec les objectifs d'évaluation.
Code et Données Ouverts : Publication du code source, des jeux de données (incluant le CAIQ et des données synthétiques) et des scripts d'évaluation.

4. Résultats Expérimentaux

Les expériences ont été menées sur des questionnaires de conformité (CAIQ, ISO 27001) avec un LLM (GPT-4/5.1) comme juge et annotateur.

Efficacité et Coût :
- Le SSSL réduit la consommation de tokens de 39,6 % (de 57k à 34k) et le temps d'exécution de 33,5 % (de 322s à 214s) lors de la phase d'annotation par rapport à un étiquetage LLM pur.
- La phase de prédiction k-NN est extrêmement rapide (0,22 s) et consomme 0 token, offrant un gain de vitesse d'environ 1460x par rapport à l'inférence LLM directe.
- Réduction de la consommation énergétique d'un facteur ~1500.
Qualité des Labels :
- Le LLM seul obtient la meilleure justesse (4,8/5), mais le SSSL (phase LLM) maintient une excellente cohérence (4,8/5) et une généralisation comparable (4,3/5).
- La phase k-NN voit une baisse de justesse (1,8/5) et de généralisation (3,4/5), ce qui est attribué au transfert de labels entre standards différents (décalage sémantique), mais reste utile pour une affectation rapide.
Performance de Récupération :
- La recherche basée sur les labels (avec similarité sémantique) obtient le meilleur score global (75/100), surpassant la similarité sémantique pure (70) et BM25 (58).
- Cette approche est particulièrement efficace pour les requêtes complexes combinant plusieurs domaines (ex: Sauvegarde + Réponse aux incidents).

5. Signification et Perspectives

Cet article démontre qu'il est possible de passer à l'échelle l'automatisation des questionnaires de TPRA en combinant intelligemment le clustering non supervisé et les LLM.

Impact Opérationnel : La méthode permet de réduire les coûts de calcul et de temps tout en rendant les référentiels de questions plus structurés et interprétables.
Limites : La propagation par k-NN souffre d'une baisse de précision lorsque les questions proviennent de standards très différents (mismatch de taxonomie).
Travaux Futurs : Les auteurs envisagent d'explorer un regroupement au niveau des labels (plutôt que des questions) pour améliorer la diversité et la robustesse du transfert, ainsi que l'utilisation de ces labels pour générer automatiquement des réponses aux questionnaires.

En résumé, le SSSL offre une voie pragmatique pour transformer des référentiels de conformité bruts en bases de connaissances sémantiques exploitables, équilibrant précision, coût et évolutivité.