Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Dit artikel onderzoekt strategieën voor het gebruik van semantische labels, met name een hybride semi-supervised methode die Large Language Models combineert met clustering, om de efficiëntie en nauwkeurigheid van het ophalen van vragen in cybersecurity-risicobeoordelingsvragenlijsten voor derden te verbeteren.

Ali Nour Eldin, Mohamed Sellami, Walid Gaaloul, Julien Steunou

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote, rommelige bibliotheek hebt vol met vragen over cyberveiligheid. Deze vragen komen van over de hele wereld: sommige zijn over wachtwoorden, andere over wat je doet als er een hacker is, en weer andere over hoe je data opslaat. Dit noemen ze TPRA-vragenlijsten (Third-Party Risk Assessment). Bedrijven gebruiken deze lijsten om te checken of hun leveranciers veilig werken.

Het probleem? De bibliotheek is zo groot en ongeordend dat het zoeken naar de juiste vragen voor een specifieke leverancier voelt als het zoeken naar een naald in een hooiberg. Mensen doen dit nu vaak handmatig, of ze gebruiken slimme computers die kijken naar woorden. Als je zoekt op "wachtwoord", vindt de computer vragen met dat woord. Maar soms wil je iets heel specifieks, zoals "hoe bewaken jullie wachtwoorden op kritieke systemen?", en de computer geeft je een generiek antwoord omdat het woord "wachtwoord" wel in de vraag staat, maar de bedoeling niet klopt.

De auteurs van dit paper hebben een slimme oplossing bedacht: SSSL (een hybride manier om vragen te labelen). Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Woord-Soep"

Stel je voor dat je een kok bent die een gerecht moet maken. Je hebt een enorme pot met soep (de vragenlijst). Je wilt alleen de groenten die goed zijn voor een wintermaaltijd.

  • De oude manier (Zoeken op woorden): Je kijkt alleen naar de naam van de groente. Als je "winter" zoekt, krijg je misschien ijsblokjes (want die bevatten het woord 'ijs' of 'koud'), maar geen echte groenten. De computer ziet alleen de oppervlakte, niet de diepte.
  • Het doel: Je wilt de soep sorteren in bakjes met duidelijke labels: "Wintergroenten", "Zomersalade", "Kruiden". Dan kun je snel het juiste bakje pakken.

2. De Oplossing: De "Slimme Sorteerder" (SSSL)

De auteurs hebben een proces bedacht dat werkt als een slimme, efficiënte bibliotheekmedewerker. Ze gebruiken twee stappen:

Stap 1: Groeperen met een "Smaakprofiel" (Clustering)

In plaats van elke vraag één voor één te lezen (wat duur en traag is met de slimme AI-tools die ze gebruiken, de LLM's), kijken ze eerst naar de smaak van de vragen.

  • De Analogie: Stel je hebt 1000 recepten. In plaats van elk recept te laten beoordelen door een dure chef-kok, groepeer je ze eerst op basis van hun ingrediënten. Alle recepten met "tomaten" en "basilicum" komen in dezelfde hoek. Alle recepten met "ijs" en "chocolade" komen in een andere hoek.
  • De techniek: Ze gebruiken wiskunde om vragen die op elkaar lijken bij elkaar te zetten in "clusters" (groepen).

Stap 2: De Chef-Kok doet slechts één keer werk (LLM Labeling)

Nu komt de dure chef-kok (de AI) in beeld.

  • De oude manier: De chef-kok leest elk recept apart en schrijft er een label bij. Dit kost veel geld en tijd.
  • De nieuwe manier (SSSL): De chef-kok kijkt alleen naar de hoeken (de clusters). Hij zegt: "Ah, deze hele hoek met tomatenrecepten gaat over 'Italiaans koken'." Hij plakt één label op de hele groep.
  • Het resultaat: De chef-kok hoeft maar een paar keer te werken in plaats van duizenden keren. Dit bespaart enorm veel geld en energie.

Stap 3: Het Kopieerapparaat (kNN Propagation)

Nu hebben we een paar groepen met labels. Wat doen we met de rest?

  • De Analogie: We hebben een kopieerapparaat (een algoritme genaamd k-Nearest Neighbors). Als er een nieuw recept binnenkomt, kijken we: "Welke bestaande groep lijkt het meest op dit nieuwe recept?" Als het lijkt op de 'Italiaanse' groep, plakken we automatisch het label 'Italiaans' erop.
  • Het voordeel: Dit gaat razendsnel en kost bijna niets. De dure chef-kok hoeft niet meer aan de slag.

3. Waarom is dit beter? (De Resultaten)

De auteurs hebben dit getest en het werkt verrassend goed:

  1. Kostenbesparing: Ze gebruiken de dure AI (de chef-kok) 40% minder. Het is alsof je een restaurant runt met de helft van de personeelskosten.
  2. Snelheid: Het labelen gaat 1460 keer sneller dan de oude manier.
  3. Betere Zoekresultaten: Als een bedrijf nu vraagt: "Ik wil weten of mijn leverancier goed is in incidentenmanagement", kan het systeem nu niet alleen kijken naar het woord "incident", maar naar het label "Incident Management". Het vindt de juiste vragen, zelfs als ze andere woorden gebruiken.

Samenvatting in één zin

In plaats van dat een dure robot elke vraag in een enorme lijst apart leest en labelt, groeert de robot eerst de vragen in logische groepen, geeft hij die groepen één label, en laat hij een snelle, goedkope computer de rest van de labels kopiëren op basis van gelijkenis.

Dit maakt het voor bedrijven veel makkelijker en goedkoper om hun leveranciers veilig te houden, zonder dat ze maandenlang handmatig hoeven te zoeken in een rommelige bibliotheek.