Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote, rommelige bibliotheek hebt vol met vragen over cyberveiligheid. Deze vragen komen van over de hele wereld: sommige zijn over wachtwoorden, andere over wat je doet als er een hacker is, en weer andere over hoe je data opslaat. Dit noemen ze TPRA-vragenlijsten (Third-Party Risk Assessment). Bedrijven gebruiken deze lijsten om te checken of hun leveranciers veilig werken.

Het probleem? De bibliotheek is zo groot en ongeordend dat het zoeken naar de juiste vragen voor een specifieke leverancier voelt als het zoeken naar een naald in een hooiberg. Mensen doen dit nu vaak handmatig, of ze gebruiken slimme computers die kijken naar woorden. Als je zoekt op "wachtwoord", vindt de computer vragen met dat woord. Maar soms wil je iets heel specifieks, zoals "hoe bewaken jullie wachtwoorden op kritieke systemen?", en de computer geeft je een generiek antwoord omdat het woord "wachtwoord" wel in de vraag staat, maar de bedoeling niet klopt.

De auteurs van dit paper hebben een slimme oplossing bedacht: SSSL (een hybride manier om vragen te labelen). Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Woord-Soep"

Stel je voor dat je een kok bent die een gerecht moet maken. Je hebt een enorme pot met soep (de vragenlijst). Je wilt alleen de groenten die goed zijn voor een wintermaaltijd.

De oude manier (Zoeken op woorden): Je kijkt alleen naar de naam van de groente. Als je "winter" zoekt, krijg je misschien ijsblokjes (want die bevatten het woord 'ijs' of 'koud'), maar geen echte groenten. De computer ziet alleen de oppervlakte, niet de diepte.
Het doel: Je wilt de soep sorteren in bakjes met duidelijke labels: "Wintergroenten", "Zomersalade", "Kruiden". Dan kun je snel het juiste bakje pakken.

2. De Oplossing: De "Slimme Sorteerder" (SSSL)

De auteurs hebben een proces bedacht dat werkt als een slimme, efficiënte bibliotheekmedewerker. Ze gebruiken twee stappen:

Stap 1: Groeperen met een "Smaakprofiel" (Clustering)

In plaats van elke vraag één voor één te lezen (wat duur en traag is met de slimme AI-tools die ze gebruiken, de LLM's), kijken ze eerst naar de smaak van de vragen.

De Analogie: Stel je hebt 1000 recepten. In plaats van elk recept te laten beoordelen door een dure chef-kok, groepeer je ze eerst op basis van hun ingrediënten. Alle recepten met "tomaten" en "basilicum" komen in dezelfde hoek. Alle recepten met "ijs" en "chocolade" komen in een andere hoek.
De techniek: Ze gebruiken wiskunde om vragen die op elkaar lijken bij elkaar te zetten in "clusters" (groepen).

Stap 2: De Chef-Kok doet slechts één keer werk (LLM Labeling)

Nu komt de dure chef-kok (de AI) in beeld.

De oude manier: De chef-kok leest elk recept apart en schrijft er een label bij. Dit kost veel geld en tijd.
De nieuwe manier (SSSL): De chef-kok kijkt alleen naar de hoeken (de clusters). Hij zegt: "Ah, deze hele hoek met tomatenrecepten gaat over 'Italiaans koken'." Hij plakt één label op de hele groep.
Het resultaat: De chef-kok hoeft maar een paar keer te werken in plaats van duizenden keren. Dit bespaart enorm veel geld en energie.

Stap 3: Het Kopieerapparaat (kNN Propagation)

Nu hebben we een paar groepen met labels. Wat doen we met de rest?

De Analogie: We hebben een kopieerapparaat (een algoritme genaamd k-Nearest Neighbors). Als er een nieuw recept binnenkomt, kijken we: "Welke bestaande groep lijkt het meest op dit nieuwe recept?" Als het lijkt op de 'Italiaanse' groep, plakken we automatisch het label 'Italiaans' erop.
Het voordeel: Dit gaat razendsnel en kost bijna niets. De dure chef-kok hoeft niet meer aan de slag.

3. Waarom is dit beter? (De Resultaten)

De auteurs hebben dit getest en het werkt verrassend goed:

Kostenbesparing: Ze gebruiken de dure AI (de chef-kok) 40% minder. Het is alsof je een restaurant runt met de helft van de personeelskosten.
Snelheid: Het labelen gaat 1460 keer sneller dan de oude manier.
Betere Zoekresultaten: Als een bedrijf nu vraagt: "Ik wil weten of mijn leverancier goed is in incidentenmanagement", kan het systeem nu niet alleen kijken naar het woord "incident", maar naar het label "Incident Management". Het vindt de juiste vragen, zelfs als ze andere woorden gebruiken.

Samenvatting in één zin

In plaats van dat een dure robot elke vraag in een enorme lijst apart leest en labelt, groeert de robot eerst de vragen in logische groepen, geeft hij die groepen één label, en laat hij een snelle, goedkope computer de rest van de labels kopiëren op basis van gelijkenis.

Dit maakt het voor bedrijven veel makkelijker en goedkoper om hun leveranciers veilig te houden, zonder dat ze maandenlang handmatig hoeven te zoeken in een rommelige bibliotheek.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires" in het Nederlands.

Probleemstelling

Bij Third-Party Risk Assessment (TPRA) moeten organisaties leveranciers evalueren op basis van beveiligingsstandaarden zoals ISO/IEC 27001 en NIST. Dit proces vereist vaak het selecteren van relevante vragen uit grote, ongeordende repositories.

Huidige beperkingen: De selectie van vragen is momenteel een handmatig, tijdrovend proces. Bestaande geautomatiseerde oplossingen vertrouwen op tekstuele similariteit (zoals cosine similarity op embeddings).
De kernuitdaging: Deze methoden missen expliciete kennis over de onderliggende besturingsdomeinen (bijv. toegangscontrole, incidentrespons) en de beoordelingsomvang (bijv. verificatie van bestaan vs. handhaving). Hierdoor leveren ze vaak te generieke resultaten die niet goed aansluiten bij de specifieke beoordelingsintentie.
Labeling-uitdaging: Het handmatig labelen van repositories is onhaalbaar. Het gebruik van Large Language Models (LLM's) voor volledige annotatie is te duur, gevoelig voor prompt-variatie en schaalbaarheidsproblemen.

Methodologie: Hybrid Semi-Supervised Semantic Labeling (SSSL)

De auteurs stellen een hybride framework voor dat SSSL (Semi-Supervised Semantic Labeling) noemt. Dit framework combineert onbewaakte clustering met selectief LLM-gebruik en k-Nearest Neighbors (kNN) voor labelpropagatie. Het proces verloopt in drie fasen:

Annotatiefase (Clustering & LLM):
- Embeddings: Vragen worden omgezet in dichte semantische vectoren met een vooraf getraind model (text-embedding-3-large).
- Possibilistic Clustering: In plaats van harde clustering, wordt Possibilistic C-Means (PCM) gebruikt. Dit staat toe dat vragen tot meerdere clusters behoren (overlap), wat essentieel is voor compliance-vragen die vaak meerdere domeinen bestrijken.
- Automatische Drempelwaarde: Een "elbow"-algoritme bepaalt automatisch de drempelwaarde om zachte lidmaatschapsscores om te zetten in discrete clusters.
- LLM-annotatie: De LLM wordt één keer per cluster aangeroepen (in plaats van per vraag) om semantische labels te genereren die de gemeenschappelijke intentie van de cluster beschrijven. Dit verlaagt de kosten en verbetert de consistentie.
- Aggregatie: Een vraag erft de vereniging van alle labels van de clusters waartoe het behoort.
Predictiefase (Label Propagatie):
- Voor nieuwe vragen wordt de LLM niet opnieuw aangeroepen.
- Er wordt gebruikgemaakt van k-Nearest Neighbors (kNN) in de embedding-ruimte.
- De labels van de $k$ meest vergelijkbare, reeds gelabelde vragen worden overgenomen via een stemmingssysteem.
- Fallback: Als geen enkel label voldoende steun (minimaal 2 stemmen) krijgt, wordt de vraag gemarkeerd als "out-of-distribution" en terugverwezen naar de LLM.
Retrieval-fase (Label-based Search):
- In plaats van te zoeken op tekstuele similariteit, wordt er gezocht in de label-ruimte.
- De intentie van de gebruiker wordt geëmbodet en vergeleken met de embeddings van de toegekende labels van de vragen. Dit zorgt voor een betere uitlijning met de beoogde besturingsdomeinen.

Belangrijkste Bijdragen

Hybride SSSL-framework: Een nieuwe aanpak die de hoge kosten van LLM-annotatie reduceert door clustering en semi-supervised learning.
Possibilistic Clustering voor Compliance: Toepassing van PCM om de complexe, overlappende aard van beveiligingscontroles beter te modelleren dan traditionele hard-clustering.
Label-based Retrieval: Demonstreert dat zoeken op basis van semantische labels effectiever is dan directe tekstuele similariteit voor het selecteren van TPRA-vragen.
Open Source: De auteurs hebben de implementatie, datasets en scripts openbaar gemaakt.

Resultaten

De evaluatie is uitgevoerd op datasets gebaseerd op de Consensus Assessments Initiative Questionnaire (CAIQ) en synthetische datasets.

Kwaliteit van Labels:
- LLM-only: Hoogste correctheid (4.8/5), maar duur.
- SSSL (LLM-fase): Zeer hoge consistentie (4.8/5) en vergelijkbare generalisatie.
- SSSL (kNN-fase): Lagere correctheid (1.8/5) en generalisatie (3.4/5), vooral bij het overschrijden van verschillende standaarden (cross-standard), maar behoudt hoge consistentie (4.7/5).
Efficiëntie en Kosten:
- Token-verbruik: SSSL verlaagt het token-verbruik met 39,6% (van 57.146 naar 34.527 tokens) tijdens de LLM-fase.
- Snelheid: De kNN-predictiefase is extreem snel (0,22 seconden) en kost 0 tokens, wat een snelheidswinst van ~1460x oplevert ten opzichte van volledige LLM-inferentie.
- Energie: Een reductie in energieverbruik van ~1500x.
Retrieval Kwaliteit:
- Label-based retrieval scoort beter (75/100) dan puur semantische similariteit (70/100) of BM25 (58/100), vooral bij complexe, meervoudige intenties (bijv. combinaties van back-up en monitoring).

Betekenis en Conclusie

Dit onderzoek toont aan dat het ontkoppelen van de ontdekking van semantische labels (duur, via LLM) van de toewijzing van labels (goedkoop, via kNN) een schaalbare oplossing biedt voor TPRA.

Praktische impact: Organisaties kunnen grote repositories van beveiligingsvragen efficiënt structureren en doorzoekbaar maken zonder de kosten van volledige LLM-annotatie.
Beperkingen: De prestaties van de kNN-propagatie dalen wanneer de bron- en doeldatasets sterk verschillen in terminologie (bijv. verschillende standaarden), wat leidt tot semantische drift.
Toekomstperspectief: De auteurs plannen om dit framework uit te breiden naar geautomatiseerd beantwoorden van vragen en het testen van de methode binnen dezelfde distributie (intra-standard) om de nauwkeurigheid verder te verbeteren.

Kortom, SSSL biedt een kosteneffectieve, snelle en interpreteerbare manier om beveiligingsvragen te categoriseren en te selecteren, waardoor de operationalisering van Third-Party Risk Assessment aanzienlijk wordt verbeterd.

Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

1. Het Probleem: De "Woord-Soep"

2. De Oplossing: De "Slimme Sorteerder" (SSSL)

Stap 1: Groeperen met een "Smaakprofiel" (Clustering)

Stap 2: De Chef-Kok doet slechts één keer werk (LLM Labeling)

Stap 3: Het Kopieerapparaat (kNN Propagation)

3. Waarom is dit beter? (De Resultaten)

Samenvatting in één zin

Probleemstelling

Methodologie: Hybrid Semi-Supervised Semantic Labeling (SSSL)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA