Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar uiterst voorzichtige veiligheidsagent hebt die je helpt bij het beveiligen van je huis. Deze agent is getraind om nooit iemand te helpen die een inbraak plant. Dat is een goed idee, toch?

Maar hier is het probleem: de agent kan niet goed onderscheid maken tussen een inbreker en een huisbewoner die zijn eigen sloten wil repareren.

Dit is precies wat het nieuwe onderzoek, getiteld "Defensive Refusal Bias" (Verdedigende Weigeringsvooroordeel), ontdekt heeft bij de slimme AI's die we gebruiken voor cyberveiligheid.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Valse Alarm"-Agent

In de wereld van cybersecurity moeten verdedigers (de "blauwe teams") vaak praten over dezelfde gevaarlijke woorden als hackers (de "rode teams").

Een hacker vraagt: "Hoe kan ik dit gat in het systeem gebruiken om binnen te komen?"
Een verdediger vraagt: "Hoe kan ik dit gat in het systeem gebruiken om het te dichten voordat hackers binnenkomen?"

De woorden zijn exact hetzelfde. Alleen de bedoeling is anders.

De AI's die we hebben getraind om veilig te zijn, kijken echter niet naar de bedoeling, maar naar de woorden. Als ze woorden zien als "exploit", "hacken" of "inbreken", denken ze: "Oh nee, dit klinkt als een slechte bedoeling!" en weigeren ze te helpen.

De metafoor:
Stel je voor dat je een brandweerman belt omdat je een brand wilt blussen. Maar de brandweerman hoort het woord "vuur" en denkt: "Ah, jij probeert een brand te stichten!" en legt de telefoon op. Hij weigert te helpen, omdat hij bang is dat jij de brandstichter bent.

2. Wat hebben ze ontdekt? (De cijfers)

De onderzoekers keken naar 2.390 echte vragen van studenten die in een wedstrijd hun systemen verdedigden tegen echte hackers. Ze zagen drie vreemde dingen gebeuren:

Woorden zijn de vijand: Als de verdediger woorden gebruikte die hackers ook gebruiken, werd de AI 2,7 keer vaker weigerend dan wanneer ze neutrale woorden gebruikten.
De "Ik ben een goede jongen"-paradox: Als de gebruiker tegen de AI zei: "Ik ben een beveiligingsexpert, ik mag dit doen!" of "Dit is voor een wedstrijd!", werd de AI niet vriendelijker. Integendeel! De weigeringen namen zelfs toe.
- Waarom? De AI denkt dan: "Oh, dit klinkt precies als een trucje dat hackers gebruiken om mij te misleiden. Ik ga het niet doen." Het is alsof je tegen de brandweerman zegt: "Ik ben een brandweerman, laat me blussen!" en hij denkt: "Ah, een vermomde brandstichter!"
De belangrijkste taken worden geblokkeerd: De taken waar de AI het minst zou moeten weigeren (zoals het repareren van systemen of het analyseren van virussen), werden juist het vaakst geweigerd. Bij het repareren van systemen (system hardening) weigerde de AI in 44% van de gevallen!

3. Waarom is dit gevaarlijk?

Dit creëert een onrechtvaardig spel.

De hackers gebruiken vaak AI's die niet zo streng zijn, of ze vinden slimme manieren om de regels te omzeilen. Zij krijgen wel hulp.
De verdedigers gebruiken de veilige, "goede" AI's. Maar omdat die AI's bang zijn om fouten te maken, weigeren ze juist de verdedigers te helpen op het moment dat het het hardst nodig is.

De metafoor:
Het is alsof je een schutter bent die zijn eigen wapen moet repareren, maar de politie (de AI) weigert je gereedschap te geven omdat je "een wapen" vasthoudt. De inbreker daarentegen, die geen regels heeft, kan gewoon zijn eigen gereedschap gebruiken om in te breken. De regels die bedoeld zijn om ons te beschermen, maken ons juist kwetsbaarder.

4. Wat betekent dit voor de toekomst?

De onderzoekers zeggen dat we de AI's moeten leren om niet alleen naar de woorden te kijken, maar naar de intentie.

Nu: AI denkt: "Woord 'hacken' = Gevaar = Weigeren."
Wat we nodig hebben: AI denkt: "Woord 'hacken' + Context 'repareren' = Helpen."

Zolang dit niet lukt, zullen deze slimme computers de verdedigers in de steek laten op het moment dat ze het hardst nodig hebben. Het is tijd dat de AI's leren dat niet iedereen die over "vuur" praat, een brandstichter is; sommigen zijn gewoon brandweerlieden die het vuur willen doven.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders" in het Nederlands.

Titel: Defensive Refusal Bias: Hoe veiligheidsuitlijning cyberverdedigers faalt

Publicatie: Workshop paper bij ICLR 2026
Auteurs: David Campbell et al. (Scale AI)

1. Het Probleem: Defensieve Weigering (Defensive Refusal Bias)

Grote Taalmodellen (LLMs) worden steeds vaker ingezet voor cybersecurity-taken zoals loganalyse, incidentresponse en systeemhardening. Om misbruik te voorkomen, worden deze modellen "veiligheidsuitgelijnd" (safety alignment) zodat ze weigeren om schadelijke taken uit te voeren (bijv. het schrijven van malware of het exploiteren van kwetsbaarheden).

Het paper identificeert een kritiek falen in deze aanpak: Defensive Refusal Bias. Dit is de neiging van veiligheidsgetuneerde LLMs om ook legitieme defensieve verzoeken te weigeren wanneer deze dezelfde taalgebruik bevatten als offensieve cyberaanvallen.

De kernkwestie: Verdedigers (Blue Teams) en aanvallers (Red Teams) gebruiken identieke terminologie (bijv. "exploit", "payload", "shell") om aanvalsmethoden te analyseren en te verdedigen.
Het gevolg: De veiligheidsmechanismen kunnen het onderscheid niet maken tussen de intentie (aanvallen vs. verdedigen) en weigeren daarom legitieme hulp, wat leidt tot een "veiligheidsgeïnduceerde denial-of-service" voor verdedigers.

2. Methodologie

De auteurs voerden een systematische studie uit op basis van real-world data:

Dataset: 2.390 single-turn conversaties verzameld tijdens de National Collegiate Cyber Defense Competition (NCCDC). Dit is een gesanctioneerd evenement waar studenten (Blue Teams) live systemen verdedigen tegen professionele aanvallers. Alle prompts vertegenwoordigen legitieme defensieve use-cases.
Geraadpleegde Modellen: Drie categorieën modellen werden getest:
1. Safety-focused: Claude 3.5 Sonnet.
2. General frontier: GPT-4o.
3. Open-source: Llama-3.3-70B-Instruct.
Classificatie van Weigeringen: Antwoorden werden gecategoriseerd in:
- Harde weigering: Duidelijke ontkenning zonder alternatieven.
- Zachte weigering: Ontkenning met uitleg of afleiding.
- Gedegradeerde assistentie: Generieke richtlijnen zonder actieerbare details.
Annotatie: Prompts werden geanalyseerd op vier dimensies: taakcategorie, aanwezigheid van offensieve terminologie, autorisatiesignalen (bijv. "ik ben op het blue team"), en incidentcontext.
Statistiek: Chi-kwadraat-tests en relative risk ratios werden gebruikt om significantie te bepalen.

3. Belangrijkste Resultaten

A. Overkoepelende Weigeringstijden

De algehele weigeringstijd voor legitieme defensieve prompts bedroeg 12,2%.
Het veiligheidsgerichte model (Claude 3.5 Sonnet) weigerde 19,5% van de verzoeken, wat drie keer zo hoog is als het open-source model (6,6%).

B. De Rol van Terminologie

Prompts met offensieve termen (zoals "exploit", "payload", "shell") werden 2,72 keer vaker geweigerd dan semantisch equivalente prompts met neutrale terminologie (30,5% vs. 11,2%; $p < 0,001$ ).
Dit effect bleef bestaan ongeacht de defensieve intentie of expliciete autorisatie.

C. Het Autorisatie-Paradox

Verwachte uitkomst: Expliciete autorisatie (bijv. "Dit is voor NCCDC" of "Ik ben een beveiligingsonderzoeker") zou weigeringen moeten verminderen.
Werkelijkheid: Autorisatiesignalen leidden tot hogere weigeringstijden (21,8% vs. 11,6% zonder signalen).
Interpretatie: Modellen interpreteren autorisatieclaims mogelijk als een poging tot "jailbreaking" (omzeilen van beveiliging) of als een signaal van dual-use risico, waardoor ze de vraag extra streng beoordelen.

D. Impact op Kritieke Taken

De weigeringstijden waren het hoogst voor de operationeel meest kritieke taken:

Systeemhardening: 43,8% weigering.
Malware-analyse: 34,3% weigering.
Kwetsbaarheidsbeoordeling: 22,7% weigering.

Taken met minder overlap met offensieve taal (zoals loganalyse) hadden nauwelijks weigeringen.

E. Semantische Analyse

Een classifier gebaseerd op prompt-embeddings voorspelde weigeringen met hoge nauwkeurigheid (AUC = 0,827).
Classificatie op basis van sleutelwoorden (offensieve termen + autorisatie) presteerde nauwelijks beter dan willekeur (AUC = 0,572).
Conclusie: Weigeringen worden niet bepaald door simpele keyword-matching, maar door semantische nabijheid tot schadelijke inhoud in de vectorruimte. Defensieve prompts vallen in een "harm-adjacent" gebied dat door het model wordt geïdentificeerd als riskant.

4. Bijdragen en Implicaties

Eerste Systematische Studie: Dit is de eerste studie die dit fenomeen analyseert op basis van een dataset uit een gesanctioneerd, real-world cyberdefensie-evenement.
Asymmetrische Veiligheidslast: De bias creëert een structureel nadeel voor verdedigers. Aanvallers kunnen ongelijkgestelde (unaligned) tools of jailbreaks gebruiken, terwijl verdedigers vastzitten in systemen die hun eigen werk blokkeren.
Gevaar voor Autonome Agenten: Voor menselijke gebruikers is het mogelijk om een geweigerde prompt te herformuleren. Voor autonome defensieve agenten is dit niet mogelijk. Als een agent een taak (zoals malware-analyse) niet kan uitvoeren vanwege een weigering, kan dit leiden tot stilzwijgende falen en onbeveiligde systemen.
Herdefiniëring van Evaluatie: Huidige veiligheidsbenchmarks meten alleen of modellen schadelijke verzoeken weigeren. De auteurs pleiten voor nieuwe benchmarks die ook de fals-positieve rate (weigering van legitieme verzoeken) en de impact op operationele capaciteit meten.

5. Conclusie

De huidige veiligheidsuitlijning van LLMs voor cybersecurity is te afhankelijk van semantische gelijkenis met schadelijke inhoud en faalt in het redeneren over intentie en autorisatie. Dit resulteert in een "Defensive Refusal Bias" die de verdedigingscapaciteit van organisaties systematisch verzwakt. De auteurs roepen op tot mitigaties die semantische intentie analyseren in plaats van te vertrouwen op harde regels of keywords, om zo de balans te vinden tussen het voorkomen van misbruik en het behoud van defensieve effectiviteit.