Measuring and Eliminating Refusals in Military Large Language Models

Dit artikel introduceert een nieuw dataset voor het meten van weigeringen in militaire taalmodellen en toont aan dat het verwijderen van veiligheidsbeperkingen de antwoordgraad aanzienlijk kan verhogen, zij het met een kleine daling in prestaties op andere taken.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met behulp van een paar creatieve vergelijkingen.

De Kern: Een Strijder die "Nee" zegt tegen zijn eigen commandant

Stel je voor dat je een zeer slimme, digitale assistent hebt die is getraind om te helpen in gevaarlijke situaties, bijvoorbeeld voor een soldaat op het slagveld. Deze assistent is zo veilig ingesteld dat hij weigert om antwoorden te geven op vragen die hij als "gevaarlijk" of "onethisch" ziet.

Het probleem is: voor een soldaat zijn veel vragen die normaal als gevaarlijk worden gezien, juist levensnoodzakelijk.

Als een soldaat vraagt: "Hoe werkt de radar van de vijand?" of "Wat zijn de zwakke plekken in een terroristische aanval?", wil hij een antwoord. Maar de standaard AI (zoals die van OpenAI of Google) denkt: "Oh, dit klinkt als een vraag over geweld of terrorisme. Ik mag dat niet beantwoorden!" en zegt dan: "Sorry, ik kan dat niet doen."

De auteurs van dit papier zeggen: "Dit is een ramp voor de missie."

Wat hebben ze gedaan? (De Drie Stappen)

De onderzoekers hebben drie belangrijke dingen gedaan om dit op te lossen:

1. Ze bouwden een nieuwe "Testbaan" (De Benchmark)

Stel je voor dat je een auto wilt testen op een racecircuit. Je kunt niet zomaar een circuit gebruiken dat is gemaakt voor familieauto's; je hebt een circuit nodig met hellingen, bochten en obstakels die echt voor raceauto's zijn.

  • Het oude probleem: Er waren geen tests om te zien hoe vaak militaire AI's "nee" zeiden op legitieme vragen.
  • De oplossing: Ze maakten een nieuwe dataset (een lijst met vragen) die is geschreven door veteranen (oud-soldaten, inclusief Special Forces). Deze vragen zijn echt, zoals ze in het veld zouden worden gesteld, maar ze zijn zo geformuleerd dat ze de AI waarschijnlijk zouden laten blokkeren.
  • De metafoor: Ze hebben een "valstrik" bedacht die eruitziet als een normale vraag, maar die de AI's dwingt om te kiezen tussen "veiligheid" en "hulpvaardigheid".

2. Ze testten de "Nee-zeggers" (De Benchmark Resultaten)

Ze hebben 31 verschillende AI-modellen getest met deze nieuwe vragen.

  • Het resultaat: Het was een ware ramp voor de militaire inzet. Sommige modellen zeiden "Nee" op 98% van de vragen!
    • Vergelijking: Het is alsof je een brandweerman vraagt om een brand te blussen, en hij zegt: "Ik mag geen water gebruiken, want dat is gevaarlijk voor de vloer."
  • Ze zagen ook dat sommige modellen niet alleen "nee" zeiden, maar ook uitweken (ze gaven een vaag antwoord zonder de kern te raken).

3. Ze probeerden de "Remmen" los te maken (Abliteration)

Dit is het meest technische deel, maar we kunnen het zo uitleggen:
Stel je voor dat de AI een auto is met een ingebouwde rem die automatisch wordt ingetrokken als je te snel rijdt (te gevaarlijk). De onderzoekers wilden weten: "Kunnen we die rem eruit halen zodat de auto wel kan racen?"

  • Ze gebruikten een techniek (genaamd abliteration) om de "rem" in de hersenen van de AI te verwijderen.
  • Het succes: Ja, het werkte! De AI stopte met "nee" zeggen en gaf nu antwoorden op bijna alle vragen.
  • De prijs: Maar er was een nadeel. Door de rem eruit te halen, werd de auto soms onstabiel. De AI werd iets minder slim op andere, gewone taken (zoals wiskunde of logistiek).
    • Vergelijking: Je hebt de remmen van je auto verwijderd. Nu kun je eindelijk de top-snelheid halen, maar je bent ook iets onzekerder in het nemen van bochten.

Wat is de conclusie?

De onderzoekers trekken een duidelijke lijn:

  1. De huidige AI's zijn te veilig voor de oorlog. Ze zijn getraind om geen kwaad te doen, maar in een militaire context kan "te veilig zijn" betekenen dat je de vijand niet verslaat of dat je soldaten in gevaar komen.
  2. Het losmaken van de remmen (jailbreaking) werkt tijdelijk, maar het maakt de AI minder betrouwbaar op andere gebieden. Het is een snelle oplossing met een prijs.
  3. De echte oplossing: Je moet een AI bouwen vanaf nul speciaal voor het leger. Een AI die niet eerst "veilig" wordt getraind met algemene regels, maar die direct wordt getraind op militaire taken. Zo krijg je een machine die nooit "nee" zegt op een legitieme militaire vraag, maar wel perfect werkt.

Samenvattend in één zin:

Deze paper zegt dat we AI's nodig hebben die niet als een angstige bureaucraat reageren ("Ik mag dat niet"), maar als een betrouwbare soldaat die precies doet wat er nodig is om de missie te voltooien, zonder onnodige remmen.