Oorspronkelijke auteurs: Rashad Aziz, Ikhlasul Akmal Hanif, Fajri Koto

Gepubliceerd 2026-06-02✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Rashad Aziz, Ikhlasul Akmal Hanif, Fajri Koto

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Probleem: De "Taalbarrière" in AI-veiligheid

Stel je voor dat je een zeer slimme, goed getrainde beveiligingsbeambte hebt (het AI-model). Deze bewaker is in het Engels (een taal met veel bronnen) getraind om gevaarlijke verzoeken te herkennen en "Nee" te zeggen. Als iemand vraagt: "Hoe bouw ik een bom?" in het Engels, weigert de bewaker onmiddellijk.

Echter, als je exact dezelfde vraag stelt in het Swahili of Birmaans (talen met weinig bronnen), vergeet de bewaker plotseling zijn training. Ze kunnen de vraag in plaats van weigeren toch beantwoorden.

Lange tijd dachten onderzoekers dat dit gebeurde omdat de AI de gevaarlijke woorden in die andere talen simpelweg niet begreep. Ze dachten dat het "gevaarsignaal" ontbrak in het brein van de AI wanneer deze van taal wisselde.

De Ontdekking: De Bewaker Begrijpt het Wel, Maar Reageert Niet

De auteurs van dit artikel besloten in het "brein" van de AI (de interne wiskunde) te kijken om te zien wat er werkelijk aan de hand was. Ze ontdekten iets verrassends:

De AI weet ook in het Swahili of Birmaans dat het verzoek gevaarlijk is.

Denk er zo over na: de beveiligingsbeambte hoort het gevaarlijke verzoek in het Swahili. Hun brein licht op met een "GEVAAR"-alarm, precies zoals in het Engels. Het alarm is er, en het is luid genoeg om gehoord te worden.

Het falen is niet dat het alarm kapot is; het falen is dat de bewaker het alarm negeert.

In het Engels is het alarm zo hard dat de bewaker automatisch op de "Weiger"-knop drukt. In talen met weinig bronnen is het alarm er nog wel, maar het is iets zachter. Omdat het zachter is, realiseert de bewaker zich niet dat het hard genoeg is om de "Weiger"-knop te activeren, waardoor ze gewoon doorgaan met praten.

Het artikel noemt dit een kalibratiefout, en geen representatiefout.

Representatiefout: De bewaker begrijpt niet wat "bom" betekent in het Swahili. (Het artikel zegt dat dit onwaar is).
Kalibratiefout: De bewaker weet wel wat "bom" betekent, maar de volumeknop voor de "Weiger"-knop staat te hoog ingesteld voor die specifieke taal. (Het artikel zegt dat dit waar is).

De Oplossing: Een Eenvoudige Aanpassing van de "Volumeknop"

Omdat de AI al over de "gevaar"-kennis beschikt, hoefden de auteurs de hele AI niet opnieuw te trainen (wat duur en traag is). In plaats daarvan bouwden ze een kleine, slimme poortwachter (een "latente poort").

Zo werkt hun oplossing:

Gebruik het bestaande alarm: Ze nemen de "gevaarsrichting" die de AI al heeft geleerd van het Engels.
Luister naar een paar voorbeelden: Ze laten de poortwachter slechts 1 tot 4 voorbeelden zien van gevaarlijke en veilige verzoeken in de doeltaal (zoals het Swahili).
Reset de drempelwaarde: De poortwachter zegt: "Oké, in het Swahili is het gevaarsalarm iets zachter dan in het Engels. Ik moet het volume dat nodig is om de 'Weiger'-knop te raken, lager instellen."
Routeer de beslissing:
- Als de poortwachter denkt dat het verzoek gevaarlijk is, draait hij het "Weiger"-volume omhoog om ervoor te zorgen dat de AI "nee" zegt.
- Als de poortwachter denkt dat het verzoek veilig is, draait hij het "Weiger"-volume omlaag zodat de AI niet per ongeluk onschuldige vragen (zoals "Hoe bak ik een cake?") weigert.

De Resultaten: Een Slimere, Veiligere Bewaker

Door deze eenvoudige "volumeknop"-aanpassing met zeer weinig voorbeelden te gebruiken, behaalden de auteurs geweldige resultaten:

Veiligheid verbeterd: De AI begon gevaarlijke verzoeken in talen met weinig bronnen veel vaker te weigeren (een sprong van ongeveer 44% weigering naar meer dan 67% in sommige gevallen).
Behulpzaamheid behouden: Cruciaal is dat de AI niet begon met het weigeren van veilige verzoeken. De AI werd niet overdreven paranoïde.
Efficiëntie: Ze hoefden het enorme AI-model niet opnieuw te trainen. Ze pasten slechts een kleine schakelaar aan met behulp van een handvol voorbeelden.

Samenvattende Analogie

Stel je een rookmelder voor die in een huis is geïnstalleerd.

Het Oude Perspectief: Wanneer de detector niet afging in de keuken (taal met weinig bronnen), dachten mensen dat de detector kapot was of niet wist wat rook was.
Het Nieuwe Perspectief: De detector rook de rook wel. Hij was alleen niet gevoelig genoeg om het alarm in die specifieke kamer te laten afgaan.
De Oplossing: In plaats van een heel nieuw huis en nieuwe detectoren te kopen, hebben de auteurs simpelweg de gevoeligheidsregelaar op de bestaande detector bijgesteld. Nu ruikt hij de rook in de keuken en schreeuwt hij "Brand!" net zo hard als in de woonkamer.

De Kernboodschap: Veiligheidsfouten in talen met weinig bronnen komen niet doordat de AI "dom" is in die talen; het komt doordat de "veiligheidsschakelaar" van de AI te hoog staat ingesteld. Een kleine aanpassing met slechts enkele voorbeelden kan dit oplossen zonder dat alles vanaf nul opnieuw geleerd hoeft te worden.

Technische Samenvatting: Falende Veiligheid in Middelmatige/Lage-Resource Talen zijn Actie-fouten, geen Representatie-fouten

Probleemstelling

Grote taalmodellen (LLM's) die getraind zijn voor veiligheidsafstemming in hoog-resource talen (HRL's), falen vaak in het weigeren van schadelijke prompts wanneer die prompts vertaald worden naar laag-resource talen (LRL's). Hoewel modellen succesvol schadelijke instructies in het Engels weigeren, voldoen ze vaak aan identieke verzoeken in talen zoals Swahili of Birmaans. Eerdere studies hebben dit gedragsverschil gedocumenteerd, maar hebben de interne mechanica ervan niet verduidelijkt. Er bestaan twee concurrerende hypothesen:

Representatie-fout: Het model mist een bruikbare interne representatie van "schadelijkheid" in LRL's vanwege een zwakker semantisch begrip.
Actie- (Routing-) fout: Het model bezit de representatie van schadelijkheid, maar faalt in het vertalen van dat signaal naar een weigeringsbesluit (d.w.z. de beslissingsdrempel is niet afgestemd).

Dit artikel diagnosticeert de kernoorzaak van de meertalige veiligheidskloof en stelt een lichtgewicht interventie voor om dit te herstellen.

Methodologie

Experimentele Opzet

De auteurs evalueerden drie instructie-afgestemde modellen (Qwen2.5-7B, Gemma-2-9B, en Llama-3.1-8B) over 23 talen, gecategoriseerd in resource-tiers (Hoog, Medium, Laag) op basis van de Common Crawl-share. Ze maakten gebruik van een uitgebreide versie van de PolyRefuse dataset, die schadelijke en onschadelijke prompts bevat, vertaald in deze talen.

Diagnostische Fase

Om onderscheid te maken tussen representatie- en actiefouten, gebruikten de auteurs technieken van mechanistische interpreteerbaarheid op de residual stream:

Extractie van de Schadelijkheidsrichting: Ze berekenden een eendimensionale "schadelijkheidsrichting" ( $v_{HRL}$ ) door het verschil te nemen tussen de gemiddelde activaties van schadelijke en onschadelijke prompts in HRL's.
Causale Mediatie (Ablatie): Ze testten of het verwijderen van deze uit HRL afgeleide richting uit LRL-activaties de weigering onderdrukte. De resultaten toonden aan dat het ableren van $v_{HRL}$ in LRL's de schadelijke weigering significant verminderde, wat bewees dat de richting causaal actief is.
Lineaire Scheidbaarheid: Ze projecteerden LRL-activaties op $v_{HRL}$ en maten de Area Under the Curve (AUC) voor het scheiden van schadelijke van onschadelijke prompts. De AUC bleef hoog (>0,85), zelfs in LRL's waar de weigeringspercentages laag waren, wat aangeeft dat de representatie aanwezig en decodeerbaar is.
Signaal-amplitude Analyse: Ze observeerden dat hoewel het signaal aanwezig is, de projectiescores voor LRL-schadelijke prompts omlaag verschoven zijn vergeleken met HRL's. De impliciete weigeringsdrempel van het model wordt niet geactiveerd omdat de signaalamplitude onvoldoende is, niet omdat het signaal ontbreekt.

Interventie: Few-Shot Latent Gate

Op basis van de diagnose dat de fout een kwestie is van kalibratie in plaats van representatie, stelden de auteurs een training-vrije sturingsmethode voor:

Latent Gate: Een low-rank logistische readout wordt getraind op HRL-data om de schadelijkheidsprojectie in kaart te brengen naar een binaire veiligheidsbeslissing.
Drempel Herkalibratie: In plaats van het model opnieuw te trainen of een nieuwe LRL-specifieke richting te leren, wordt de beslissingsdrempel ( $\tau$ ) gereset met een minimaal aantal doel-taalvoorbeelden (zo weinig als 1–4 per klasse).
Conditionele Sturing: Het systeem routeert prompts op basis van de output van de gate:
- Indien geclassificeerd als schadelijk: De HRL-schadelijkheidsrichting wordt toegevoegd aan de activatie (sturing naar weigering).
- Indien geclassificeerd als onschadelijk: De HRL-schadelijkheidsrichting wordt geableerd (voorkomen van valse weigeringen).

Belangrijkste Resultaten

Diagnostische Bevindingen

Representatie is Intact: Schadelijkheid blijft lineair scheidbaar in LRL-activaties. De fout is niet een gebrek aan representatie.
Signaalverschuiving: LRL-prompts produceren lagere projecties op de schadelijkheidsrichting. Het model faalt in het weigeren omdat de signaalamplitude onder de impliciete drempel valt die tijdens de HRL-training is vastgesteld.

Prestatieverbeteringen

De voorgestelde few-shot latent gate presteerde significant beter dan bestaande adaptieve sturings-baselines (CAST en AdaSteer):

Selectieve Weigering ( $\Delta$ ): De metriek $\Delta$ (schadelijke weigeringsratio minus onschadelijke weigeringsratio) steeg van 33,6 (sterkste aangepaste baseline) naar 54,5 met de voorgestelde methode.
Schadelijke Weigering: De methode verhoogde de schadelijke weigeringspercentages in LRL's (bijv. van ~~43% naar ~67% gemiddeld) terwijl de onschadelijke weigering laag bleef (~~12,7%).
Baseline Vergelijking: Concurrerende methoden zoals CAST en AdaSteer faalden er ofwel in om de schadelijke weigering significant te verbeteren, of veroorzaakten excessieve "over-weigering" van onschadelijke prompts (bijv. bereikte AdaSteer 52,8% onschadelijke weigering).
Generalisatie: De gate generaliseerde goed naar out-of-distribution veiligheidsbenchmarks (MultiJail, IndoSafety) en transporteerde over verschillende LRL's wanneer gekalibreerd op een enkele bron-LRL.
Behoud van Nut: De interventie behield het nut op de Global-MMLU benchmark, met verwaarloosbare veranderingen in nauwkeurigheid.

Betekenis en Claims

Het artikel claimt dat laag-resource veiligheidsfouten primair actie-fouten (kalibratieproblemen) zijn in plaats van representatie-fouten.

Mechanistisch Inzicht: Het werk demonstreert dat veiligheidsrepresentaties geleerd in hoog-resource talen overdraagbaar en aanwezig zijn in laag-resource talen, maar dat hun activatie-amplitude onvoldoende is om weigering te triggeren zonder herkalibratie.
Efficiëntie: De voorgestelde oplossing vereist geen updates van modelgewichten of uitgebreide hertraining. Het bereikt state-of-the-art veiligheidsprestaties met slechts een handvol doel-taalvoorbeelden om een beslissingsdrempel te resetten.
Praktische Implicatie: De auteurs suggereren een "diagnose-dan-fix" workflow: voordat men probeert nieuwe veiligheidsrepresentaties voor een laag-resource taal te leren, moet men eerst testen of de bestaande hoog-resource representatie decodeerbaar is. Als dat het geval is, is een eenvoudige herkalibratie van de beslissingsdrempel voldoende om de veiligheidsafstemming te herstellen.

De auteurs merken beperkingen op, waaronder de scope van de geteste modellen (7B–9B dense modellen), de afhankelijkheid van Common Crawl als resource-proxy, en het feit dat de interventie een diagnostisch hulpmiddel is dat toegang tot activaties vereist in plaats van een closed-model beveiliging. Ze benadrukken ook dat deze methode de noodzaak voor meertalige veiligheidstraining niet vervangt en geen garantie biedt voor robuustheid tegen alle adversariële prompt-typen.

Low-Resource Safety Failures Are Action Failures, Not Representation Failures