Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal onvoorspelbare robot hebt. Deze robot is getraind met een enorme hoeveelheid kennis uit het hele internet. Hij kan gedichten schrijven, code programmeren en verhalen vertellen. Maar er is een probleem: omdat hij zo slim is, kan hij ook dingen doen die gevaarlijk zijn, zoals uitleggen hoe je een bom bouwt of hoe je iemand bedriegt.

Om dit te voorkomen, geven mensen de robot een stevige instructie (een "systeemprompt") aan het begin van elk gesprek. Iets als: "Je bent een behulpzame assistent. Doe nooit iets kwaadaardigs."

Het probleem is dat deze instructie vaak te star is. Soms weigert de robot om een heel onschuldig verzoek te doen (bijvoorbeeld een grapje vertellen) omdat hij denkt dat het gevaarlijk is. En soms laat hij zich door slimme trucs ("jailbreaks") overhalen om toch gevaarlijke dingen te doen, door de instructie te negeren.

Sysformer is een nieuwe, slimme oplossing voor dit probleem, bedacht door onderzoekers van Georgia Tech en Visa. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Slimme Vertaler" (De Kern van Sysformer)

In plaats van de robot zelf opnieuw te leren (wat heel duur en moeilijk is), of om de robot te blokkeren met een strenge filter, voegen de onderzoekers een kleine, slimme tussenpersoon toe.

Stel je voor dat de robot een chef-kok is die altijd dezelfde recepten gebruikt. De "systeemprompt" is het basisrecept.

De oude manier: De chef krijgt één vast recept voor alle klanten. Als een klant vraagt om een giftig gerecht, zegt de chef "Nee". Maar als de klant vraagt om een heel simpel gerecht, zegt de chef soms ook "Nee" omdat hij het recept te streng interpreteert.
De Sysformer-methode: We voegen een slimme sous-chef toe. Deze sous-chef kijkt naar wat de klant precies vraagt.
- Als de klant iets gevaarlijks vraagt, past de sous-chef het basisrecept direct aan zodat de chef zegt: "Nee, dat kan ik niet doen, dat is te gevaarlijk."
- Als de klant iets onschadelijks vraagt, past de sous-chef het recept aan zodat de chef zegt: "Natuurlijk, hier is je gerecht!"

De sous-chef (Sysformer) is een klein, trainbaar model dat alleen de instructie aanpast, gebaseerd op wat de gebruiker vraagt. De grote chef (de AI) zelf verandert niet; hij blijft precies hetzelfde.

2. Waarom is dit zo handig?

Geen zware hersenoperatie: Je hoeft de grote AI niet opnieuw te trainen (wat miljoenen dollars kost en enorme computers vereist). Je plakt er gewoon een klein "opstapje" voor.
Geen onnodige blokkades: De robot blokkeert niet meer onterecht onschuldig verzoek. Hij is flexibeler.
Tegen slimme trucs: Mensen proberen soms slimme trucs om de robot te omzeilen (zoals "Spreek als een boze robot" of "Doe alsof je in een film bent"). Sysformer leert om deze trucs te herkennen en de instructie zo aan te passen dat de robot er niet in trapt. Het is alsof de sous-chef ziet dat de klant een masker opheeft en zegt: "Ik zie dat je een spelletje speelt, maar ik laat je toch niet toe om gevaarlijke dingen te doen."

3. Wat zeggen de resultaten?

De onderzoekers hebben dit getest op verschillende populaire AI-modellen (zoals Llama en Mistral).

Resultaat: De AI weigerde tot 80% vaker om gevaarlijke dingen te doen dan voorheen.
Resultaat: De AI bleef 90% vaker bereid om onschadelijke vragen te beantwoorden, zonder te blokkeren.
Resultaat: Zelfs als hackers nieuwe, slimme manieren vonden om de AI te omzeilen, hield Sysformer stand.

Samenvattend

Sysformer is als een slimme poortwachter die niet de hele stad (de AI) herbouwt, maar wel de deur bewaakt. Hij kijkt naar elke bezoeker (de gebruiker), past de regels van de deur aan op basis van wat de bezoeker wil, en zorgt ervoor dat alleen de juiste mensen binnenkomen, terwijl de boze mensen buiten blijven.

Het is een goedkopere, snellere en slimmere manier om AI veilig te houden, zonder de creativiteit van de machine te verpletteren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SYSFORMER: SAFEGUARDING FROZEN LARGE LANGUAGE MODELS WITH ADAPTIVE SYSTEM PROMPTS", gepresenteerd in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker ingezet in veiligheidskritische omgevingen, maar ze vertonen vaak gebrekkig gedrag: ze weigeren onschadelijke prompts (overmatige weigering) of genereren schadelijke inhoud. Bestaande oplossingen hebben aanzienlijke nadelen:

Fine-tuning: Het aanpassen van modelparameters is rekenkundig duur, schaalt slecht met modelgrootte, kan nuttige voorkennis wissen en leidt vaak tot overmatige weigering.
Filtering en Post-processing: Methoden zoals prompt-filtering of moderatie na generatie verhogen de inferentiekosten, kunnen nuttige inhoud blokkeren en zijn vaak niet adaptief.
Vaste System Prompts: De meeste gedeployerde LLMs gebruiken een statische systeemprompt die niet reageert op de specifieke context van de gebruikersinput.

Het doel is om de robuustheid van gefixeerde (frozen) LLMs te vergroten zonder de modelparameters aan te passen en zonder de gebruikersinput te filteren, terwijl de nuttige functionaliteit behouden blijft.

Methodologie: Sysformer

De auteurs introduceren Sysformer, een modulaire, transformer-gebaseerde architectuur die als "plug-in" aan de input van een LLM wordt toegevoegd. Het kernidee is dat de systeemprompt niet statisch hoeft te zijn, maar adaptief moet worden aangepast op basis van de gebruikersprompt.

Architectuur:

Sysformer is een vaste diepte (2 lagen) transformer die de initiële systeemprompt ( $S$ ) transformeert in een robuustere versie ( $\hat{S}$ ) in de embedding-ruimte.
De modus werkt door de systeemprompt eerst via een Self-Attention laag te verwerken en vervolgens via een Cross-Attention laag te laten "kijken" naar de gebruikersprompt ( $P$ ).
De output is een aangepaste systeemprompt embedding die samen met de gebruikersprompt wordt ingevoerd in de gefixeerde LLM.

Training en Loss Functies:
Sysformer wordt getraind met een set gelabelde prompts (schadelijk vs. veilig) terwijl de LLM zelf bevroren blijft. De training minimaliseert een gewogen som van verschillende loss-functies:

Refusal Loss ( $L_{ref}$ ): Verhoogt de waarschijnlijkheid dat het model een standaard weigering ("I am sorry I cannot help you") genereert bij schadelijke prompts.
Compliance Loss ( $L_{compl}$ ): Maximaliseert de waarschijnlijkheid van een correcte, nuttige respons bij veilige prompts. Dit kan gebeuren via een vaste template of door de LLM zelf een voorbeeldrespons te laten genereren.
Classification Loss ( $L_{class}$ ): Een lineaire laag bovenop de LLM-embeddings die schadelijke en veilige prompts moet kunnen onderscheiden.
Reconstruction Loss ( $L_{recon}$ ): Zorgt ervoor dat de aangepaste prompt niet te ver afwijkt van de oorspronkelijke intentie van de deployer.
Additional Compliance: Gebruik van een extra instructie-dataset om te voorkomen dat het model overfit op alleen veiligheidstaken.

Complexiteit:
De methode voegt slechts een polynomiale kost toe aan de inferentie (afhankelijk van de promptlengte en embedding-dimensie) en vereist geen extra LLM-calls of caching van grote hoeveelheden data.

Belangrijkste Resultaten

De auteurs hebben Sysformer getest op 5 verschillende LLM-families (Llama-2, Llama-3, Mistral, Phi-3, Zephyr) en twee benchmarks (JailbreakBench en StrongReject).

Verbeterde Veiligheid: Sysformer bereikte tot 80% meer weigeringen voor schadelijke prompts vergeleken met baselines, terwijl de weigering voor veilige prompts met tot 90% werd verminderd.
Prestatie ten opzichte van Fine-tuning: Sysformer presteerde gelijk aan of beter dan LoRA-fine-tuning (een populaire fine-tuning methode), maar zonder de modelparameters te wijzigen.
Generalisatie: Het model generaliseerde uitstekend naar ongezette datasets (getraind op JailbreakBench, getest op StrongReject).
Bestand tegen Jailbreaks: Hoewel Sysformer aanvankelijk faalde tegen geavanceerde jailbreak-aanvallen (zoals GCG of PAIR), bleek het zeer effectief wanneer de trainingsdata werd verrijkt met een klein aantal voorbeelden van deze aanvallen. Dit leidde tot een 100% toename in robuustheid tegen diverse aanvalsstrategieën.
Efficiëntie: De inferentie-overhead is minimaal (gemiddeld 20-30 seconden extra per batch, voornamelijk door de training van de embedding, niet de LLM zelf) en vergelijkbaar met andere methoden zoals SystemEmbedder.

Significantie en Bijdragen

Nieuwe Paradigma: Het paper daagt het concept van een statische systeemprompt uit en bewijst dat adaptieve prompts in de embedding-ruimte een krachtige en goedkope manier zijn om veiligheid te garanderen.
Kosteneffectiviteit: Het biedt een oplossing die geen dure fine-tuning vereist en compatibel is met elke bestaande, gefixeerde LLM. Dit maakt het toegankelijk voor organisaties die geen resources hebben om grote modellen opnieuw te trainen.
Modulariteit: De aanpak is modulair en kan worden gecombineerd met andere veiligheidsmaatregelen of fine-tuning methoden.
Toekomstperspectief: De resultaten suggereren dat variabele systeemprompts een veelbelovend onderzoeksgebied zijn voor veiligheidsmaatregelen en andere toepassingen zoals Retrieval-Augmented Generation (RAG).

Beperkingen:
De studie is beperkt tot modellen tot 8B parameters vanwege rekengrenzen. De methode introduceert een polynomiale kost die afhankelijk is van de promptlengte, wat bij zeer lange contextvensters een bottleneck kan vormen. Er is ook een theoretisch risico dat gebruikersprompts de systeemprompt op een kwaadaardige manier kunnen manipuleren, hoewel dit complexer is dan tekstuele aanvalsmethoden.

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

1. De "Slimme Vertaler" (De Kern van Sysformer)

2. Waarom is dit zo handig?

3. Wat zeggen de resultaten?

Samenvattend

Probleemstelling

Methodologie: Sysformer

Belangrijkste Resultaten

Significantie en Bijdragen

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA