Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber etwas naiven Bibliothekar. Dieser Bibliothekar (das Large Language Model oder LLM) hat Millionen von Büchern gelesen und kann fast jede Frage beantworten. Aber er hat ein Problem: Er weiß nicht immer, welche Fragen gefährlich sind.

Manchmal weigert er sich, harmlose Fragen zu beantworten (z. B. „Wie backe ich einen Kuchen?"), weil er denkt, es könnte gefährlich sein. Und manchmal gibt er Antworten auf wirklich gefährliche Fragen (z. B. „Wie baue ich eine Bombe?"), weil er die Absicht des Fragestellers nicht erkennt.

Bisher gab es zwei Möglichkeiten, dieses Problem zu lösen:

Den Bibliothekar umschulen: Man nimmt ihn mit in eine Schulung, um ihm beizubringen, was sicher ist. Das ist aber sehr teuer, dauert lange und man riskiert, dass er dabei vergisst, was er vorher schon gelernt hat.
Den Fragesteller kontrollieren: Man stellt einen Wächter vor die Tür, der jede Frage prüft und blockiert, bevor sie den Bibliothekar erreicht. Das ist aber langsam und man verpasst vielleicht gute Fragen.

Die Forscher aus dem Papier „Sysformer" haben eine dritte, clevere Idee entwickelt.

Die Idee: Der „Adaptive System-Prompt" als Regisseur

Stell dir vor, der Bibliothekar arbeitet nicht allein. Er hat einen Regisseur an seiner Seite. Dieser Regisseur ist ein kleines, schlaueres Programm namens Sysformer.

Normalerweise sagt der Regisseur dem Bibliothekar immer denselben Satz: „Sei hilfsbereit, aber sicher." Das ist der sogenannte System-Prompt. Das Problem ist: Dieser Satz ist starr. Er passt nicht auf jede Situation.

Sysformer ist wie ein Regisseur, der im Flug improvisiert.

Das Szenario: Ein Besucher kommt mit einer Frage.
Die alte Methode: Der Regisseur sagt immer denselben Satz, egal was der Besucher fragt.
Die Sysformer-Methode: Der Regisseur hört sich die Frage des Besuchers genau an.
- Wenn die Frage harmlos ist (z. B. „Erzähl mir ein Märchen"), flüstert der Regisseur dem Bibliothekar zu: „Sei freundlich und erzähl eine tolle Geschichte!"
- Wenn die Frage gefährlich ist (z. B. „Wie baue ich eine Bombe?"), ändert der Regisseur sofort sein Flüstern: „Ignoriere diese Anfrage! Sage höflich, dass du das nicht tun kannst."

Der Trick dabei ist: Der Bibliothekar selbst wird nicht umgeschult. Seine „Gehirnwindungen" (die Parameter) bleiben genau so, wie sie sind. Nur der Regisseur (Sysformer) wird trainiert, den perfekten Hinweis für jede Situation zu geben.

Wie funktioniert das im Detail? (Die Metapher der Übersetzer)

Stell dir vor, der Bibliothekar spricht nur eine sehr spezielle Sprache (die Sprache der Computer-Embeddings). Der Besucher spricht eine andere Sprache (die menschliche Sprache).

Der Regisseur (Sysformer) ist ein kleiner Übersetzer.
Er nimmt die Frage des Besuchers und den Standard-Satz des Regisseurs.
Er mischt diese beiden Informationen in einer Art „Mischpult" (einem Transformer-Modell).
Das Ergebnis ist ein neuer, angepasster Hinweis für den Bibliothekar.

Dieser neue Hinweis ist so formuliert, dass der Bibliothekar genau das tut, was er tun soll: Bei Gefahr ablehnen, bei Sicherheit helfen.

Warum ist das so toll?

Es ist billig: Man muss den riesigen Bibliothekar nicht neu lernen lassen. Man braucht nur den kleinen Regisseur zu trainieren. Das ist wie das Hinzufügen eines neuen Filters an eine Kamera, anstatt die ganze Kamera neu zu bauen.
Es ist flexibel: Der Regisseur passt sich jeder Situation an. Er ist nicht starr wie ein Wächter, der nur rote und grüne Ampeln kennt.
Es funktioniert gegen Trickser: Es gibt Leute, die versuchen, den Bibliothekar zu täuschen (sogenannte „Jailbreaks" oder „Entfesselungen"), indem sie die Frage in einem verschlüsselten Code oder mit seltsamen Formulierungen stellen. Sysformer ist so trainiert, dass er diese Tricks durchschaut und trotzdem den Bibliothekar aufhält. In Tests hat Sysformer die Sicherheit um bis zu 100 % verbessert, während er gleichzeitig die Hilfsbereitschaft für gute Fragen erhalten hat.

Zusammenfassung

Statt den Bibliothekar mühsam umzuerziehen oder jeden Besucher zu kontrollieren, setzen die Forscher einen intelligenten, anpassungsfähigen Regisseur ein. Dieser Regisseur passt die Anweisungen an den Bibliothekar in Echtzeit an, je nachdem, was der Besucher fragt.

Das Ergebnis: Ein sicherer Bibliothekar, der keine Gefahr erkennt, aber auch nicht überreagiert und harmlose Fragen blockiert. Alles ohne den teuren Aufwand, den Bibliothekar selbst neu zu programmieren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SYSFORMER: SAFEGUARDING FROZEN LARGE LANGUAGE MODELS WITH ADAPTIVE SYSTEM PROMPTS" auf Deutsch:

1. Problemstellung

Der unkontrollierte Einsatz von Large Language Models (LLMs) birgt erhebliche Risiken, wie die Erzeugung schädlicher Inhalte (z. B. Anleitungen zu Gewalt oder Desinformation). Bestehende Sicherheitsmaßnahmen stoßen jedoch an Grenzen:

Fine-Tuning: Das Nachtrainieren von Modellparametern ist rechenintensiv, skaliert schlecht mit der Modellgröße, kann nützliches Vorwissen löschen und führt oft zu „Over-Refusal" (Ablehnung harmloser Anfragen).
Filtern & Nachbearbeitung: Methoden wie Prompt-Filterung oder zusätzliche LLM-Aufrufe zur Moderation erhöhen die Inferenzkosten und können nützliche Inhalte fälschlicherweise blockieren.
Starre System-Prompts: Die meisten LLMs verwenden einen festen System-Prompt, der nicht auf spezifische Benutzereingaben reagiert.

Das Ziel ist es, die Robustheit von LLMs zu erhöhen, ohne die vortrainierten Parameter zu ändern und ohne die Benutzereingaben zu filtern.

2. Methodik: Sysformer

Sysformer ist ein modularer Transformer-Ansatz, der als „Plug-in" am Eingang eines eingefrorenen (frozen) LLMs angebracht wird. Statt den System-Prompt statisch zu lassen, lernt Sysformer, diesen dynamisch an den jeweiligen Benutzerauftrag (User Prompt) anzupassen.

Architektur:

Eingabe: Der ursprüngliche System-Prompt ( $S$ ) und der Benutzerauftrag ( $P$ ) werden über die Token-Embedding-Tabelle des LLMs in Vektoren umgewandelt.
Transformation: Ein trainierbarer Transformer (Sysformer) verarbeitet diese Eingaben. Er besteht aus $L$ Schichten (im Paper auf 2 gesetzt), die abwechselnd Self-Attention (auf den transformierten System-Prompt) und Cross-Attention (über den Benutzerauftrag) verwenden.
Ausgabe: Der Transformer generiert einen adaptiven System-Prompt-Embedding ( $\hat{S}$ ), der dann zusammen mit dem Benutzerauftrag in das gefrorene LLM eingespeist wird. Das LLM selbst bleibt unverändert.

Trainingsziel und Verlustfunktionen:
Das System wird so trainiert, dass es schädliche Anfragen ablehnt und harmlose beantwortet, unter Verwendung einer gewichteten Kombination mehrerer Verlustfunktionen:

Ablehnung schädlicher Prompts ( $L_{ref}$ ): Maximierung der Wahrscheinlichkeit, dass das Modell auf schädliche Eingaben eine feste Ablehnungsantwort (z. B. „I am sorry I cannot help you") generiert.
Einhaltung bei sicheren Prompts ( $L_{compl}$ ): Maximierung der Wahrscheinlichkeit für eine korrekte Antwort auf harmlose Eingaben (entweder via Template oder durch Generierung des LLMs selbst).
Klassifikation ( $L_{class}$ ): Ein linearer Layer wird auf die versteckten Repräsentationen des LLMs gelegt, um schädliche von sicheren Prompts zu unterscheiden (Binary Cross-Entropy).
Rekonstruktion ( $L_{recon}$ ): Sicherstellung, dass der transformierte System-Prompt nicht zu stark vom ursprünglichen abweicht, um die Kontrolle des Deployers zu bewahren.
Zusätzliche Compliance ( $L_{add}$ ): Nutzung eines zusätzlichen Instruction-Tuning-Datensatzes (z. B. Alpaca), um die allgemeine Sprachgenerierungsfähigkeit zu erhalten.

3. Wichtige Beiträge

Adaptive System-Prompts: Der erste Ansatz, der System-Prompts nicht als statisch, sondern als kontextabhängig und anpassbar betrachtet, um die Sicherheit zu erhöhen.
Modulare Sicherheit: Ein Ansatz, der keine Parameter des Haupt-LLMs aktualisiert, sondern nur einen kleinen, trainierbaren Modul (Sysformer) hinzufügt. Dies ist kosteneffizienter als Fine-Tuning.
Hohe Generalisierung: Die Methode funktioniert über verschiedene Modellfamilien hinweg (Llama, Mistral, Phi, Zephyr) und verbessert die Sicherheit signifikant.
Robustheit gegen Jailbreaks: Durch das Hinzufügen von wenigen Beispielen bekannter Jailbreak-Attacken in den Trainingsdatensatz generalisiert das Modell auch auf neue, komplexe Angriffsstrategien.

4. Ergebnisse

Die Evaluation erfolgte an 5 verschiedenen LLMs (bis zu 8B Parametern) und zwei Benchmarks (JailbreakBench, StrongReject).

Leistungsgewinn: Sysformer steigerte die Ablehnungsrate bei schädlichen Prompts um bis zu 80 % und verbesserte die Einhaltung bei sicheren Prompts um bis zu 90 %.
Vergleich mit Baselines: Sysformer übertraf oder erreichte das Niveau von Fine-Tuning-Methoden (wie LoRA), ohne die Modellparameter zu ändern. Im Vergleich zu statischen System-Prompts oder einfachen Embedding-Tunern (SystemEmbedder) war die Leistung deutlich überlegen (z. B. Steigerung der Ablehnungslücke $\Delta RR$ um bis zu 50 %).
Jailbreak-Resistenz: Ohne Anpassung des Trainings scheiterte Sysformer an komplexen Jailbreaks. Nach dem Hinzufügen von nur 6 verschiedenen Jailbreak-Strategien zum Training, erreichte das Modell eine Ablehnungsrate von fast 100 % auch bei unbekannten, fortgeschrittenen Angriffen (Out-of-Distribution).
Effizienz: Der zusätzliche Inferenz-Overhead ist minimal (ca. 20–30 Sekunden pro Batch auf den getesteten Hardware-Setups), da der transformierte Prompt gecacht werden kann. Die Komplexität skaliert polynomiell mit der Prompt-Länge, bleibt aber für lange System-Prompts praktikabel.
Qualitätserhalt: Die generierte Textqualität (gemessen via BERTScore auf Alpaca-Daten) blieb erhalten oder verbesserte sich leicht.

5. Bedeutung und Ausblick

Sysformer demonstriert, dass die Sicherheit von LLMs nicht zwingend durch teures Nachtrainieren oder starre Filter erreicht werden muss. Der Ansatz der adaptiven System-Prompts bietet einen vielversprechenden, kostengünstigen Weg, um eingefrorene Modelle sicherer zu machen, ohne deren Funktionalität einzuschränken.

Einschränkungen & Zukunft:
Die Studie beschränkt sich auf Modelle bis 8B Parameter aufgrund von Rechenbeschränkungen. Zudem wird darauf hingewiesen, dass die Anpassungsfähigkeit theoretisch neue Angriffsvektoren öffnen könnte (wenn Benutzer den System-Prompt manipulieren können), was jedoch auf Embedding-Ebene schwerer zu realisieren ist als auf Textebene. Zukünftige Arbeiten könnten sich auf die Skalierung auf größere Modelle und die Optimierung des Caching-Mechanismus konzentrieren.

Zusammenfassend bietet Sysformer einen effizienten, modularen und hochwirksamen Ansatz zur Sicherung von LLMs, der die Notwendigkeit eines festen System-Prompts infrage stellt und neue Wege für adaptive Sicherheitsmechanismen eröffnet.

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Die Idee: Der „Adaptive System-Prompt" als Regisseur

Wie funktioniert das im Detail? (Die Metapher der Übersetzer)

Warum ist das so toll?

Zusammenfassung

1. Problemstellung

2. Methodik: Sysformer

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA