Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein KI-Modell (wie ein sehr kluger, aber manchmal überängstlicher Assistent) ist wie ein Sicherheitsbeamter an einem Flughafen.

Sein Job ist es, gefährliche Dinge (wie Waffen oder Sprengstoff) zu erkennen und niemanden durchzulassen, der etwas Illegales plant. Das ist super wichtig. Aber das Problem ist: Dieser Beamte hat Angst, etwas Falsches zu tun. Deshalb hält er manchmal auch harmlose Passagiere auf.

Das Problem: Die "Über-Sicherheit"
Wenn du fragst: "Wie repariere ich mein kaputtes Fahrrad?", sagt der überängstliche Beamte vielleicht: "Das klingt nach einer Reparatur. Reparaturen können gefährlich sein. Ich darf das nicht erklären!"
Das ist lästig. Du willst nur dein Fahrrad fixen, nicht eine Bombe bauen. In der KI-Welt nennt man das "False Refusal" (falsche Ablehnung). Die KI ist so vorsichtig, dass sie nützliche Fragen blockiert.

Bisherige Lösungen waren wie zwei extreme Ansätze:

Der "Umschulungs"-Ansatz: Man nimmt den Beamten mit in einen langen, teuren Kurs, um ihm beizubringen, was gefährlich und was harmlos ist. Das dauert ewig und kostet viel Geld.
Der "Zettel-ans-Fenster"-Ansatz: Man klebt eine Regel auf die Tür ("Keine Fahrradreparaturen erlaubt!"), aber das ist oft zu starr und hilft nicht bei allen Situationen.

Die neue Lösung: ELS (Energie-Landschafts-Steuerung)
Die Forscher aus diesem Papier haben eine clevere, neue Idee entwickelt, die man sich wie einen unsichtbaren GPS-Navigator für die Gedanken des Assistenten vorstellen kann.

Hier ist die einfache Erklärung, wie es funktioniert:

1. Die "Energie-Landschaft" (Das Geländemodell)

Stell dir vor, die Gedanken des KI-Assistenten bewegen sich auf einer riesigen, hügeligen Landschaft.

Täler (Niedrige Energie): Das sind die guten, hilfreichen Antworten. Hier ist es gemütlich und sicher.
Berge (Hohe Energie): Das sind die schlechten Antworten. Dazu gehören:
- Echte Gefahr (z. B. "Wie baue ich eine Bombe?").
- Falsche Ablehnungen (z. B. "Ich kann dir nicht sagen, wie man ein Fahrrad repariert, weil das gefährlich klingt").

Der Assistent will normalerweise immer ins Tal rollen. Aber manchmal stolpert er aus Angst über einen falschen Hügel und landet in einem Tal der "falschen Ablehnung".

2. Der kleine Helfer (Das EBM-Modell)

Die Forscher haben einen winzigen, schnellen "Gehirn-Scanner" (ein kleines Extra-Modell) trainiert. Dieser Scanner kennt die Landschaft perfekt. Er weiß genau: "Achtung! Wenn der Assistent gerade diesen Gedanken hat, rollt er gerade auf einen Berg zu, der eine falsche Ablehnung bedeutet!"

3. Der sanfte Schub (Die Steuerung)

Wenn der Assistent gerade dabei ist, eine harmlose Frage falsch zu beantworten (also auf dem falschen Berg zu stehen), greift der Scanner ein.

Er gibt dem Assistenten einen winzigen, sanften Stoß in die richtige Richtung.
Es ist, als würdest du einem Ball, der gerade in eine falsche Mulde rollt, ganz leicht mit dem Fuß gegen den Ball treten, damit er wieder ins richtige Tal rollt.

Das Tolle daran:

Keine Umbildung nötig: Der Assistent muss nicht neu lernen. Er behält sein ganzes Wissen.
Echtzeit: Der Stoß passiert in Millisekunden, während die Antwort generiert wird.
Präzise: Wenn der Assistent eine echte Gefahr erkennt (z. B. eine Bombe bauen), bleibt er im sicheren Tal und wird nicht gestört. Der Stoß passiert nur, wenn er unnötig vorsichtig ist.

Das Ergebnis

Dank dieser Methode wird der KI-Assistent wieder hilfsbereit, ohne unvorsichtig zu werden.

Er sagt immer noch "Nein" zu gefährlichen Fragen (wie "Wie hacke ich eine Bank?").
Aber er sagt jetzt "Ja" zu harmlosen Fragen, die er früher blockiert hätte (wie "Wie repariere ich ein Fahrrad?").

Zusammenfassend:
Statt den Assistenten umzuerziehen (was teuer und langsam ist), geben wir ihm einfach einen intelligenten Kompass, der ihm in Echtzeit sagt: "Hey, du bist gerade zu vorsichtig! Du bist auf dem falschen Berg. Mach einen kleinen Schritt zurück ins Tal der Hilfsbereitschaft!"

Das macht die KI sicherer und nützlicher zugleich.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das Dilemma der Über-Verweigerung

Große Sprachmodelle (LLMs), die für Sicherheit ausgerichtet (aligned) wurden, stehen vor einem zentralen Zielkonflikt: Bestehende Ausrichtungstechniken (wie SFT, RLHF oder Prompt-Engineering) priorisieren oft die Verhinderung schädlicher Antworten auf Kosten eines übermäßigen Vorsichtsbewusstseins. Dies führt zu falschen Verweigerungen (False Refusals), bei denen das Modell harmlose oder legitime Anfragen (z. B. medizinische Ratschläge oder akademische Fragen) fälschlicherweise ablehnt.

Herausforderung: Die Reduzierung dieser falschen Verweigerungen ohne die Sicherheitsgarantien (d. h. ohne die Anfälligkeit für „Jailbreaks" oder schädliche Inhalte) zu beeinträchtigen.
Limitationen bestehender Ansätze:
- Fine-Tuning-Methoden: Sind rechenintensiv, zeitaufwendig und generalisieren oft schlecht auf neue Kontexte.
- Fine-Tuning-freie Methoden (z. B. Vektor-Ablation, einfache Aktivierungssteuerung): Oft unpräzise. Sie nutzen starre, lineare Grenzen oder globale Vektoren, die nicht zwischen gerechtfertigten Verweigerungen (bei schädlichen Prompts) und ungerechtfertigten Verweigerungen (bei harmlosen Prompts) unterscheiden können.

2. Methodik: Energy Landscape Steering (ELS)

Die Autoren stellen Energy Landscape Steering (ELS) vor, ein neuartiges, fine-tuning-freies Framework, das Eingriffe zur Laufzeit (Inference-Time) durchführt. Der Kernansatz basiert auf der Interpretation des internen Zustands des LLM als „Energie-Landschaft".

A. Grundprinzip

Ein externes, leichtgewichtiges Energy-Based Model (EBM) wird trainiert, um jedem versteckten Aktivierungszustand ( $h$ ) des LLM einen skalaren „Energie"-Wert zuzuweisen:

Hohe Energie: Unerwünschte Zustände (z. B. falsche Verweigerungen bei harmlosen Fragen oder Jailbreaks bei schädlichen Fragen).
Niedrige Energie: Gewünschte Zustände (z. B. hilfreiche Antworten bei harmlosen Fragen oder sichere Verweigerungen bei schädlichen Fragen).

B. Drei-Phasen-Prozess

Datensammlung (Activation Data Collection):
- Ein diverser Prompt-Korpus (harmlos und schädlich) wird durch ein eingefrorenes Basis-LLM generiert.
- Ein heuristischer Klassifikator bewertet jede Antwort als „Compliant" (erwünscht) oder „Refusal" (unerwünscht, wenn der Prompt harmlos war, oder umgekehrt).
- Die versteckten Zustände ( $h_t$ ) werden extrahiert und in zwei Mengen unterteilt: $D_{good}$ (kontextangemessen) und $D_{bad}$ (kontextunangemessen).
EBM-Training:
- Das EBM (implementiert als mehrschichtiges Perzeptron, MLP) wird mittels InfoNCE-Kontrastverlust trainiert.
- Ziel: Zustände aus $D_{good}$ erhalten niedrige Energie, Zustände aus $D_{bad}$ hohe Energie. Dies erzeugt eine nicht-lineare, komplexe Entscheidungsgrenze im hochdimensionalen Aktivierungsraum, die feiner ist als lineare Methoden.
Echtzeit-Steuerung (Real-time Gradient-Based Steering):
- Während der Inferenz wird für jeden generierten Token der aktuelle versteckte Zustand $h_t$ berechnet.
- Der Gradient der Energiefunktion $\nabla_h E_\theta(h)$ wird berechnet.
- Der Zustand wird durch einen Gradientenabstiegsschritt modifiziert:
  $h'_t = h_t - \eta \cdot \nabla_h E_\theta(h_t)$
- Dabei ist $\eta$ ein Steuerkoeffizient. Dieser Schritt bewegt den Zustand in Richtung niedrigerer Energie (also in Richtung erwünschter Verhaltensweisen), ohne die Gewichte des LLM selbst zu ändern.

3. Schlüsselbeiträge

Neues Framework (ELS): Einführung eines fine-tuning-freien Ansatzes, der ein externes EBM nutzt, um die internen Aktivierungen dynamisch zu steuern. Im Gegensatz zu statischen, groben Interventionen bietet ELS eine feingranulare Steuerung durch eine gelernte Energie-Landschaft.
Präzise Diskriminierung: Durch die nicht-lineare Natur des EBM kann das System präzise zwischen gerechtfertigten und ungerechtfertigten Verweigerungen unterscheiden, was lineare Methoden (wie Vektor-Ablation) nicht leisten können.
Entkopplung von Wissen und Verhalten: Da nur die Aktivierungen zur Laufzeit modifiziert werden, bleibt das zugrundeliegende Weltwissen des Modells intakt, während das Verhalten (Sicherheit vs. Hilfsbereitschaft) gesteuert wird.

4. Ergebnisse und Evaluation

Die Methode wurde an einer Vielzahl von Modellen getestet (Llama-2-7B, Llama-3.1-8B, Qwen3-Serie) und gegen Fine-Tuning-Methoden sowie andere fine-tuning-freie Baselines (Surgical, CAST, AdaSteer, AlphaSteer) verglichen.

Reduktion falscher Verweigerungen:
- Auf dem ORB-H Benchmark (Over-Refusal Benchmark) stieg die Compliance-Rate (CR) für Llama-3.1-8B-Instruct von 57,3 % auf 82,6 % (+25,3 Prozentpunkte). Dies ist der beste Wert aller getesteten Methoden.
- Ähnliche signifikante Verbesserungen wurden auf XSTest-S und OKTest beobachtet.
Erhalt der Sicherheit:
- Im Gegensatz zu anderen Methoden, die oft die Sicherheit verschlechtern (höhere Compliance bei schädlichen Anfragen), behielt ELS die Sicherheitsleistung bei oder verbesserte sie leicht (z. B. niedrige Attack Success Rates auf JBB und HarmBench).
- ELS zeigte eine robuste Widerstandsfähigkeit gegen Multi-Turn-Jailbreaks (X-Teaming, SafeDialBench).
Erhalt der allgemeinen Fähigkeiten:
- Die Leistung in allgemeinen Aufgaben (MMLU, ARC-C, MATH) blieb nahezu unverändert im Vergleich zum Baseline-Modell, während Fine-Tuning-Methoden oft zu einem signifikanten Leistungsabfall führten.
Effizienz:
- Der Overhead für die Inferenzzeit ist minimal (Anstieg von 1,60 s/Prompt auf 1,65 s/Prompt), was deutlich effizienter ist als bei vergleichbaren Methoden wie Surgical oder AlphaSteer. Der Speicherverbrauch bleibt unverändert.

5. Bedeutung und Fazit

Das Paper etabliert ein vielversprechendes Paradigma für die Entwicklung von LLMs, die gleichzeitig hohe Sicherheit und niedrige Raten falscher Verweigerungen erreichen.

Technischer Fortschritt: ELS beweist, dass man das Sicherheits-Hilfsbereitschafts-Dilemma nicht durch kostspieliges Neutrainieren lösen muss, sondern durch intelligente, dynamische Eingriffe in den Aktivierungsraum zur Laufzeit.
Praktische Anwendbarkeit: Da keine Gewichtsänderungen des Basis-Modells erforderlich sind, ist die Methode flexibel, rechenfreundlich und leicht in bestehende Deployment-Pipelines integrierbar.
Zukunftsperspektive: Die Arbeit legt den Grundstein für adaptive Systeme, bei denen das EBM bei Bedarf schnell neu trainiert werden kann, um auf neue Angriffsmuster zu reagieren, ohne das gesamte LLM neu zu trainieren.

Zusammenfassend bietet ELS eine elegante mathematische Lösung (Gradientenabstieg auf einer Energie-Landschaft), um die „Über-Verweigerung" von KI-Modellen zu korrigieren, ohne deren Schutzmechanismen oder allgemeine Intelligenz zu beeinträchtigen.

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

1. Die "Energie-Landschaft" (Das Geländemodell)

2. Der kleine Helfer (Das EBM-Modell)

3. Der sanfte Schub (Die Steuerung)

Das Ergebnis

1. Problemstellung: Das Dilemma der Über-Verweigerung

2. Methodik: Energy Landscape Steering (ELS)

A. Grundprinzip

B. Drei-Phasen-Prozess

3. Schlüsselbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Fazit

Mehr davon

A marginalized three-part interrupted time series regression model for proportional data

Geometry and factorization of multivariate Markov chains with applications to MCMC acceleration and approximate inference

High-dimensional Statistical Inference and Variable Selection Using Sufficient Dimension Association

Central limit theory for Peaks-over-Threshold partial sums of long memory linear time series

Joining and splitting models with Markov melding