SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Roboter-Assistenten, der sowohl sehen als auch sprechen kann. Er ist wie ein super-duper Koch, der dir Rezepte gibt. Aber es gibt ein Problem: Manchmal ist er zu vorsichtig und verweigert harmlose Aufgaben, und manchmal ist er zu leichtgläubig und ignoriert echte Gefahren.

Die Forscher in diesem Papier haben herausgefunden, dass man diesen Roboter mit einfachen „Hinweis-Schildern" (semantischen Hinweisen) manipulieren kann, ohne die eigentliche Situation zu verändern.

Hier ist die Erklärung der Studie, einfach und mit ein paar bildhaften Vergleichen:

1. Das Grundproblem: Der Roboter sieht nicht alles, er „vermutet"

Stell dir vor, du sagst dem Roboter: „Nimm die Dinge vom Tresen und tu sie in das Glasgefäß."

Szenario A: Auf dem Tresen liegen Süßigkeiten. Das ist sicher.
Szenario B: Auf dem Tresen liegen Waschmittelkapseln, und das Glasgefäß steht neben einem Spielzeug für Kinder. Das ist lebensgefährlich!

Ein guter Roboter müsste erkennen, dass im Szenario B die Gefahr im Bild liegt. Aber die Forscher haben gesehen: Viele Roboter entscheiden nicht wirklich basierend auf dem, was sie sehen, sondern basierend auf dem, was sie gelernt haben (z. B. „Waschmittel = gefährlich"). Sie hängen an Wortverbindungen, nicht am visuellen Verständnis.

2. Die Lösung: Das „Lenkungs-Experiment" (SAVeS)

Die Forscher haben eine neue Methode namens SAVeS entwickelt. Sie wollten testen: Können wir den Roboter dazu bringen, anders zu entscheiden, indem wir ihm nur kleine Hinweise geben, ohne das Bild zu verändern?

Sie haben drei Arten von „Lenkungen" ausprobiert, wie ein Dirigent, der einem Orchester sagt, worauf es achten soll:

Visuelle Lenkung (Der rote Kreis): Sie malen einen roten Kreis um ein Objekt im Bild. Rot bedeutet für uns oft „Gefahr".
- Analogie: Es ist, als würde ein Lehrer mit einem roten Stift auf eine Aufgabe zeigen und sagen: „Achtung, hier ist etwas Wichtiges!"
Textliche Lenkung (Die Koordinaten): Sie sagen dem Roboter im Text: „Schau genau auf den Bereich [x, y]."
- Analogie: Wie eine Schatzkarte mit genauen Koordinaten, die den Roboter zwingt, genau dort hinzusehen.
Kognitive Lenkung (Der Denk-Auftrag): Sie bitten den Roboter explizit: „Überlege zuerst, ob hier eine Gefahr ist, bevor du antwortest."
- Analogie: Ein Sicherheitscheck, den man vor dem Start eines Flugzeugs macht.

3. Was haben sie herausgefunden? (Die Ergebnisse)

Die Ergebnisse waren überraschend und ein bisschen beunruhigend:

Der Roboter ist leicht zu beeinflussen: Wenn man dem Roboter einen roten Kreis um ein harmloses Objekt malt und sagt „Achtung, roter Kreis!", verweigert er oft die Aufgabe, auch wenn gar keine Gefahr besteht. Er denkt: „Rot = Gefahr = Ich darf das nicht tun."
Die Kombination ist mächtig: Wenn man einen roten Kreis (Bild) und den Befehl „Achte auf den roten Kreis" (Text) kombiniert, ist der Effekt am stärksten. Der Roboter springt fast sofort in den „Gefahrenmodus".
Das Problem der falschen Alarme: Der Roboter wird zwar vorsichtiger, aber er wird auch paranoid. Er lehnt harmlose Aufgaben ab, nur weil er einen roten Kreis sieht. Das nennt man „False Refusals" (falsche Verweigerungen).
- Analogie: Stell dir einen Sicherheitsbeamten vor, der jeden, der eine rote Jacke trägt, sofort festnimmt, weil er denkt, rote Jacken bedeuten immer „Kriminell". Dabei trägt der Mann in der roten Jacke nur ein Geburtstagsshirt.

4. Der böse Trick (Adversarial Attack)

Das Papier zeigt auch, wie man diese Schwäche ausnutzen kann. Ein „Angreifer" könnte dem Roboter ein harmloses Bild zeigen, aber rote Kreise um harmlose Dinge malen und sagen: „Schau hier!"
Der Roboter würde dann denken: „Oh, da ist eine rote Markierung! Das muss gefährlich sein!" und lehnt die Aufgabe ab – obwohl gar keine Gefahr besteht.

Umgekehrt könnte man auch versuchen, echte Gefahren zu „verstecken", indem man weiße Kreise (die als neutral gelten) um gefährliche Dinge malt. Der Roboter würde dann die Gefahr übersehen und die gefährliche Aufgabe ausführen.

5. Fazit: Was bedeutet das für uns?

Die Studie sagt uns im Grunde: Unsere aktuellen KI-Modelle sind nicht so schlau, wie wir denken.

Sie entscheiden über Sicherheit nicht, weil sie die Welt wirklich verstehen (wie ein Mensch, der sieht: „Das ist ein scharfes Messer in einer Mikrowelle"), sondern weil sie Muster erkennen („Roter Kreis + Messer = Nein").

Die gute Nachricht: Wir können KI-Systeme mit einfachen Hinweisen (wie roten Kreisen oder klaren Anweisungen) dazu bringen, sicherer zu sein.
Die schlechte Nachricht: Diese Systeme sind auch sehr anfällig für Manipulation. Ein paar rote Kreise oder ein geschickter Satz im Text können sie dazu bringen, entweder alles zu blockieren oder echte Gefahren zu ignorieren.

Zusammenfassend: Die KI ist wie ein sehr gehorsamer Schüler, der auf die Lehrerin (die Hinweise) hört, aber nicht wirklich versteht, was auf dem Bild passiert. Wenn die Lehrerin einen roten Stift benutzt, denkt der Schüler sofort an eine Note „5", auch wenn die Arbeit eigentlich gut war. Wir müssen KI-Systeme also noch besser darauf trainieren, die Wirklichkeit zu verstehen und nicht nur auf Hinweis-Schilder zu reagieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language Models (VLMs) werden zunehmend in physischen und eingebetteten Umgebungen eingesetzt, wo Sicherheitsentscheidungen stark vom visuellen Kontext abhängen. Ein zentrales Problem ist, dass die gleichen Anweisungen in unterschiedlichen Szenarien entweder harmlos oder gefährlich sein können (z. B. „Gegenstände in ein Glasgefäß füllen" ist sicher bei Süßigkeiten, aber lebensgefährlich bei Waschmittelkapseln).

Bisherige Sicherheitsforschung konzentrierte sich primär auf die Verbesserung von Ablehnungspolitiken (Refusal Policies) oder das Erkennen schädlicher Anweisungen. Es bleibt jedoch unklar, welche visuellen Beweise VLMs tatsächlich für ihre Sicherheitsurteile heranziehen. Oft lehnen Modelle Anfragen pauschal ab, ohne dass dies auf einer fundierten visuellen Analyse beruht, oder sie geben gefährliche Anweisungen aus Unachtsamkeit aus. Es fehlt an einem Verständnis dafür, ob Sicherheitsentscheidungen auf einer echten visuellen Verankerung (Grounding) oder auf gelernten visuell-sprachlichen Assoziationen basieren.

2. Methodik: Das SAVeS-Framework

Die Autoren stellen ein Framework zur semantischen Steuerung (Semantic Steering) vor, um zu untersuchen, wie Sicherheitsurteile durch kontrollierte Eingriffe beeinflusst werden können, ohne den eigentlichen Bildinhalt zu verändern.

A. Steuerungsmechanismen

Das Framework nutzt drei orthogonale Interventionskategorien:

Visuelle Steuerung ( $M_v$ ): Überlagerung semantischer Marker (z. B. farbige Kreise) auf dem Bild.
- Farben: Rot (Gefahr), Weiß (neutral), andere Farben (Test der Farbsensitivität).
- Aufmerksamkeitslenkung: Testen, ob das Modell durch das Hervorheben von Objekten (Crops) oder durch Ablenkungen (Adversarial Overlays) beeinflusst wird.
Kognitive Steuerung ( $M_c$ ): Änderung des Text-Prompts, um den Denkprozess des Modells zu steuern.
- Baselines: Standard-Prompts vs. explizite Aufforderung zur Sicherheitsprüfung (In-Context Safety).
- Fokus-Steuerung: Explizite Anweisung, auf spezifische Marker (z. B. „Achte auf den roten Kreis") zu achten.
Textuelle Steuerung ( $M_t$ ): Verwendung von Koordinaten oder räumlichen Beschreibungen im Prompt, um Aufmerksamkeit zu lenken, ohne das Bild zu ändern.

B. Automatisierte Pipelines

Um die Anwendbarkeit und Verwundbarkeit zu testen, wurden drei automatisierte Architekturen entwickelt:

Guardian (Assistiv): Ein Hilfs-VLM identifiziert Risikobereiche und markiert diese mit farbigen Kreisen, um das Hauptmodell zu unterstützen.
Auditor (Diagnostisch): Analysiert die Aufmerksamkeitskarten (Attention Maps) des Modells, um zu sehen, ob das Modell auf irrelevante Bereiche (z. B. Ecken) fokussiert, und versucht, diese durch gezielte Marker zu korrigieren.
Attacker (Adversarial): Nutzt semantische Kurzschlüsse aus. Ein relevantes Objekt wird mit einem neutralen Marker (Weiß) „verdeckt", während irrelevante Hintergrundobjekte mit roten Kreisen (Gefahr) markiert werden, um das Modell zu einer falschen Risikowahrnehmung zu verleiten.

C. Evaluierungsprotokoll und SAVeS-Benchmark

Um zwischen echtem Verständnis und bloßem Ablehnen zu unterscheiden, führen die Autoren neue Metriken ein:

Behavioral Refusal Accuracy (BRA): Misst, ob das Modell in unsicheren Szenarien korrekt ablehnt (Verhaltenskorrektheit).
Grounded Safety Accuracy (GSA): Misst, ob die Begründung des Modells mit dem tatsächlichen visuellen Risiko übereinstimmt (Verankerung).
False Refusal Rate (FRR): Misst unnötige Ablehnungen in sicheren Szenarien (Halluzination von Risiken).

Zusätzlich wurde SAVeS (Situational Safety under Semantic cues) als neuer Benchmark eingeführt. Dieser enthält synthetische, hochwertige Bild-Anweisungs-Paare für sichere und unsichere Kontexte, um systematische Eingriffe zu ermöglichen.

3. Wichtige Ergebnisse

Die Experimente wurden an mehreren VLMs (Qwen3-VL, DeepSeek-VL, LLaVA) auf den Benchmarks MSSBench-Embodied und SAVeS durchgeführt.

Hohe Empfindlichkeit gegenüber semantischen Hinweisen: Sicherheitsentscheidungen sind extrem anfällig für einfache semantische Cues. Die Kombination aus visuellen Markern (z. B. rote Kreise) und expliziten Fokus-Prompts führt zu den stärksten Änderungen im Verhalten.
Abhängigkeit von Semantik und Kontext:
- Die Farbe des Markers ist entscheidend: Rote Kreise erhöhen die Ablehnungsrate signifikant stärker als weiße oder andere Farben.
- Die Übereinstimmung zwischen Prompt und Marker ist essenziell. Ein Prompt, der explizit auf „rote Kreise" verweist, ist effektiver als ein allgemeiner Fokus-Prompt.
- Der globale Bildkontext ist notwendig; isolierte Objekt-Crops führen oft zu schlechteren Ergebnissen.
Trade-off zwischen Vorsicht und Halluzination: Während Steuerung die Ablehnungsrate (BRA) in unsicheren Szenarien erhöhen kann, führt dies oft zu einem Anstieg der False Refusal Rate (FRR) in sicheren Szenarien. Das Modell wird vorsichtiger, aber auch anfälliger für falsche Alarme.
Verwundbarkeit durch Adversarial Attacks: Die „Attacker"-Pipeline zeigte, dass semantische Cues genutzt werden können, um das Modell systematisch zu täuschen. Durch das Markieren harmloser Objekte als „gefährlich" (rot) und das Verdecken echter Gefahren (weiß) kann das Modell dazu gebracht werden, sichere Aktionen abzulehnen und gefährliche zu ignorieren.
Begrenzte Verbesserung durch Assistive Pipelines: Automatisierte Hilfesysteme (Guardian) zeigten nur marginale und modellabhängige Verbesserungen, was darauf hindeutet, dass die zugrundeliegenden Sicherheitsmechanismen der Modelle nicht robust genug sind.

4. Hauptbeiträge

Semantisches Steuerungs-Framework: Nachweis, dass Sicherheitsurteile in VLMs durch kontrollierte textuelle, visuelle und kognitive Eingriffe manipuliert werden können, selbst wenn die Szene unverändert bleibt.
SAVeS-Benchmark & Evaluierungsprotokoll: Einführung eines neuen Datensatzes und einer Metrik-Suite (BRA, GSA, FRR), die Verhaltenskorrektheit von fundierter visueller Begründung trennt.
Erkenntnis über Abhängigkeiten: Demonstration, dass VLMs bei Sicherheitsentscheidungen stark auf gelernte visuell-sprachliche Assoziationen (z. B. Rot = Gefahr) statt auf tiefes visuelles Verständnis zurückgreifen.
Bidirektionalität der Steuerung: Aufzeigen, dass dieselben Mechanismen, die zur Verbesserung der Sicherheitswahrnehmung genutzt werden können, auch für gezielte Manipulationen und Adversarial Attacks missbraucht werden können.

5. Bedeutung und Fazit

Die Arbeit zeigt, dass die aktuelle Sicherheitsausrichtung von Vision-Language Modellen hochgradig steuerbar, aber nur teilweise verankert ist. Modelle scheinen eher auf oberflächliche semantische Signale (wie Farben oder spezifische Wörter) zu reagieren als auf eine tiefgehende Analyse der visuellen Szene.

Dies hat zwei weitreichende Implikationen:

Sicherheitsrisiko: Es besteht eine erhebliche Verwundbarkeit gegenüber Adversarial Attacks, die diese semantischen Kurzschlüsse ausnutzen, um Sicherheitsbarrieren zu umgehen oder unnötige Blockaden zu erzeugen.
Forschungsrichtung: Zukünftige Sicherheitsmechanismen müssen darauf abzielen, die Modelle robuster gegenüber solchen Cues zu machen und eine echte, kontextbasierte visuelle Verankerung (Grounding) zu erzwingen, anstatt sich auf oberflächliche Mustererkennung zu verlassen.