VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem intelligenten Roboter, der Bilder sieht und darüber sprechen kann. Er ist so schlau, dass er fast alles erkennt. Aber manchmal macht er dumme Fehler. Er sagt zum Beispiel: „Das ist ein Hund", obwohl es eine Katze ist. Und das Schlimme ist: Niemand weiß genau, warum er diesen Fehler macht. Ist es, weil er die Katze nicht richtig sieht? Oder weil er einfach nur denkt, es sei ein Hund, weil er es schon oft so gehört hat?

Das ist das Problem, das die Forscher mit ihrem neuen Werkzeug „VisualScratchpad" lösen wollen.

Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter hat einen „dunklen Keller"

Stell dir den Roboter wie ein riesiges Haus vor. Das Fenster ist die Kamera (der Bild-Teil), und das Gehirn ist der Sprach-Teil, der die Antworten formuliert.
Wenn der Roboter einen Fehler macht, schauen wir normalerweise nur auf das Ergebnis (die Antwort). Aber wir können nicht in den Keller schauen, um zu sehen, welche Gedanken gerade durch sein Gehirn laufen. Die Forscher nennen das „Black Box"-Problem. Wir wissen nicht, welche Details im Bild der Roboter eigentlich „gesehen" hat, bevor er antwortet.

2. Die Lösung: Ein „Notizblock" für den Roboter

Die Forscher haben ein Werkzeug namens VisualScratchpad (zu Deutsch etwa: „Visueller Kladdeblock") entwickelt.
Stell dir vor, du gibst dem Roboter einen magischen Notizblock. Bevor er eine Antwort schreibt, muss er sich auf diesem Block notieren, was er gerade im Bild sieht.

Normalerweise: Der Roboter denkt nur im Kopf und schreibt sofort die Antwort.
Mit VisualScratchpad: Der Roboter muss erst seine Gedanken aufschreiben. Wir können diesen Notizblock lesen!

3. Wie funktioniert das „Schreiben" im Notizblock? (Die Technik einfach erklärt)

Der Roboter nutzt eine spezielle Technik, die wie ein Super-Mikroskop für seine Gedanken wirkt.

Der Bild-Teil (Fenster): Wenn der Roboter ein Bild sieht, zerlegt er es in kleine Puzzleteile (wie Pixel-Gruppen).
Der Notizblock (SAE): Diese Puzzleteile werden in eine riesige Liste von „Begriffen" übersetzt. Statt nur „rotes Ding" zu sehen, erkennt der Roboter jetzt spezifische Konzepte wie „gestrickter Handschuh", „runder Tisch" oder „schattiges Gesicht".
Die Verbindung (Aufmerksamkeit): Das Coolste ist: Der Notizblock zeigt uns genau, welche Begriffe der Roboter gerade benutzt, um eine bestimmte Frage zu beantworten. Wenn er das Wort „Hand" sagt, sehen wir im Notizblock, ob er wirklich auf die „Hand" im Bild schaut oder nur auf einen „Handschuh".

4. Was haben die Forscher herausgefunden? (Die drei Fehler-Typen)

Mit diesem Werkzeug haben sie drei verrückte Fehler gefunden, die Roboter machen:

Fehler 1: Der „Gehörte, aber ignorierte" Hinweis
- Szenario: Der Roboter sieht einen Handschuh an einer Hand. Er weiß also, dass es eine Hand ist. Aber er antwortet trotzdem: „Das ist ein Tisch."
- Warum? Im Notizblock steht zwar „Handschuh", aber der Roboter hat diesen Hinweis nicht mit dem Wort „Hand" verknüpft. Er hat die Information gesehen, aber sie nicht richtig genutzt.
- Lösung: Wenn man dem Roboter die Frage anders stellt („Ist das auf einer Hand mit Handschuh?"), versteht er es plötzlich.
Fehler 2: Der „Falsche Verdächtige"
- Szenario: Ein alter Mann sitzt in einem Rollstuhl. Der Roboter sagt: „Der Mann steht."
- Warum? Der Roboter sieht den Rollstuhl, aber sein Gehirn denkt sofort: „Rollstuhl = Sitzen". Aber er ignoriert, dass der Mann vielleicht steht und sich am Rollstuhl festhält. Er lässt sich von einem falschen Hinweis (dem Rollstuhl) täuschen.
- Lösung: Wenn man den Begriff „Rollstuhl" im Notizblock des Roboters einfach „ausschaltet", erkennt er plötzlich, dass der Mann steht.
Fehler 3: Der „Versteckte Hinweis"
- Szenario: Ein optischer Täuschungsbild (z. B. eine Ente, die auch wie ein Kaninchen aussieht). Der Roboter sagt: „Das ist eine Ente."
- Warum? Im Notizblock sieht man, dass der Roboter beide Ideen hat (Ente und Kaninchen). Aber er entscheidet sich sofort für die Ente und blendet das Kaninchen aus.
- Lösung: Wenn man die „Ente-Idee" im Notizblock löscht und die „Kaninchen-Idee" verstärkt, sagt der Roboter: „Ah, jetzt sehe ich das Kaninchen!"

5. Warum ist das wichtig?

Früher konnten wir nur raten, warum Roboter Fehler machen. Mit VisualScratchpad können wir wie ein Mechaniker unter die Motorhaube schauen.

Wir können sehen, ob der Roboter das Bild wirklich versteht oder nur rät.
Wir können gezielt „Schalter umlegen" (Konzepte löschen oder verstärken), um zu testen, was passiert.
Das hilft uns, sicherere und zuverlässigere KI-Systeme zu bauen, die nicht einfach nur raten, sondern wirklich verstehen.

Zusammenfassend:
VisualScratchpad ist wie ein Fenster in den Kopf einer KI. Es zeigt uns, welche Bilder und Ideen der Roboter gerade denkt, bevor er spricht. So können wir seine Fehler finden und ihn dazu bringen, die Wahrheit zu sagen, statt nur zu raten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) erzielen zwar hohe Leistungen, liefern aber dennoch häufig falsche Antworten. Die Ursachen für diese Fehler sind oft schwer zu erklären, da die internen Mechanismen dieser Modelle schwer interpretierbar sind.

Herausforderung: Es ist unklar, ob Fehler durch unzureichende visuelle Wahrnehmung, die Nutzung irreführender Hinweise oder das Ignorieren relevanter visueller Cues entstehen.
Limitierung bestehender Ansätze: Herkömmliche neuronale Netzwerke nutzen dichte Repräsentationen, bei denen einzelne Neuronen oft durch mehrere, nicht zusammenhängende Konzepte aktiviert werden (Superposition). Sparse Autoencoder (SAEs) können diese Probleme lösen, indem sie Repräsentationen in granulare, semantisch interpretierbare Einheiten zerlegen. Bisher fehlte jedoch eine systematische Schnittstelle, um diese SAE-Latents (versteckte Merkmale) während der Inferenz in VLMs zu analysieren, zu debuggen und kausal zu testen.

2. Methodik: VisualScratchpad

Die Autoren stellen VisualScratchpad vor, eine interaktive Benutzeroberfläche, die eine Pipeline für die Analyse von visuellen Konzepten während der Inferenz bereitstellt. Der Ansatz besteht aus folgenden Kernkomponenten:

A. Extraktion visueller Konzepte mittels SAE

Architektur: Es werden Sparse Autoencoder (SAEs) direkt auf den Vision-Encoder (frozen CLIP-ViT-large) angewendet, nicht auf die Sprachmodell-Schichten.
Prozess: Die Bild-Token-Repräsentationen ( $z$ ) werden durch den SAE geleitet, um eine hochdimensionale, sparse Basis von Latents ( $h$ ) zu erzeugen (Expansionsfaktor 32, von 1024 auf 32.768 Dimensionen).
Ziel: Dies ermöglicht die Identifikation granularer visueller Konzepte (z. B. Texturen, Objekte, Szenen), die vom Vision-Encoder erfasst werden.

B. Verknüpfung mit Text-Token via Attention

Um zu verstehen, welche visuellen Konzepte vom Sprachmodell tatsächlich genutzt werden, verknüpfen die Autoren die SAE-Latents mit den Text-Token:

Attention-Mapping: Die Attention-Gewichte von Text-Token zu Bild-Patches (Cross-Attention) werden extrahiert.
Attention-Weighted Averaging: Anstatt alle Bild-Patches gleich zu gewichten, werden die SAE-Aktivierungen patchweise mit der Attention-Map multipliziert.
Effekt: Konzepte, die in von der Text-Aufmerksamkeit stark fokussierten Bildregionen aktiv sind, werden in der Rangliste nach oben verschoben. Dies filtert irrelevante visuelle Informationen heraus und zeigt, welche Konzepte für die aktuelle Sprachgenerierung relevant sind.

C. Kausalanalyse und Latent-Ablation

Um die kausale Wirkung dieser Konzepte zu verifizieren:

Ablation: Die Aktivierung ausgewählter Latents wird auf Null gesetzt (oder auf einen benutzerdefinierten Wert geändert) und die Ausgabe des Modells wird neu generiert.
Token-Latent Heatmap: Da SAE-Latents oft hierarchisch oder korreliert sind, wird eine Heatmap erstellt, die Latents basierend auf ihrer Aktivierungsähnlichkeit über die Ausgabe-Token hinweg clustert. Dies hilft Benutzern, eine ausreichende Menge an Latents für ein effektives „Concept Steering" (gezielte Manipulation) zu identifizieren, ohne dass das Konzept durch andere korrelierte Latents wiederhergestellt wird.

D. Die Benutzeroberfläche

VisualScratchpad bietet vier Hauptkomponenten:

SAE-Latent-Exploration: Statistiken und UMAP-Visualisierungen von Konzeptclustern.
Modell-Inferenz: Unterstützung für VQA (Visual Question Answering) und CLIP-Klassifizierung.
Interne Beobachtung: Darstellung von Attention-Karten, Token-Latent-Heatmaps und Aktivierungs-Masken.
Interne Modifikation: Möglichkeit, Latents zu manipulieren (ablatieren oder verstärken), um die Ausgabe kausal zu steuern.

3. Wichtige Beiträge

Neue Schnittstelle: Einführung von VisualScratchpad als erste integrierte Umgebung für SAE-basierte Konzeptanalyse, Inferenz-Debugging und kausale Tests speziell für multimodale Modelle.
Methodischer Fortschritt: Demonstration, dass die direkte Anwendung von SAEs auf den Vision-Encoder in Kombination mit Text-to-Image-Attention effektiver ist als die Analyse innerhalb des Sprachmodells, da dies Verwirrungen durch Projektionsschichten vermeidet.
Identifikation von Fehlermodi: Durch Fallstudien wurden drei bisher wenig untersuchte Fehlermodi in VLMs aufgedeckt.

4. Ergebnisse und Fallstudien

Die Autoren analysierten das Modell LLaVA-Next-8B und identifizierten drei Hauptfehlerkategorien:

Fall 1: Begrenzte cross-modale Ausrichtung (Limited Cross-Modal Alignment):
- Szenario: Das Modell erkennt das visuelle Konzept „Hand mit Handschuh" korrekt (hohe Aktivierung), antwortet aber falsch („auf einer Oberfläche").
- Ursache: Das visuelle Konzept „Handschuh" ist nicht semantisch gut mit dem linguistischen Konzept „Hand" im Sprachmodell verknüpft.
- Lösung: Durch präzisere Prompting („Hand mit Handschuh") konnte die Antwort korrigiert werden.
Fall 2: Irreführende visuelle Hinweise (Misleading Visual Cues):
- Szenario: Ein älterer Mensch wird als „sitzend" klassifiziert, obwohl er steht. Das Modell aktiviert Konzepte wie „Rollstuhl" oder „Sitz", obwohl diese im Bild nicht dominant sind, aber assoziativ mit der Person verknüpft werden.
- Ursache: Das Modell verlässt sich auf assoziative, aber semantisch falsche Hinweise.
- Lösung: Durch Ablation der „Sitz"-Konzepte änderte sich die Vorhersage korrekt zu „stehend".
Fall 3: Ungenutzte verborgene Hinweise (Unused Hidden Cues):
- Szenario: Bei einem optischen Täuschungsbild (Ente/Kaninchen) beschreibt das Modell nur die „Ente", obwohl auch „Kaninchen"-Konzepte aktiviert sind.
- Ursache: Das Modell kodiert reichhaltigere visuelle Informationen intern, nutzt aber nur die dominantesten Konzepte für die Ausgabe.
- Lösung: Durch Ablation der „Ente"-Latents und Verstärkung der „Kaninchen"-Latents konnte die Ausgabe erfolgreich geändert werden.

5. Bedeutung und Ausblick

Debugging-Tool: VisualScratchpad bietet einen systematischen Weg, um zu verstehen, warum VLMs scheitern, anstatt nur zu beobachten, dass sie scheitern.
Vertrauenswürdige KI: Die Arbeit trägt zur „Principled Design for Trustworthy AI" bei, indem sie Transparenz in die Blackbox von Multimodal-Modellen bringt.
Zukunftspotenzial: Die Methode ebnet den Weg für automatisiertes Debugging, die Verbesserung der cross-modalen Ausrichtung und die Anwendung ähnlicher Techniken auf andere multimodale Architekturen.
Limitationen: Der Ansatz erfasst nicht explizit, wie Bild-Token-Repräsentationen innerhalb des Sprachmodells während der cross-modalen Verarbeitung transformiert werden, und die aktuelle Schnittstelle ist eher für interaktive Analysen als für vollständig automatisierte Großexperimente ausgelegt.

Zusammenfassend stellt VisualScratchpad einen bedeutenden Schritt hin zu einer mechanistischen Interpretierbarkeit von Vision-Language-Modellen dar, indem es die Lücke zwischen visuellen Merkmalen und sprachlicher Generierung durch SAEs und Attention-Mechanismen überbrückt.