VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Die Arbeit stellt VisualScratchpad vor, eine interaktive Schnittstelle, die mithilfe von Sparse Autoencodern und Text-zu-Bild-Aufmerksamkeit visuelle Konzepte in Vision-Language-Modellen analysiert, um deren Fehlermodi wie unzureichende Cross-Modal-Ausrichtung oder irreführende visuelle Konzepte aufzudecken und zu debuggen.

Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem intelligenten Roboter, der Bilder sieht und darüber sprechen kann. Er ist so schlau, dass er fast alles erkennt. Aber manchmal macht er dumme Fehler. Er sagt zum Beispiel: „Das ist ein Hund", obwohl es eine Katze ist. Und das Schlimme ist: Niemand weiß genau, warum er diesen Fehler macht. Ist es, weil er die Katze nicht richtig sieht? Oder weil er einfach nur denkt, es sei ein Hund, weil er es schon oft so gehört hat?

Das ist das Problem, das die Forscher mit ihrem neuen Werkzeug „VisualScratchpad" lösen wollen.

Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter hat einen „dunklen Keller"

Stell dir den Roboter wie ein riesiges Haus vor. Das Fenster ist die Kamera (der Bild-Teil), und das Gehirn ist der Sprach-Teil, der die Antworten formuliert.
Wenn der Roboter einen Fehler macht, schauen wir normalerweise nur auf das Ergebnis (die Antwort). Aber wir können nicht in den Keller schauen, um zu sehen, welche Gedanken gerade durch sein Gehirn laufen. Die Forscher nennen das „Black Box"-Problem. Wir wissen nicht, welche Details im Bild der Roboter eigentlich „gesehen" hat, bevor er antwortet.

2. Die Lösung: Ein „Notizblock" für den Roboter

Die Forscher haben ein Werkzeug namens VisualScratchpad (zu Deutsch etwa: „Visueller Kladdeblock") entwickelt.
Stell dir vor, du gibst dem Roboter einen magischen Notizblock. Bevor er eine Antwort schreibt, muss er sich auf diesem Block notieren, was er gerade im Bild sieht.

  • Normalerweise: Der Roboter denkt nur im Kopf und schreibt sofort die Antwort.
  • Mit VisualScratchpad: Der Roboter muss erst seine Gedanken aufschreiben. Wir können diesen Notizblock lesen!

3. Wie funktioniert das „Schreiben" im Notizblock? (Die Technik einfach erklärt)

Der Roboter nutzt eine spezielle Technik, die wie ein Super-Mikroskop für seine Gedanken wirkt.

  • Der Bild-Teil (Fenster): Wenn der Roboter ein Bild sieht, zerlegt er es in kleine Puzzleteile (wie Pixel-Gruppen).
  • Der Notizblock (SAE): Diese Puzzleteile werden in eine riesige Liste von „Begriffen" übersetzt. Statt nur „rotes Ding" zu sehen, erkennt der Roboter jetzt spezifische Konzepte wie „gestrickter Handschuh", „runder Tisch" oder „schattiges Gesicht".
  • Die Verbindung (Aufmerksamkeit): Das Coolste ist: Der Notizblock zeigt uns genau, welche Begriffe der Roboter gerade benutzt, um eine bestimmte Frage zu beantworten. Wenn er das Wort „Hand" sagt, sehen wir im Notizblock, ob er wirklich auf die „Hand" im Bild schaut oder nur auf einen „Handschuh".

4. Was haben die Forscher herausgefunden? (Die drei Fehler-Typen)

Mit diesem Werkzeug haben sie drei verrückte Fehler gefunden, die Roboter machen:

  • Fehler 1: Der „Gehörte, aber ignorierte" Hinweis

    • Szenario: Der Roboter sieht einen Handschuh an einer Hand. Er weiß also, dass es eine Hand ist. Aber er antwortet trotzdem: „Das ist ein Tisch."
    • Warum? Im Notizblock steht zwar „Handschuh", aber der Roboter hat diesen Hinweis nicht mit dem Wort „Hand" verknüpft. Er hat die Information gesehen, aber sie nicht richtig genutzt.
    • Lösung: Wenn man dem Roboter die Frage anders stellt („Ist das auf einer Hand mit Handschuh?"), versteht er es plötzlich.
  • Fehler 2: Der „Falsche Verdächtige"

    • Szenario: Ein alter Mann sitzt in einem Rollstuhl. Der Roboter sagt: „Der Mann steht."
    • Warum? Der Roboter sieht den Rollstuhl, aber sein Gehirn denkt sofort: „Rollstuhl = Sitzen". Aber er ignoriert, dass der Mann vielleicht steht und sich am Rollstuhl festhält. Er lässt sich von einem falschen Hinweis (dem Rollstuhl) täuschen.
    • Lösung: Wenn man den Begriff „Rollstuhl" im Notizblock des Roboters einfach „ausschaltet", erkennt er plötzlich, dass der Mann steht.
  • Fehler 3: Der „Versteckte Hinweis"

    • Szenario: Ein optischer Täuschungsbild (z. B. eine Ente, die auch wie ein Kaninchen aussieht). Der Roboter sagt: „Das ist eine Ente."
    • Warum? Im Notizblock sieht man, dass der Roboter beide Ideen hat (Ente und Kaninchen). Aber er entscheidet sich sofort für die Ente und blendet das Kaninchen aus.
    • Lösung: Wenn man die „Ente-Idee" im Notizblock löscht und die „Kaninchen-Idee" verstärkt, sagt der Roboter: „Ah, jetzt sehe ich das Kaninchen!"

5. Warum ist das wichtig?

Früher konnten wir nur raten, warum Roboter Fehler machen. Mit VisualScratchpad können wir wie ein Mechaniker unter die Motorhaube schauen.

  • Wir können sehen, ob der Roboter das Bild wirklich versteht oder nur rät.
  • Wir können gezielt „Schalter umlegen" (Konzepte löschen oder verstärken), um zu testen, was passiert.
  • Das hilft uns, sicherere und zuverlässigere KI-Systeme zu bauen, die nicht einfach nur raten, sondern wirklich verstehen.

Zusammenfassend:
VisualScratchpad ist wie ein Fenster in den Kopf einer KI. Es zeigt uns, welche Bilder und Ideen der Roboter gerade denkt, bevor er spricht. So können wir seine Fehler finden und ihn dazu bringen, die Wahrheit zu sagen, statt nur zu raten.