Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Die Studie zeigt, dass State Space Models (SSM) als visuelle Encoder in Vision-Language-Modellen eine leistungsfähige und effizientere Alternative zu herkömmlichen Vision Transformern darstellen, insbesondere da sie bei kompakterer Architektur vergleichbare oder bessere Ergebnisse erzielen und durch gezielte Stabilisierungsstrategien noch robuster werden können.

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

Veröffentlicht 2026-03-20
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Large Vision-Language Model (VLM) ist wie ein sehr kluger, aber blinder Übersetzer. Er kann fließend sprechen (der "Sprachteil"), aber er sieht die Welt nicht selbst. Um ihn sehen zu lassen, hängt man ihm eine Kamera um den Hals (den "Visuellen Encoder").

Bisher hat man fast immer dieselbe Art von Kamera benutzt: eine Transformer-Kamera (wie ein ViT). Sie ist sehr mächtig, aber sie ist auch schwer, teuer und manchmal etwas ungenau, wenn es darum geht, wo genau etwas im Bild ist.

Die Autoren dieser Studie fragen sich nun: "Müssen wir wirklich diese teuren Transformer-Kameras benutzen? Gibt es nicht eine bessere, leichtere Alternative?"

Die Antwort, die sie gefunden haben, ist ein neuer Kameratyp namens State Space Model (SSM), konkret VMamba.

Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Der große Vergleich: Die Kamera-Tausch-Party

Stell dir vor, du hast einen sehr klugen Sprachassistenten (den LLM). Du willst testen, welche Kamera am besten zu ihm passt.

  • Die alten Kameras (Transformer/ViT): Sie schauen sich ein Bild an und zerlegen es in viele kleine Puzzleteile. Sie sind sehr gut darin, zu erkennen, was auf dem Bild ist (z. B. "Das ist ein Hund"). Aber wenn man sie fragt, wo genau der Hund steht, werden sie manchmal etwas ungenau oder verwirrt.
  • Die neue Kamera (SSM/VMamba): Diese Kamera denkt anders. Statt das Bild wie ein riesiges Puzzle zu betrachten, scannt sie es wie ein Leser, der Zeile für Zeile durch einen Text geht, aber in alle Richtungen (hoch, runter, links, rechts). Sie behält den räumlichen Zusammenhang viel besser im Kopf.

Das Ergebnis: Als die Forscher die Kameras in einem kontrollierten Test (gleiche Trainingsdaten, gleiche Größe) austauschten, war die VMamba-Kamera oft die beste. Sie war nicht nur genauso gut beim Beschreiben von Bildern (VQA), sondern übertraf die anderen deutlich, wenn es darum ging, Objekte im Bild zu lokalisieren (z. B. "Zeig mir den Ball").

2. Das Missverständnis: "Größer ist nicht immer besser"

Ein häufiger Irrglaube ist: "Wenn die Kamera auf dem Standard-Test (ImageNet) eine hohe Punktzahl hat, ist sie automatisch die beste für den Sprachassistenten."

  • Die Analogie: Stell dir vor, du hast einen Schüler, der den besten Abschluss in "Objekt-Erkennung" macht. Das bedeutet aber nicht, dass er auch der beste "Raum-Versteher" ist.
  • Die Erkenntnis der Studie: Die Forscher fanden heraus, dass eine sehr große Kamera mit einer perfekten Note auf dem Standard-Test oft schlechter im Sprachmodell abschneidet als eine kleinere, spezialisierte Kamera. Warum? Weil die großen Kameras oft nur das "WAS" lernen (das ist ein Hund), aber das "WO" (wo ist der Hund?) vernachlässigen. Die VMamba-Kamera hingegen behält das "WO" auch bei kleineren Größen im Gedächtnis.

3. Das Problem mit der "Kollaps"-Kamera

Es gab ein seltsames Phänomen: Wenn man Kameras, die für das Erkennen von vielen Objekten trainiert wurden (wie bei der Jagd nach Objekten in einem Bild), direkt in den Sprachassistenten steckte, brach die Leistung manchmal komplett zusammen.

  • Die Analogie: Stell dir vor, du gibst einem Übersetzer eine Kamera, die so viele Details auf einmal liefert, dass er überfordert ist. Er sieht zwar alles, kann aber nichts mehr verstehen. Das nennt die Studie "Lokalisierungs-Kollaps".
  • Die Lösung: Die Forscher haben zwei einfache Tricks gefunden, um das zu reparieren:
    1. Den "Dolmetscher" stärken: Der kleine Teil, der die Bilder in Sprache übersetzt (der Connector), war zu schwach. Wenn man ihn stärker macht, funktioniert es wieder.
    2. Das Format ändern: Manche Kameras liefen besser, wenn man die Bilder in ein quadratisches Format zwang, statt sie in einem schmalen, langen Streifen zu zeigen. Das half dem Sprachmodell, die räumlichen Hinweise besser zu verstehen.

4. Warum ist das wichtig? (Die "Effizienz"-Botschaft)

Bisher dachte man, man brauche riesige, schwere Kameras, um gute Ergebnisse zu erzielen.

  • Die Erkenntnis: Die VMamba-Kamera ist wie ein sportlicher Kleinwagen. Sie ist viel kleiner und verbraucht weniger Energie als die riesigen Limousinen (die großen Transformer), fährt aber in diesem speziellen Rennen (Sprachmodelle mit Bildverständnis) genauso schnell oder sogar schneller.

Zusammenfassung für den Alltag

Die Studie sagt im Grunde:

  1. Nein, wir brauchen keine riesigen Transformer-Kameras mehr. Es gibt eine schlankere, effizientere Alternative (SSM/VMamba), die oft besser funktioniert.
  2. Ortung ist wichtig. Wenn ein KI-Modell verstehen soll, wo Dinge sind, hilft eine Kamera, die den Raum besser "fühlt" (wie VMamba), mehr als eine, die nur das Objekt erkennt.
  3. Man muss die Kamera richtig anschließen. Manchmal liegt das Problem nicht an der Kamera selbst, sondern daran, wie sie mit dem Sprachmodell verbunden ist. Mit ein paar kleinen Einstellungen (stärkere Verbindung, quadratische Bilder) kann man die Leistung enorm steigern.

Fazit: Die Zukunft der Bild-KI könnte nicht in noch größeren, schwereren Modellen liegen, sondern in schlankeren, intelligenteren Architekturen, die den Raum besser verstehen – und das mit weniger Rechenaufwand.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →