LanteRn: Latent Visual Structured Reasoning

Each language version is independently generated for its own context, not a direct translation.

LanteRn: Wie KI lernt, Bilder im Kopf zu „sehen", statt sie nur zu beschreiben

Stellen Sie sich vor, Sie versuchen, einem Freund zu erklären, wie ein kompliziertes Puzzle aussieht, aber Sie dürfen nur sprechen – keine Bilder zeigen, keine Gesten machen. Sie müssten sagen: „Da ist ein rotes Stück oben links, daneben ein blaues mit einem weißen Rand..." Das ist mühsam, ungenau und langsam. Genau das tun heutige große KI-Modelle (LMMs), wenn sie Bilder analysieren: Sie wandeln jedes Bild sofort in Worte um und „denken" dann nur noch in Text.

Die Forscher hinter LanteRn (Latent Visual Structured Reasoning) haben eine geniale Idee entwickelt: Warum muss die KI das Bild in Worte verwandeln, bevor sie darüber nachdenkt? Warum kann sie nicht einfach Gedankenbilder in ihrem „Kopf" behalten?

Hier ist die einfache Erklärung, wie LanteRn funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Übersetzer", der zu viel sagt

Stellen Sie sich die aktuelle KI wie einen sehr geschwätzigen Dolmetscher vor. Wenn Sie ihm ein Bild zeigen, übersetzt er sofort jedes Detail in eine lange Textliste.

Das Problem: Bilder sind komplex und voller Details (wie ein riesiger, detaillierter Teppich). Text ist wie ein schmales Rohr. Wenn man den ganzen Teppich durch das Rohr quetschen will, gehen viele Details verloren. Die KI verliert den räumlichen Überblick und macht Fehler bei Aufgaben, die ein gutes „Gefühl" für das Bild erfordern.

2. Die Lösung: LanteRn – Der „Innere Bildhauer"

LanteRn gibt der KI die Fähigkeit, zwei Arten von Gedanken zu haben:

Worte: Wie gewohnt, um zu sprechen und zu antworten.
Latente Gedankenbilder: Das ist das Neue. Anstatt das Bild in Worte zu fassen, behält die KI eine Art kompakte, unsichtbare Skizze in ihrem Inneren.

Die Analogie:
Stellen Sie sich vor, Sie lösen ein Rätsel.

Ohne LanteRn: Sie müssten laut sagen: „Ich sehe einen Fahrradständer, daneben ein Parkometer..." und versuchen, sich das Bild im Kopf zu merken, während Sie sprechen.
Mit LanteRn: Die KI schaut auf das Bild und sagt: „Moment, ich mache mir erst eine innere Skizze." Sie speichert diese Skizze als einen unsichtbaren, mathematischen „Gedankenblock" (ein Latent Embedding). Sie kann dann mit dieser Skizze „arbeiten", sie drehen, zoomen oder vergleichen, ohne sie in Worte zu kleiden. Erst wenn sie die Antwort weiß, spricht sie aus.

3. Wie wird die KI dazu gebracht, das zu lernen? (Der zweistufige Trainingsplan)

Die Forscher haben die KI in zwei Schritten trainiert, wie einen Schüler, der erst lernt, zu malen, und dann lernt, ein Meisterwerk zu schaffen.

Schritt 1: Der Malunterricht (Supervised Fine-Tuning)

Was passiert: Die KI bekommt Bilder und Aufgaben. Sie muss lernen, ihre „inneren Skizzen" so zu zeichnen, dass sie genau dem entsprechen, was ein menschlicher Experte im Bild sieht.
Die Metapher: Ein Lehrer (der visuelle Encoder) zeigt der KI: „Schau, hier ist das Fahrrad. Deine innere Skizze muss genau so aussehen wie meine." Die KI lernt also, ihre unsichtbaren Gedanken mit der Realität abzugleichen. Sie lernt, das Bild korrekt im „Kopf" zu speichern.

Schritt 2: Der Meister-Check (Reinforcement Learning)

Was passiert: Jetzt ist die KI gut im Malen, aber vielleicht malt sie Dinge, die zwar realistisch aussehen, aber für die Aufgabe nicht helfen. In diesem Schritt bekommt die KI keine Anweisungen mehr, wie sie malen soll. Stattdessen bekommt sie nur ein Ergebnis: „Richtig" oder „Falsch".
Die Metapher: Die KI ist jetzt wie ein Detektiv. Sie darf ihre inneren Skizzen so verändern, wie sie will, solange sie am Ende die richtige Antwort findet. Wenn sie eine Skizze macht, die ihr hilft, das Fahrrad schneller zu finden, bekommt sie einen Punkt. Sie lernt also, ihre „Gedankenbilder" nicht nur realistisch, sondern nützlich zu machen. Sie lernt, das Wichtigste im Bild hervorzuheben und unwichtige Details wegzulassen.

4. Warum ist das so toll?

Effizienz: Die KI muss nicht jedes Detail in Worte kleiden. Das spart Zeit und Rechenleistung.
Präzision: Bei Aufgaben wie „Wo genau steht das Fahrrad im Verhältnis zum Parkometer?" ist eine innere Skizze viel besser als eine Beschreibung. Die KI „sieht" die Beziehung direkt in ihren Gedanken, statt sie erst in Worte zu übersetzen.
Ergebnis: In Tests hat LanteRn gezeigt, dass es bei Aufgaben, die ein gutes räumliches Verständnis erfordern, deutlich besser ist als Modelle, die nur in Text denken.

Zusammenfassung

LanteRn ist wie eine KI, die gelernt hat, mit Bildern zu denken, statt nur über Bilder zu sprechen. Sie nutzt unsichtbare „Gedankenbilder" als Werkzeug, um komplexe Rätsel zu lösen, bevor sie überhaupt ein Wort sagt. Es ist ein großer Schritt weg von „Ich beschreibe das Bild" hin zu „Ich verstehe das Bild".

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Aktuelle Large Multimodal Models (LMMs) zeigen zwar beeindruckende Leistungen in vielen visuell-sprachlichen Aufgaben, stoßen jedoch bei komplexem visuellen Schlussfolgern an Grenzen. Das Hauptproblem besteht darin, dass die meisten bestehenden Modelle visuelle Eingaben einmal kodieren und den gesamten anschließenden Denkprozess ausschließlich in Textform („Thinking about images") durchführen. Dies zwingt hochdimensionale, feinabgestimmte visuelle Informationen (wie räumliche Beziehungen oder detaillierte Strukturen) in ein niedrigbandbreitiges symbolisches Medium (Sprache), was zu Informationsverlust führt.

Bisherige Ansätze, die versuchen, dies zu überwinden („Thinking with images"), nutzen entweder externe Werkzeuge (z. B. Bildausschnitte, Objekterkennung), was hohen Rechenaufwand und Abhängigkeiten von vordefinierten Tools mit sich bringt, oder generieren explizit Zwischenbilder in Pixelraum, was rechnerisch ineffizient ist und unnötige Details erzeugt.

Methodik: LanteRn

Das Paper stellt LanteRn (Latent Visual Structured Reasoning) vor, ein Framework, das es LMMs ermöglicht, Sprache mit kompakten, latenten visuellen Repräsentationen zu verknüpfen. Anstatt Bilder in Text zu übersetzen oder neue Bilder zu generieren, führt das Modell das visuelle Denken direkt im latenten Raum durch.

Architektur und Mechanismus:

Hybride Trajektorie: Das Modell generiert eine Sequenz, die diskrete Text-Tokens und kontinuierliche latente Vektoren (visuelle „Gedanken") abwechselnd enthält.
Steuerungstokens: Das Modell wird um drei spezielle Tokens erweitert: <|lvr_start|>, <|lvr_sep|> und <|lvr_end|>. Diese fungieren als Schalter:
- Im Text-Modus wird wie üblich das nächste Wort vorhergesagt.
- Im Visuell-Latenz-Modus (nach <|lvr_start|>) umgeht das Modell den Sprachmodellierungs-Head und gibt für $K$ Schritte die unprojizierten Hidden States der letzten Transformer-Schicht aus. Diese Vektoren bilden einen Block latenter „Gedanken", auf den das Modell später wieder zugreifen kann, ohne sie in Text zu übersetzen.

Zweistufiger Trainingsprozess:

Supervised Fine-Tuning (SFT) – Grounding:
- Ziel: Die latenten Zustände mit visuellen Merkmalen verankern.
- Lehrsignal: Da menschliche Annotatoren keine hochdimensionalen Vektoren liefern können, dient der vortrainierte Vision-Encoder des Basismodells als „Lehrer".
- Verfahren: Für Regionen von Interesse (ROIs) im Bild, die in einem Reasoning-Trace erwähnt werden, extrahiert der Vision-Encoder Merkmale. Diese werden gepoolt, um die Ziel-Vektoren ( $Z_{target}$ ) für die latenten Blöcke des Modells zu erzeugen.
- Verlustfunktion: Eine Kombination aus Kreuzentropie für Text und Mean-Squared-Error (MSE) für die latente Alignment, um sicherzustellen, dass die generierten latenten Vektoren die visuellen Merkmale der relevanten Bildregionen widerspiegeln.
Reinforcement Learning (RL) – Utility Alignment:
- Ziel: Die latenten Repräsentationen von reiner visueller Treue hin zu nutzungsbasierter Effizienz für die Aufgabenlösung optimieren.
- Algorithmus: Group Relative Policy Optimization (GRPO).
- Herausforderung & Lösung: Da latente Vektoren kontinuierlich sind, ist eine direkte Wahrscheinlichkeitsdichte schwierig. Das Paper nutzt „Latent State Replay": Während des Rollouts werden die generierten latenten Vektoren gespeichert und während des Policy-Updates als feste Bedingung wieder eingefügt. Dies stabilisiert das Training, während Gradienten dennoch durch die latenten Zustände zurückpropagiert werden.
- Reward: Besteht aus einer Genauigkeits-Belohnung (korrekte Antwort) und einer Format-Belohnung (Nutzung der Latent-Tags), um sicherzustellen, dass das Modell nicht in reines Text-Reasoning zurückfällt.

Wesentliche Beiträge

Neues Paradigma: Einführung eines Frameworks für interleaved (verschachteltes) Reasoning, bei dem kontinuierliche visuelle Gedanken direkt im latenten Raum manipuliert werden, ohne Pixelgenerierung oder externe Tools.
Grounding-Strategie: Entwicklung einer Methode, um latente visuelle Zustände durch den Vision-Encoder des Modells selbst zu supervidieren, ohne manuelle Vektor-Annotationen.
RL für Latente Räume: Demonstration, wie Reinforcement Learning (GRPO) mit „Latent State Replay" genutzt werden kann, um latente Repräsentationen zu optimieren, die die finale Aufgabenleistung verbessern, anstatt nur visuelle Details zu rekonstruieren.
Effizienz: Zeigt, dass ein 3B-Modell (Qwen2.5-VL-3B) mit diesem Ansatz Aufgaben lösen kann, für die normalerweise größere Modelle (7B+) benötigt werden, was auf eine rechen-effiziente Alternative zum reinen Skalieren hindeutet.

Ergebnisse

Das Modell wurde auf drei Benchmarks evaluiert: VisCoT, V ⋆ (fokussiert auf visuelle Suche) und Blink (fokussiert auf feinkörnige visuelle Wahrnehmung).

SFT-Ergebnisse: Die SFT-Phase verbesserte die Leistung gegenüber dem Basismodell, insbesondere bei wahrnehmungszentrierten Aufgaben (z. B. Objektpositionierung). Die Leistung war jedoch vergleichbar mit einer rein textbasierten Variante (LantErn-NTP), was darauf hindeutet, dass reine Rekonstruktionsgenauigkeit nicht ausreicht, um komplexes Schlussfolgern zu verbessern.
RL-Ergebnisse: Die RL-Phase führte zu konsistenten und signifikanten Verbesserungen.
- Auf BlinkRP (Relative Position) stieg die Leistung von 0,68 (SFT) auf 0,81.
- Auf V ⋆RP und BlinkOL (Object Localization) wurden ebenfalls deutliche Gewinne erzielt.
- LanteRn übertraf sowohl das Basismodell als auch die textbasierte RL-Variante (NTP-RL) in allen Szenarien.
Latente Größe: Es wurde beobachtet, dass größere latente Blöcke ( $K$ ) nicht automatisch zu besserer Leistung führen; ein optimaler Wert (hier $K=8$ ) scheint notwendig zu sein, um einen Kompromiss zwischen Kapazität und effektiver Reasoning-Fähigkeit zu finden.

Bedeutung und Ausblick

LanteRn beweist, dass interne, latente visuelle Repräsentationen ein vielversprechender Weg für effizientes multimodales Reasoning sind. Es löst das Problem des „Verlusts" visueller Information durch Textübersetzung, indem es das Modell befähigt, visuelle Konzepte direkt im Feature-Raum zu verarbeiten.

Die Studie zeigt, dass durch die Kombination von SFT (für visuelle Grounding) und RL (für aufgabenorientierte Optimierung) Modelle lernen können, abstrakte visuelle Gedanken zu bilden, die für die Lösung spezifischer Probleme relevant sind. Dies könnte zukünftige Architekturen von der Notwendigkeit befreien, riesige Modelle zu trainieren oder externe Tools zu nutzen, um komplexe visuelle Aufgaben zu lösen. Als Limitationen werden die Abhängigkeit von hochwertigen Trainingsdaten und die Verwendung fester latenter Blockgrößen genannt, wobei dynamische Größen als zukünftige Forschungsrichtung identifiziert werden.