LanteRn: Latent Visual Structured Reasoning

Each language version is independently generated for its own context, not a direct translation.

LanteRn: Hoe een AI leert "denken met beelden" in plaats van alleen met woorden

Stel je voor dat je een kunstwerk bekijkt en iemand vraagt: "Wat staat er precies voor die fiets?"

Voor een mens is dit makkelijk. Je kijkt, je ziet een parkeermeter, en je antwoordt: "Een parkeermeter." Maar voor een kunstmatige intelligentie (AI) is dit vaak lastig. De meeste huidige AI-modellen zijn als een vertaler die alles moet uitleggen in woorden. Als ze naar een foto kijken, moeten ze eerst alle details in hun hoofd vertalen naar tekst voordat ze kunnen "nadenken".

Dit is als proberen een complexe 3D-puzzel te beschrijven door alleen maar woorden te gebruiken. Je moet zeggen: "Er is een ronde, metalen paal met een knop erop..." in plaats van gewoon naar de paal te wijzen. Dit kost veel tijd en energie, en soms verlies je de fijne details uit het oog.

Wat is LanteRn?
LanteRn is een nieuwe manier om AI te laten nadenken. Het idee is simpel: laat de AI niet alles in woorden vertalen, maar laat ze soms "denken" in stille, interne beelden.

Stel je voor dat de AI een geheime notitieblok heeft.

De oude manier: De AI moet elke gedachte hardop opschrijven als een zinnetje. "Ik zie een fiets. Ik zie een paal. De paal staat voor de fiets."
De LanteRn-methode: De AI kan een knop indrukken (een speciaal teken) en dan een stille, visuele gedachte in haar geheime notitieblok zetten. Ze "ziet" de parkeermeter in haar hoofd, zonder dat ze er woorden voor nodig heeft. Pas als ze het antwoord heeft, schrijft ze het op.

Hoe werkt het? (In twee stappen)

De onderzoekers hebben de AI opgeleid in twee fases, net zoals je een kind leert rijden:

Fase 1: De Leraar (Supervised Fine-Tuning)
In deze fase krijgen de AI een leraar die haar leert wat ze moet zien. Als de AI naar een foto kijkt, zegt de leraar: "Kijk naar dit stukje van de foto." De AI leert dan om een stille, visuele gedachte te maken die precies overeenkomt met wat ze op dat stukje ziet.
- Analogie: Het is alsof je een kind leert om een foto te "gevoelen" in plaats van hem alleen te beschrijven. De AI leert: "Als ik naar dit gebied kijk, moet ik dit specifieke beeld in mijn hoofd hebben."
Fase 2: De Vrijheid (Reinforcement Learning)
Nu de AI weet hoe ze beelden moet "voelen", krijgt ze meer vrijheid. In plaats van alleen te kopiëren wat de leraar zegt, mag ze zelf beslissen welke beelden ze nodig heeft om een vraag te beantwoorden.
- Analogie: Stel je voor dat de AI nu een detective is. Ze mag zelf beslissen welke sporen (beelden) ze in haar hoofd verzamelt om de zaak op te lossen. Als ze het juiste antwoord geeft, krijgt ze een beloning. Zo leert ze dat het niet gaat om het maken van een perfecte foto in haar hoofd, maar om het vinden van het juiste antwoord.

Waarom is dit cool?

Efficiëntie: Het is sneller en zuiniger. De AI hoeft geen hele nieuwe foto's te "tekenen" (wat veel rekenkracht kost), maar gebruikt compacte, interne beelden.
Beter in details: Omdat ze niet alles in woorden hoeft te gieten, kan ze fijne details (zoals de positie van objecten) veel beter onthouden en gebruiken.
Slimmer denken: Het resultaat is dat de AI beter wordt in vragen over ruimtelijke verhoudingen (bijv. "Wat staat links van wat?") en visuele puzzels, waar andere AI's vaak vastlopen.

Kortom:
LanteRn geeft AI een tweede zintuig voor denken. In plaats van alleen maar te praten over wat ze zien, leert de AI om te zien terwijl ze denkt. Het is alsof we de AI een bril hebben gegeven waarmee ze niet alleen de wereld kan beschrijven, maar de wereld ook echt kan begrijpen in haar eigen, stille taal.

Each language version is independently generated for its own context, not a direct translation.

Titel: LanteRn: Latent Visual Structured Reasoning

Publicatie: ICLR 2026 Workshop on Multimodal Intelligence

1. Het Probleem

Grote Multimodale Modellen (LMM's) presteren uitstekend in veel taken, maar hun redeneervermogen blijft grotendeels taalkundig. De huidige standaard is "denken over afbeeldingen" (thinking about images), waarbij visuele input slechts één keer wordt gecodeerd en alle daaropvolgende redenering in tekstvorm plaatsvindt. Dit heeft twee belangrijke nadelen:

Bandbreedte-beperking: Het dwingt hoogdimensionele perceptuele informatie in een laag-breedte symbolisch medium (tekst), wat leidt tot verlies van fijne ruimtelijke en visuele details.
Ondoeltreffendheid: Bestaande benaderingen voor "denken met afbeeldingen" (thinking with images) vertrouwen vaak op externe tools (zoals objectdetectie of image generation) of genereren expliciete pixel-afbeeldingen tijdens het redeneren. Dit is computationally duur en genereert vaak irrelevante visuele details.

Er is een behoefte aan een methode die redenering toestaat in de latente visuele ruimte (compacte, continue representaties) zonder de noodzaak van externe modules of de kosten van het genereren van volledige pixel-afbeeldingen.

2. Methodologie: LanteRn

LanteRn is een framework dat LMM's in staat stelt om taal te interleave (afwisselen) met compacte, continue visuele "gedachte"-embeddings. Het model kan tijdens de inferentie zelf beslissen wanneer het een visuele redeneringsfase start.

Architectuur

Het framework bouwt voort op de Qwen2.5-VL architectuur en introduceert drie speciale controletokens:

<|lvr_start|>: Startt de visuele latente modus.
<|lvr_sep|>: Scheidt individuele latente vectoren binnen een blok.
<|lvr_end|>: Beëindigt de visuele modus en keert terug naar tekstmodus.

Het redeneringspad is een hybride traject $\tau = [s_1, s_2, ..., s_T]$ waarbij elke stap $s_t$ ofwel een teksttoken is of een continue vector $z_t \in \mathbb{R}^d$ .

Twee-staps Trainingsproces

Fase 1: Supervised Fine-Tuning (SFT) – Gronding van Latente Staten
Doel: Het model leren om visuele features te "gronden" in latente toestanden.

Data: Een synthetisch dataset afgeleid van Visual-CoT, waarbij menselijke annotaties (bounding boxes) worden gebruikt om te bepalen welke visuele regio's relevant zijn.
Leerproces: De visuele encoder van het basismodel fungeert als een "leraar". Voor een gegeven regio wordt een doel-embeddingsreeks ( $Z_{target}$ ) gegenereerd via pooling van de visuele features.
Verliesfunctie: Een hybride loss wordt gebruikt:
- $L_{text}$ : Cross-entropy voor tekstgeneratie.
- $L_{latent}$ : Mean Squared Error (MSE) regressie tussen de gegenereerde latente vectoren en de $Z_{target}$ van de visuele encoder.
Dit dwingt het model om de visuele inhoud in zijn latente ruimte te "reconstrueren" zonder deze in tekst te vertalen.

Fase 2: Reinforcement Learning (RL) – Uitlijning met Taaknut
Doel: Het model leren om visuele representaties te genereren die specifiek nuttig zijn voor het oplossen van de taak, in plaats van alleen visueel trouw te zijn.

Algoritme: Group Relative Policy Optimization (GRPO).
Challenge: Latente vectoren zijn continu, terwijl RL vaak werkt met discrete tokens.
Oplossing (Latent State Replay): Tijdens het roll-out proces worden de gegenereerde latente vectoren opgeslagen. Tijdens het updaten van het beleid worden deze exacte vectoren hergebruikt als context. Dit stabiliseert de training en zorgt ervoor dat de gradients door de latente generatie heen kunnen stromen, terwijl de kansverdeling alleen over de teksttokens wordt geoptimaliseerd.
Beloning (Reward):
- Accuracy Reward: Binair signaal op basis van het juiste eindantwoord.
- Format Reward: Straft het model als het geen latente blokken gebruikt (verhindert collapse naar puur tekstueel redeneren).

3. Belangrijkste Bijdragen

LanteRn Framework: Een nieuwe architectuur die het mogelijk maakt om redenering direct in de visuele feature-ruimte van een LMM uit te voeren, zonder externe tools of pixel-generatie.
Hybride Redeneringstraject: Een innovatieve aanpak waarbij tekst en continue visuele "gedachten" afwisselend worden gegenereerd, wat een nauwere koppeling tussen perceptie en taal mogelijk maakt.
Twee-staps Training: Een effectieve pipeline die eerst visuele gronding leert via SFT en vervolgens taak-georiënteerde optimalisatie toepast via RL.
Efficiëntie: Demonstreert dat interne visuele representaties een veelbelovende, rekenkracht-efficiënte route zijn voor multimodaal redeneren, zelfs met kleinere modellen (3B parameters).

4. Resultaten

Het model werd geëvalueerd op drie benchmarks: VisCoT, V ⋆ (visuele zoekopdrachten), en Blink (fijne visuele perceptie).

SFT-resultaten:
- LanteRn-SFT presteerde beter dan het basismodel (Qwen2.5-VL-3B) op perceptie-taken (bijv. objectlocalisatie op BlinkOL steeg van 0.45 naar 0.52).
- De prestaties waren vergelijkbaar met een tekst-only variant (LantErn-NTP), wat suggereert dat gronding alleen niet voldoende is voor complex redeneren.
- Er was geen monotoon verband tussen de grootte van het latente blok ( $K$ ) en de prestaties; te grote blokken konden zelfs leiden tot degradatie.
RL-resultaten:
- Na toepassing van RL op de SFT-gebaseerde modellen (LantErn-RL-8) werden consistente verbeteringen gezien op alle benchmarks.
- Significante winst: Prestaties op BlinkRP (relatieve positie) verbeterden van 0.68 (SFT) naar 0.81 (RL). Ook op V ⋆ en BlinkOL waren er duidelijke verbeteringen ten opzichte van de tekst-only RL-baseline.
- Het model presteerde op enkele benchmarks gelijk aan of beter dan grotere modellen (7B parameters), wat aantoont dat latente visuele redenering een krachtige alternative is voor schalen van modelgrootte.

5. Betekenis en Conclusie

LanteRn bewijst dat het mogelijk is om multimodale modellen te laten "denken" in een compacte, continue visuele ruimte. Dit overbrugt de kloof tussen de hoge bandbreedte van visuele data en de beperkte expressiviteit van tekst.

Efficiëntie: Het vermijdt de hoge rekenkosten van het genereren van pixel-afbeeldingen tijdens het redeneren.
Kwaliteit: Het verbetert het vermogen tot fijne ruimtelijke en visuele redenering aanzienlijk.
Toekomst: Het paper suggereert dat toekomstig werk zich moet richten op dynamisch aanpassende latente blokken (in plaats van vaste grootte) en betere visualisatie van deze interne "gedachten".

Samenvattend biedt LanteRn een nieuwe richting voor efficiënt en krachtig multimodaal redeneren door visuele informatie intern te behouden in plaats van deze voortdurend naar tekst te vertalen.