From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Each language version is independently generated for its own context, not a direct translation.

Van Pixels naar Woorden: NEO, de "Alles-in-Één" Brein voor Beelden en Taal

Stel je voor dat je een robot bouwt die zowel kan zien als kan praten. Tot nu toe hebben onderzoekers dit meestal gedaan door twee aparte robots aan elkaar te plakken: één robot die heel goed is in kijken (de Visuele Encoder) en één robot die heel goed is in praten (de Grote Taalmodel of LLM). Ze praten met elkaar via een soort vertaler (de Projector).

Dit werkt best goed, maar het is alsof je een Ferrari en een vrachtwagen aan elkaar koppelt met een touw. Het is rommelig, het kost veel energie om ze op elkaar af te stemmen, en ze hebben elk hun eigen "denkpatroon" dat niet altijd samenwerkt.

De auteurs van dit paper, met hun nieuwe model NEO, zeggen: "Waarom twee robots als we er één kunnen maken?" Ze hebben een Native Vision-Language Model gebouwd. Dit is een robot die van nature zowel kan zien als praten, zonder dat hij twee aparte hersenen nodig heeft.

Hier is hoe ze dit doen, vertaald in simpele beelden:

1. De Grote Idee: De "Alles-in-Één" Architectuur

In plaats van een gescheiden team, hebben ze één groot, samenhangend brein gemaakt.

Het oude model (Modulair): Stel je voor dat je een foto aan een vertaler geeft, die de foto beschrijft aan een schrijver. De schrijver ziet de foto nooit echt, hij leest alleen de beschrijving.
Het nieuwe model (NEO): NEO kijkt naar de foto en de tekst tegelijkertijd, alsof hij een mens is die naar een schilderij kijkt en er direct over nadenkt. Er is geen vertaler tussenin. Alles gebeurt in één stroom.

2. De Magische Ingrediënten (De "Primitieven")

Om dit te laten werken, hebben ze drie slimme trucjes bedacht, die ze "primitieven" noemen:

De "Flexibele Adresbepaling" (Native-RoPE):
Stel je voor dat je een foto en een verhaal door elkaar mengt. Waar zit nu de "linkerbovenhoek" van de foto in het verhaal? In oude modellen was dit verwarrend. NEO gebruikt een slim adresysteem dat weet: "Ah, dit stukje is een pixel op de foto, en dit is een woord in de zin." Het houdt de ruimte (hoogte en breedte van de foto) en de tijd (de volgorde van de woorden) perfect gescheiden, maar toch verbonden. Het is alsof NEO een kaart heeft waarop elke pixel en elk woord zijn eigen exacte locatie heeft, zonder dat ze in de war raken.
De "Tweezijdige Conversatie" (Mixed Attention):
Normaal gesproken leest een computer tekst van links naar rechts (zoals een boek). Maar als je naar een foto kijkt, kijk je overal tegelijk naar. NEO kan doen wat mensen doen: hij leest tekst van links naar rechts, maar hij kan naar een foto kijken en alle details tegelijk zien. Hij kan zelfs "terugkijken" in de foto om details te vinden die hij eerder zag. Dit maakt het veel slimmer in het begrijpen van complexe situaties.
De "Oefenfase" (Pre-Buffer & Post-LLM):
Dit is misschien wel het slimste idee.
- Fase 1 (De Oefenfase): NEO begint met een deel dat nog niets weet van de wereld (een "Pre-Buffer"). Dit deel wordt getraind op miljoenen foto's en teksten om te leren hoe pixels en woorden aan elkaar hangen. Het is alsof een student eerst een jaar lang alleen foto's bestudeert en de bijbehorende woorden leert, zonder dat de "hoofdleraar" (het taalmodel) nog ingrijpt.
- Fase 2 (De Integratie): Daarna wordt dit oefendeel samengevoegd met het krachtige taalmodel. Omdat het oefendeel al weet hoe het werkt, hoeft het taalmodel niet opnieuw te leren hoe het moet kijken. Het kan zich direct richten op het begrijpen en redeneren.
- Analogie: Het is alsof je een chef-kok (het taalmodel) een nieuwe keuken geeft. In plaats van de chef te dwingen om eerst te leren hoe een mes werkt, geef je hem eerst een stagiair (de Pre-Buffer) die al weet hoe je snijdt. De chef hoeft alleen nog maar de recepten te maken.

3. Waarom is dit belangrijk?

Efficiëntie: Omdat er geen aparte vertaler nodig is, werkt het sneller en kost het minder energie.
Beter Begrip: Omdat het model de foto en de tekst van het begin af aan samen ziet, maakt het minder fouten. Het ziet bijvoorbeeld beter dat een "rode pil" in de foto echt rood is, en niet alleen dat het woord "rood" in de tekst staat.
Toekomstbestendig: Dit model kan makkelijk groeien. Of je nu een klein model hebt voor je telefoon of een gigantisch model voor een datacenter, de basisbouwstenen blijven hetzelfde.

Conclusie

NEO is een doorbraak omdat het de muur tussen "zien" en "spreken" volledig afbreekt. Het is niet langer een robot die twee aparte systemen heeft die met elkaar praten; het is een robot die van nature begrijpt dat een beeld en een woord twee kanten van hetzelfde verhaal zijn.

Met hun model hebben ze laten zien dat je met minder data en een slimme architectuur bijna net zo goed kunt presteren als de grootste, duurste modellen die we nu hebben. Het is een stap richting een toekomst waar kunstmatige intelligentie niet alleen tekst begrijpt, maar de wereld om ons heen echt ervaart.

Each language version is independently generated for its own context, not a direct translation.

Titel: Van Pixels naar Woorden – Naar Native Vision-Language Primitieven op Schaal

Model: NEO (Native Vision-Language Model)

1. Het Probleem

Huidige Vision-Language Models (VLM's) volgen over het algemeen een modulair ontwerp. Dit betekent dat ze bestaan uit drie gescheiden componenten:

Een vooraf getrainde Visuele Encoder (VE) (bijv. ViT).
Een Projector (een lichte laag voor vertaling).
Een Large Language Model (LLM).

Hoewel deze modulaire systemen succesvol zijn, hebben ze fundamentele beperkingen:

Inductieve Bias: De visuele encoder heeft sterke, vooraf bepaalde biases die de flexibiliteit van resolutie en aspectratio beperken.
Complexiteit: Het trainen vereist multi-stadia (pre-training van de VE, dan projectie, dan fine-tuning van het LLM), wat leidt tot hoge kosten en complexe infrastructuur.
Misalignement: Er is een fundamenteel conflict tussen de visuele en linguïstische representaties, wat zorgt voor suboptimale pixel-woord correlaties.
Native VLM's (Monolithisch): Bestaande pogingen om een enkel model te bouwen (zoals Fuyu of EVE) lijden vaak onder inefficiëntie, instabiele optimalisatie en het verliezen van linguïstische kennis omdat ze visuele tokens proberen te forceren in bestaande LLM-structuren zonder de juiste primitieven.

De kernvraag is: Hoe kunnen we een native VLM bouwen die de voordelen van modulaire systemen behoudt (zoals gespecialiseerde attention-mechanismen) maar dit doet binnen één unified architectuur, zonder de nadelen van multi-stadia training?

2. Methodologie: De NEO Architectuur

De auteurs introduceren NEO, een familie van native VLM's die is gebouwd "van de grond af" (first principles) met een uniek concept: Native VLM Primitives. In plaats van visuele en linguïstische modules te koppelen, integreert NEO deze in één monolithische decoder-only architectuur.

A. Native VLM Primitives

De kern van NEO is een nieuw bouwblok dat drie principes combineert:

Flexibele Positie-Encodering (Native-RoPE):
- Traditionele RoPE (Rotary Position Embedding) behandelt tekst en beelden vaak als één dimensie of gebruikt 1D-RoPE.
- NEO introduceert Native-RoPE met gescheiden frequenties en kanalen voor drie dimensies: Tijd ( $T$ ), Hoogte ( $H$ ) en Breedte ( $W$ ).
- Frequentie-toewijzing: $T$ gebruikt de originele LLM-frequentie (voor lange context), terwijl $H$ en $W$ nieuwe head-dimensies krijgen met hogere frequenties om lokale ruimtelijke relaties beter te modelleren.
- Index-toewijzing: Voor tekst worden $H/W$ indexen op 0 gezet; voor beelden krijgen tokens unieke $H/W$ indexen. Dit voorkomt dat lange teksten de ruimtelijke relaties van beelden verstoren.
Multi-Head Native Attention (MHNA):
- Het model gebruikt een hybride attention-mechanisme.
- Tekst-tokens: Gebruiken causale attention (alleen kijken naar voorgaande tokens) om autoregeneratieve generatie te behouden.
- Beeld-tokens: Gebruiken bi-directionele attention (kijken naar alle andere beeld-tokens), vergelijkbaar met een visuele encoder. Dit zorgt voor volledige interactie binnen het beeld.
- Dit wordt efficiënt geïmplementeerd met FlexAttention om geheugenoverhead te minimaliseren.
Pre-Buffer & Post-LLM Strategie:
- Tijdens het pre-training wordt het model opgesplitst in twee fasen binnen dezelfde architectuur:
  - Pre-Buffer: De eerste lagen ( $L_1$ ) worden willekeurig geïnitieerd en leren visuele concepten van scratch. Ze fungeren als een lichte visuele encoder.
  - Post-LLM: De resterende lagen ( $L_2$ ) worden geïnitieerd met de gewichten van een voorgeprogrammeerd LLM (Qwen3).
- Doel: De Pre-Buffer leert visuele perceptie zonder de linguïstische kennis van het LLM te verstoren. Tijdens latere training (Mid-training en SFT) smelten deze lagen samen tot één monolithisch model dat autonoom capaciteit toewijst aan codering, alignering en redenering.

B. Training Pipeline

Het trainingsproces verloopt in drie fasen, allemaal end-to-end:

Pre-training: Gebruik van 345 miljoen beeld-tekst paren (web-schaal en synthetisch). De Pre-Buffer en nieuwe Q/K-koppen worden getraind; de LLM-gewichten zijn bevroren om linguïstische kennis te behouden.
Mid-training: Focus op hoge resolutie, complexe scènes en OCR. Het hele model wordt geüpdatet om visuele en linguïstische vaardigheden te aligneren.
Supervised Fine-Tuning (SFT): Training op 4 miljoen hoogwaardige instructie-datasets voor taken zoals VQA, redeneren en dialoog.

3. Belangrijkste Bijdragen

Native Primitives: Definieert een nieuwe standaard voor native VLM's met gescheiden $T, H, W$ posities en hybride attention, wat de kloof tussen visuele en linguïstische encoding overbrugt.
Efficiënte Schaalbaarheid: NEO bereikt prestaties die dicht in de buurt komen van top-tier modulaire modellen (zoals InternVL3 en Qwen2.5-VL) met aanzienlijk minder trainingsdata en zonder Reinforcement Learning (RL).
Herbruikbare Componenten: De "Pre-Buffer" fungeert als een herbruikbaar vooraf getraind asset, wat de kosten voor toekomstig onderzoek naar native VLM's verlaagt.
End-to-End Learning: Elimineert de noodzaak voor complexe multi-stadia training en handmatige alignering tussen gescheiden modules.

4. Resultaten

De auteurs evalueren NEO (2.2B en 9B parameters) op diverse benchmarks en vergelijken dit met zowel modulaire als andere native VLM's.

Vergelijking met Modulaire VLM's:
- NEO-2.2B presteert vergelijkbaar met modulaire modellen van 2B (zoals Qwen2-VL en InternVL2.5) op benchmarks zoals MMBench, MMVet en ChartQA.
- NEO-9B bereikt prestaties die zeer dicht in de buurt komen van de state-of-the-art modulaire modellen (zoals InternVL3), ondanks het gebruik van minder trainingsdata en het ontbreken van RL.
Vergelijking met Andere Native VLM's:
- NEO overtreft significante concurrenten zoals Mono-InternVL, EVE, Chameleon en SAIL op bijna alle visuele benchmarks.
- Het model toont een sterke verbetering in visuele perceptie en redenering, zelfs zonder visuele encoder-supervisie.
Ablatie Studies:
- Native-RoPE vs. 1D-RoPE: Native-RoPE levert een duidelijke verbetering op (minimaal +0.8% gemiddeld) ten opzichte van bestaande RoPE-varianten, vooral door de scheiding van ruimtelijke en temporele dimensies.
- Hybride Attention: Het gebruik van bi-directionele attention voor beelden en causale voor tekst is cruciaal voor de prestaties.
- Pre-Buffer: Zelfs met beperkte data (22M samples) presteert de Pre-Buffer bijna even goed als volledige visuele encoders (CLIP, InternViT), wat de efficiëntie van de methode bevestigt.

5. Betekenis en Conclusie

Dit paper markeert een paradigmaverschuiving in de ontwikkeling van Vision-Language Models.

Van Modulier naar Monolithisch: Het bewijst dat native, monolithische modellen niet per se inferieur hoeven te zijn aan modulaire systemen. Met de juiste primitieven (Native-RoPE, MHNA) kunnen ze de voordelen van beide werelden combineren.
Democratisering: Door reusable components (Pre-Buffer) en een efficiëntere trainingsstrategie, maakt NEO native VLM-onderzoek toegankelijker en kosteneffectiever.
Toekomstperspectief: NEO legt de basis voor schaalbare, inheems multimodale systemen die niet alleen begrijpen, maar ook genereren (video, langdurige context) en redeneren in één unified architectuur. Het suggereert dat de volgende generatie multimodale AI-systemen "native" zullen zijn, in plaats van samengesteld uit losse onderdelen.

Kortom, NEO toont aan dat het bouwen van vision-language modellen "van de grond af" met specifieke, modale-bewuste primitieven leidt tot superieure prestaties en een schaalbaarder ecosysteem dan de huidige modulaire benaderingen.

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

1. De Grote Idee: De "Alles-in-Één" Architectuur

2. De Magische Ingrediënten (De "Primitieven")

3. Waarom is dit belangrijk?

Conclusie

Titel: Van Pixels naar Woorden – Naar Native Vision-Language Primitieven op Schaal

1. Het Probleem

2. Methodologie: De NEO Architectuur

A. Native VLM Primitives

B. Training Pipeline

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems