OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Each language version is independently generated for its own context, not a direct translation.

🎬 De Grote Droom: Een Slimme Camera die "Begrijpt"

Stel je voor dat je een camera hebt die niet alleen plaatjes maakt, maar ook echt begrijpt wat er gebeurt. Of het nu een film is, een foto van een hond, of een document met tekst. Dit is wat kunstmatige intelligentie (AI) probeert te doen. Maar tot nu toe waren deze camera's een beetje dom: ze keken naar elk stukje van het beeld, of het nu belangrijk was of niet.

Dit is alsof je een heel boek leest om te weten wat er in de laatste zin staat, terwijl je gewoon naar de samenvatting had kunnen kijken. Het kost veel tijd en energie (rekenkracht), maar levert weinig extra inzicht op.

🧠 De Grote Idee: "Kijk alleen naar het interessante"

De onderzoekers van dit paper hebben een nieuw idee: Waarom kijken we naar alles?

In een video is het grootste deel van het beeld saai en saai. De muur op de achtergrond verandert niet. De lucht blijft blauw. Wat er echt gebeurt, is dat een persoon loopt of een bal springt. Dat is het "interessante" deel.

De onderzoekers zeggen: "Laten we de camera zo programmeren dat hij alleen kijkt naar de beweging en de veranderingen, en negeert de saaie, statische delen."

Ze noemen dit OneVision-Encoder. Het is als een slimme cameraman die niet naar de hele zaal kijkt, maar alleen de lens richt op de acteur die iets doet.

🎞️ De Vergelijking: De Videocoder (Codec) als Gids

Hoe weten ze wat interessant is? Ze kijken naar hoe videobestanden (zoals op YouTube of Netflix) al werken.

Hoe het nu werkt (de oude manier): Een computer kijkt naar 64 beelden per seconde en behandelt elk pixelnetje even belangrijk. Alsof je 64 keer hetzelfde plaatje bekijkt, alleen met een klein verschil.
Hoe het werkt in de echte wereld (de nieuwe manier): Videobestanden gebruiken een trucje (een codec, zoals H.264). Ze zeggen: "Oké, dit plaatje is de basis (I-frame). De volgende plaatjes zijn bijna hetzelfde, alleen hier en daar beweegt iets. Laten we alleen die beweging opslaan."

De onderzoekers hebben deze truc overgenomen. Ze gebruiken de bewegingsinformatie die al in het videobestand zit om te bepalen: "Kijk hier! Iets beweegt! Kijk hier niet! Dit is een saaie muur."

🧩 De Analogie: De "Puzzel" van de AI

Stel je voor dat je een enorme puzzel moet maken van een video.

De oude manier (Dense Grid): Je probeert elke puzzelstukje van de 64 frames te gebruiken. Je hebt duizenden stukjes nodig, en je raakt de tafel vol. Het duurt eeuwen om de puzzel te leggen.
De nieuwe manier (OneVision-Encoder): Je pakt alleen de puzzelstukjes die de beweging tonen. De stukjes van de saaie muur gooi je weg.
- Je hebt nu 90% minder stukjes nodig.
- Maar omdat je alleen de belangrijke stukjes hebt, is de puzzel sneller klaar en beter te begrijpen.

Het resultaat? De AI wordt sneller, slimmer en gebruikt minder energie, terwijl hij toch alles ziet wat belangrijk is.

🚀 Wat levert dit op?

De onderzoekers hebben hun nieuwe "camera" (OneVision-Encoder) getest tegen de beste andere camera's ter wereld (zoals SigLIP en Qwen3-ViT).

Bij het kijken naar video's: De nieuwe camera is veel beter in het begrijpen van beweging. Bijvoorbeeld: het ziet precies hoe iemand duikt of kookt, zelfs als het heel snel gaat.
Bij het lezen van teksten en documenten: Omdat de camera zo slim is, kan hij ook tekst in plaatjes beter begrijpen.
Efficiëntie: Het gebruikt veel minder rekenkracht. Het is alsof je een Ferrari hebt die 10 keer minder benzine verbruikt, maar sneller rijdt.

💡 De Kernboodschap in één zin

"Waarom kijken naar het hele bos als je alleen naar de bomen hoeft te kijken die bewegen?"

OneVision-Encoder leert AI om te kijken zoals de natuur werkt: niet naar alles tegelijk, maar slim te focussen op wat er echt gebeurt. Dit maakt de volgende generatie slimme computers veel sneller en slimmer.

Each language version is independently generated for its own context, not a direct translation.

Titel: OneVision-Encoder: Codec-Afgestemde Sparsiteit als Fundamenteel Principe voor Multimodale Intelligentie

Auteurs: Glint Lab, AIM for Health Lab, MVP Lab (Datum: 27 februari 2026)

1. Het Probleem

Huidige visuele architecturen voor video- en beeldbegrip vertrekken vaak van het principe dat visuele signalen uniform moeten worden verwerkt via dichte pixelroosters. Dit leidt tot twee fundamentele inefficiënties:

Overbodige Berekening: Visuele signalen (vooral video) zijn extreem redundant. Het grootste deel van het beeld (bijv. statische achtergronden) is voorspelbaar en bevat weinig nieuwe informatie. Bestaande modellen verspillen echter enorme rekenkracht aan het uniform verwerken van deze statische gebieden.
Verlies van Discriminatieve Informatie: De werkelijke "verrassing" of discriminerende informatie (beweging, objectveranderingen) is spars (zeldzaam) en lokaal. Door alle pixels gelijk te behandelen, verliezen modellen de focus op de cruciale residuen die betekenis en beweging definiëren.
Architecturale Misalignement: Moderne modellen aligneren niet met de informatie-theoretische structuur van video, zoals die wordt gebruikt door videocodecs (bijv. H.264/HEVC). Codecs splitsen video expliciet op in stabiele ruimtelijke context (I-frames) en zeldzame temporele updates (P-frames), maar AI-modellen negeren deze structuur vaak.

2. Methodologie: OneVision-Encoder (OV-Encoder)

De auteurs introduceren de OneVision-Encoder, een Vision Transformer (ViT) die is ontworpen volgens het principe van "Codec-Afgestemde Sparsiteit". De kernidee is dat visuele intelligentie een compressieprobleem is en dat modellen moeten leren zoals videocodecs werken: door te focussen op voorspelbare residuen in plaats van dichte pixelroosters.

De belangrijkste technische componenten zijn:

A. Codec Patchification (De Kerninnovatie)

In plaats van uniform frames te patchen, gebruikt OV-Encoder een codec-geïnspireerde inputformulering die drie strategieën combineert:

Dense Video-Codec Patchification: Voor video-inputs worden HEVC-achtige principes toegepast.
- I-frames (Intra-coded): Volledig gecodeerde frames die de globale ruimtelijke context vastleggen.
- P-frames (Predicted): Frames die worden gedefinieerd door bewegingsvectoren en residu-signalen.
- Selectie: De encoder berekent een "saliency score" op patch-niveau gebaseerd op de grootte van de bewegingsvectoren en de energie van het residu (verschil tussen voorspelling en werkelijkheid). Alleen de 3,1% tot 25% van de patches met de hoogste signaal-entropie (de meest informatieve gebieden) worden geselecteerd voor verwerking.
- Resultaat: Een 87,5% reductie in tokens voor een 64-frame clip, terwijl de volledige temporele dekking behouden blijft.
Chunk-wise Patchification: Verdeelt video in tijdschunks en selecteert patches binnen deze chunks om een gestructureerde temporele redenering mogelijk te maken.
Single-Image Spatial Patchification: Een ruimtelijke instantiatie voor statische beelden.

B. 3D Rotary Position Embedding (RoPE)

Om de onregelmatige token-indeling (door de sparsiteit) te verwerken, gebruikt het model een gedeelde 3D RoPE. Dit encodeert relatieve posities in drie dimensies:

$\Delta t$ (Tijd): Verschil in frame-index (belangrijk voor I/P-frame relaties).
$\Delta x, \Delta y$ (Ruimte): Ruimtelijke offset.
Dit zorgt voor coherentere aandacht (attention) over onregelmatige spatiotemporele lay-outs.

C. Trainingsdoel: Cluster Discriminatie

In plaats van puur pixelreconstructie (zoals MAE) of instance-level contrastive learning (zoals CLIP), gebruikt OV-Encoder een zelftoezichtende cluster-discriminatie objective.

Er wordt een grote bank met meer dan 1 miljoen semantische concepten (clusters) gebruikt.
Het model wordt getraind om visuele embeddings (zowel voor objecten in beelden als beweging in video's) af te stemmen op deze globale clustercentra.
Dit dwingt het model om zowel object-permanentie als bewegingsdynamica te leren zonder externe taal-supervisie tijdens de pre-training.

3. Belangrijkste Resultaten

De resultaten tonen aan dat efficiëntie en nauwkeurigheid positief gecorreleerd zijn in plaats van een afweging te vormen.

Multimodale Prestaties (LMM Probing):
- Geïntegreerd in Large Multimodal Models (LMMs) zoals Qwen3-4B, overtreft OV-Encoder sterke baselines zoals Qwen3-ViT en SigLIP2 op 16 benchmarks voor beeld-, video- en documentbegrip.
- Op video-taken verbetert het gemiddeld met 4,1% ten opzichte van Qwen3-ViT.
- Opmerkelijk: OV-Encoder presteert beter ondanks het gebruik van aanzienlijk minder pre-training data (ongeveer 100B caption tokens versus >2,1T voor Qwen3-ViT).
Representatiekwaliteit (Attentive Probing):
- Bij het evalueren van de pure visuele representatie (zonder taak-specifieke fine-tuning), behaalt OV-Encoder state-of-the-art resultaten.
- Op de Diving-48 dataset (een bewegingsintensieve taak) behaalt het een 17,1% hogere Top-1 nauwkeurigheid dan SigLIP2 en 8,1% hoger dan DINOv3, onder identieke patch-budgetten.
- Het model is superieur in het modelleren van beweging, zelfs bij een token-budget van slechts 3,1% van de dichte input.
Efficiëntie:
- Het model behaalt betere resultaten met 75% tot 96,9% minder patches dan traditionele methoden die alle frames volledig verwerken.
- Het behoudt de temporele dekking (alle 64 frames worden "gezien" via de selectie), maar verwerkt alleen de informatieve delen.

4. Bijdragen

OneVision-Encoder: Een HEVC-stijl Vision Transformer die spatiotemporele representatie-lering aligneert met de intrinsieke voorspellende structuur van videosignalen.
Codec Patchification: Een nieuwe inputformulering die codec-gebaseerde signalen (beweging en residu) gebruikt om selectief informatieve patches te coderen, terwijl het video, chunk-sampling en single-image inputs unifyt via 3D-RoPE.
Gestructureerde Semantische Lering: Een zelftoezichtende cluster-discriminatie doelstelling die object- en bewegingssemantiek gezamenlijk modelleert met een schaal van >1 miljoen concepten.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat codec-gealigneerde sparsiteit geen louter optimalisatietrick is, maar een fundamenteel principe voor de volgende generatie visuele generalisten.

5. Significantie

Deze paper verschuift het paradigma van "meer data en dichte verwerking" naar "slimmere, structurele verwerking".

Fundamenteel Principe: Het stelt dat visuele intelligentie gebaseerd moet zijn op de informatie-theoretische principes van compressie (zoals in videocodecs), waarbij de focus ligt op de "surprise" (residuen) in plaats van de redundantie.
Schaalbaarheid: Door de rekenlast te reduceren tot alleen de essentiële bewegings- en veranderingselementen, wordt het mogelijk om modellen te schalen die efficiënter zijn en beter presteren, zelfs met minder trainingdata.
Toekomstvisie: OneVision-Encoder positioneert zich als een schaalbare motor voor universele multimodale intelligentie, waarbij het in staat is om te "zien", te "updaten" en te "redeneren" over tijd op een manier die fundamenteel overeenkomt met hoe visuele informatie in de natuur en in compressiestandaarden is gestructureerd.

Kortom, het paper demonstreert dat het nabootsen van de efficiënte structuur van videocodecs (I-frames voor context, P-frames voor beweging) leidt tot superieure AI-modellen die minder rekenkracht nodig hebben maar meer begrijpen.