OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Lärm" im Bild

Stell dir vor, du schaut dir einen Film an. Was passiert eigentlich?

Der Hintergrund: Die Wände, der Himmel, der Tisch – diese Dinge bewegen sich kaum. Sie sind langweilig und vorhersehbar.
Die Aktion: Eine Person läuft vorbei, ein Ball fliegt, ein Glas wird umgestoßen. Das ist das, was wirklich wichtig ist.

Bisherige KI-Modelle (wie ein sehr fleißiger, aber etwas dummer Schüler) schauen sich jeden einzelnen Pixel jedes Bildes an. Sie versuchen, die Farbe der Wand genauso genau zu analysieren wie den fliegenden Ball. Das ist wie ein Detektiv, der sich die gesamte Wand eines Raumes genau anschaut, nur um zu bemerken, dass dort ein Schmetterling vorbeifliegt. Es kostet enorm viel Zeit und Energie, bringt aber wenig Erkenntnis.

Die Lösung: Der „Film-Regisseur" (OneVision-Encoder)

Das Team hinter OneVision-Encoder hat eine geniale Idee: Warum behandeln wir nicht alle Bilder gleich? Warum schauen wir uns nicht an, wie moderne Filmkameras (Video-Codecs) arbeiten?

In der Videotechnik gibt es zwei Arten von Bildern:

I-Frames (Das Hauptbild): Ein komplettes, scharfes Foto. Alles ist da.
P-Frames (Die Updates): Diese Bilder speichern nur die Änderungen. „Der Mann ist jetzt einen Schritt weiter links", „Der Ball ist höher". Der Rest (die Wand) wird einfach vom vorherigen Bild „herüberkopiert".

OneVision-Encoder macht genau das Gleiche, aber für die KI:

Es ignoriert den langweiligen Hintergrund (die Wand).
Es konzentriert sich nur auf die Bereiche, in denen sich etwas tut (der Mann, der Ball).
Es spart sich bis zu 97% der Rechenarbeit, indem es nur die „interessanten" Teile des Bildes betrachtet.

Die Analogie: Der Nachrichtensprecher

Stell dir vor, du musst einem Freund erzählen, was in einem 10-minütigen Video passiert.

Der alte Weg (Dichte Pixel-Grids): Du beschreibst jede Sekunde im Detail: „Sekunde 1: Die Wand ist weiß. Sekunde 2: Die Wand ist immer noch weiß. Sekunde 3: Die Wand ist immer noch weiß..." – Das ist langweilig und dauert ewig.
Der OneVision-Weg (Codec-Alignment): Du sagst: „Die Wand ist weiß. Plötzlich rennt ein Hund durch das Bild. Dann springt er." Du hast den Hintergrund nur einmal erwähnt und dich auf die Überraschungen (die Bewegung) konzentriert.

Das ist das Prinzip der Sparsamkeit: Weniger Daten verarbeiten, aber mehr Sinn daraus machen.

Wie funktioniert das technisch? (Ohne Fachchinesisch)

Der „Scharfsinnige Scanner" (Codec Patchification):
Das Modell schaut sich das Video an und fragt: „Wo ist Bewegung? Wo gibt es einen neuen Gegenstand?" Nur diese Stellen werden als „Tokens" (Bilder-Bruchstücke) an die KI weitergegeben. Der Rest wird ausgeblendet.
- Ergebnis: Statt 16.000 Bildteile zu verarbeiten, reicht es oft, nur 500 wichtige Teile zu sehen.
Der „Gedächtnis-Trainer" (Cluster Discrimination):
Die KI lernt nicht nur, Objekte zu erkennen, sondern auch, wie sie sich bewegen. Sie lernt, dass ein „laufender Hund" und ein „springender Hund" zur selben Gruppe gehören, auch wenn sie sich an verschiedenen Orten befinden. Sie sortiert das Gesehene in große Schubladen (Cluster) ein, anstatt jedes Bild einzeln auswendig zu lernen.
Der „3D-Kompass" (3D RoPE):
Damit die KI weiß, wo sich etwas war und wo es hin geht, nutzt sie einen speziellen Kompass, der Zeit, Höhe und Breite gleichzeitig versteht. So weiß sie: „Der Ball war links, jetzt ist er rechts – er bewegt sich also nach rechts."

Warum ist das so wichtig?

Die Ergebnisse sind beeindruckend:

Schneller: Da die KI weniger „Müll" (den statischen Hintergrund) verarbeiten muss, ist sie viel schneller.
Besser: Paradoxerweise ist sie auch genauer. Weil sie sich auf das Wesentliche konzentriert, versteht sie Bewegungen und Aktionen besser als Modelle, die alles gleich stark betrachten.
Effizient: Sie erreicht bessere Ergebnisse mit viel weniger Rechenleistung und weniger Trainingsdaten als ihre großen Konkurrenten (wie Qwen3-ViT oder SigLIP2).

Fazit

OneVision-Encoder ist wie ein kluger Regisseur, der weiß, dass man nicht jeden einzelnen Stein auf der Straße filmen muss, um eine Verfolgungsjagd spannend zu machen. Man braucht nur die Kamera auf die Action zu richten.

Durch das Nachahmen von Videotechnik (Codecs) hat dieses Modell bewiesen, dass weniger oft mehr ist. Es ist ein großer Schritt hin zu einer Künstlichen Intelligenz, die die Welt nicht nur „sieht", sondern wirklich „versteht", indem sie sich auf das konzentriert, was sich ändert – genau wie unser menschliches Gehirn es auch tut.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper identifiziert ein fundamentales Missverhältnis in aktuellen Vision-Transformern (ViT) für die Videoverarbeitung.

Ineffiziente Berechnung: Moderne Modelle verarbeiten Videodaten typischerweise als dichte Gitter von Pixeln (Frames), wobei jeder Frame gleichmäßig verarbeitet wird. Dies ignoriert die informationstheoretische Struktur von Videos.
Redundanz vs. Information: Videodaten sind hochgradig redundant; der Großteil des visuellen Inhalts ist aus dem Kontext vorhersagbar (statischer Hintergrund). Die eigentliche diskriminative Information („Überraschung") ist jedoch spärlich und konzentriert sich auf Bewegung und residuelle Änderungen.
Fehlende Ausrichtung: Aktuelle Architekturen verschwenden Rechenleistung auf statische Bereiche, anstatt sich auf die spärlichen, informationsreichen Regionen zu konzentrieren, die Bewegung und Bedeutung definieren.

2. Methodik: OneVision-Encoder

Die Autoren schlagen OneVision-Encoder (OV-Encoder) vor, ein HEVC-artiger (High Efficiency Video Coding) Vision Transformer, der die Architektur an die prädiktive Struktur von Videosignalen anpasst.

Kernkomponenten:

Codec Patchification (Kodierungs-basierte Patch-Auswahl):
- Anstatt Frames uniform zu patchen, nutzt der Encoder Signale aus Videocodecs (wie H.264/HEVC), um relevante Bereiche zu identifizieren.
- I-Frames (Intra-Coded): Werden vollständig kodiert, um den globalen räumlichen Kontext zu erhalten.
- P-Frames (Predicted): Werden basierend auf Bewegungsvektoren und Residual-Signalen (Restfehler nach Bewegungs-Kompensation) analysiert. Nur Patches mit hoher Signal-Entropie (starke Bewegung oder signifikante Änderungen) werden ausgewählt.
- Ergebnis: Es werden nur 3,1 % bis 25 % der ursprünglichen Patches verarbeitet, was eine massive Reduktion der Token-Anzahl bei gleichzeitiger Beibehaltung der zeitlichen Abdeckung ermöglicht.
Drei Eingabe-Modi (Unified Input):
1. Dense Video-Codec Patchification: Nutzt die Codec-Signale für die selektive Auswahl von Patches in dichten Videos.
2. Chunk-wise Patchification: Unterteilt Videos in zeitliche Abschnitte (Chunks) und wählt Patches auf Choke-Ebene aus, um nicht-uniforme Abtastung zu unterstützen.
3. Single-Image Spatial Patchification: Eine räumliche Variante für statische Bilder.
3D-RoPE (Rotary Positional Embedding):
- Um die unregelmäßigen Token-Layouts (durch die spärliche Auswahl) zu verarbeiten, wird eine gemeinsame 3D-RoPE verwendet.
- Diese kodiert relative Positionen in drei Dimensionen: Zeit ( $\Delta t$ ), Höhe ( $\Delta y$ ) und Breite ( $\Delta x$ ). Dies ermöglicht kohärente Aufmerksamkeit über irreguläre räumlich-zeitliche Muster hinweg.
Trainingsziel: Cluster-Diskriminierung:
- Statt reiner Rekonstruktion (wie MAE) oder einfacher Kontrast-Lernung (wie CLIP) wird ein selbstüberwachtes Cluster-Diskriminierungs-Objektiv verwendet.
- Ein großer Bank mit über 1 Million semantischen Clustern (Objekte und Bewegungen) dient als Referenz.
- Das Modell lernt, visuelle Embeddings diesen Clustern zuzuordnen, wodurch sowohl Objekt-Permanenz als auch Bewegungsdynamik gemeinsam erfasst werden.

3. Wichtige Beiträge

Neue Architektur: Einführung des OV-Encoders, der visuelle Modellierung als prädiktive Kompression neu definiert und sich an die Struktur von Videocodecs anlehnt.
Codec Patchification: Ein neuartiges Eingabe-Format, das Codec-Signale (Bewegung/Residuen) nutzt, um nur informative visuelle Patches selektiv zu kodieren, während die zeitliche Abdeckung erhalten bleibt.
Skalierbares Lernziel: Ein selbstüberwachter Ansatz, der Objekts- und Bewegungsebene durch große semantische Cluster vereint, ohne externe Sprachlabels zu benötigen.
Effizienz-Accuracy-Trade-off: Demonstration, dass Effizienz und Genauigkeit positiv korrelieren: Weniger Tokens führen zu besseren Ergebnissen, wenn diese Tokens informationsreich sind.

4. Ergebnisse

Die Evaluierung zeigt, dass OV-Encoder state-of-the-art (SOTA) Ergebnisse erzielt, oft mit deutlich weniger Ressourcen als vergleichbare Modelle.

Multimodale Benchmarks (LMM Probing):
- Integriert in Large Multimodal Models (LMMs) wie Qwen3-4B, übertrifft OV-Encoder starke Baselines wie Qwen3-ViT und SigLIP2 auf 16 Benchmarks (Video, Bild, Dokumente).
- Video-Verständnis: Durchschnittliche Verbesserung von 4,1 % gegenüber Qwen3-ViT.
- Ressourceneffizienz: Das Modell wurde mit deutlich weniger Trainingsdaten (ca. 100 Mrd. Caption-Tokens vs. 2,1 Billionen bei Qwen3-ViT) trainiert, erzielt aber bessere Ergebnisse.
Attentive Probing (Repräsentationsqualität):
- Auf dem Diving-48-Datensatz (Bewegungsfokus) erzielt OV-Encoder unter identischem Patch-Budget (2048 Patches) eine 17,1 % höhere Top-1-Genauigkeit gegenüber SigLIP2 und 8,1 % gegenüber DINOv3.
- Übertrifft auch MetaCLIP2 und AIMv2 in dichten Patch-Evaluierungen.
Effizienzanalyse:
- Bei gleicher Token-Budgetierung (z. B. 2048 Tokens) reduziert OV-Encoder die Verarbeitung um 75 % bis 96,9 % im Vergleich zur dichten Verarbeitung aller Frames, ohne an Genauigkeit zu verlieren.
- Die Methode erfasst kritische Bewegungsphasen (z. B. beim Tauchen oder Kochen), die bei uniformer Frame-Sampling oft übersehen werden.

5. Bedeutung und Fazit

Das Paper stellt eine Paradigmenverschiebung dar:

Von „Dicht" zu „Spärlich & Strukturiert": Es widerlegt die Annahme, dass für gutes Video-Verständnis dichte, gleichmäßige Verarbeitung notwendig ist. Stattdessen zeigt es, dass die Nachahmung der Informationsstruktur von Videocodecs (separierte räumliche Kontexte und spärliche zeitliche Updates) der Schlüssel zur Skalierbarkeit ist.
Fundamentales Prinzip: Codec-aligned Sparsity wird nicht als bloßer Optimierungstrick, sondern als fundamentales Prinzip für die nächste Generation universeller multimodaler Intelligenz positioniert.
Skalierbarkeit: Da die Methode Rechenleistung auf das Wesentliche (Bewegung und Bedeutung) konzentriert, ermöglicht sie das Training leistungsfähigerer Modelle mit weniger Daten und geringerer Rechenlast, was für die Entwicklung von Artificial General Intelligence (AGI) als Kompressionsproblem relevant ist.

Zusammenfassend beweist OneVision-Encoder, dass die Ausrichtung von Deep-Learning-Architekturen an den informationstheoretischen Prinzipien der Daten (hier: Video-Codecs) zu überlegener Effizienz und Genauigkeit führt.

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Das Grundproblem: Der „Lärm" im Bild

Die Lösung: Der „Film-Regisseur" (OneVision-Encoder)

Die Analogie: Der Nachrichtensprecher

Wie funktioniert das technisch? (Ohne Fachchinesisch)

Warum ist das so wichtig?

Fazit

1. Problemstellung

2. Methodik: OneVision-Encoder

Kernkomponenten:

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation