OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Der OneVision-Encoder stellt einen neuartigen multimodalen Ansatz vor, der durch die Ausrichtung auf codec-basierte Sparsity und die Fokussierung auf signifikante Bildbereiche nicht nur die Recheneffizienz steigert, sondern auch die Genauigkeit bei Bild- und Videoverständnis übertrifft.

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Lärm" im Bild

Stell dir vor, du schaut dir einen Film an. Was passiert eigentlich?

  • Der Hintergrund: Die Wände, der Himmel, der Tisch – diese Dinge bewegen sich kaum. Sie sind langweilig und vorhersehbar.
  • Die Aktion: Eine Person läuft vorbei, ein Ball fliegt, ein Glas wird umgestoßen. Das ist das, was wirklich wichtig ist.

Bisherige KI-Modelle (wie ein sehr fleißiger, aber etwas dummer Schüler) schauen sich jeden einzelnen Pixel jedes Bildes an. Sie versuchen, die Farbe der Wand genauso genau zu analysieren wie den fliegenden Ball. Das ist wie ein Detektiv, der sich die gesamte Wand eines Raumes genau anschaut, nur um zu bemerken, dass dort ein Schmetterling vorbeifliegt. Es kostet enorm viel Zeit und Energie, bringt aber wenig Erkenntnis.

Die Lösung: Der „Film-Regisseur" (OneVision-Encoder)

Das Team hinter OneVision-Encoder hat eine geniale Idee: Warum behandeln wir nicht alle Bilder gleich? Warum schauen wir uns nicht an, wie moderne Filmkameras (Video-Codecs) arbeiten?

In der Videotechnik gibt es zwei Arten von Bildern:

  1. I-Frames (Das Hauptbild): Ein komplettes, scharfes Foto. Alles ist da.
  2. P-Frames (Die Updates): Diese Bilder speichern nur die Änderungen. „Der Mann ist jetzt einen Schritt weiter links", „Der Ball ist höher". Der Rest (die Wand) wird einfach vom vorherigen Bild „herüberkopiert".

OneVision-Encoder macht genau das Gleiche, aber für die KI:

  • Es ignoriert den langweiligen Hintergrund (die Wand).
  • Es konzentriert sich nur auf die Bereiche, in denen sich etwas tut (der Mann, der Ball).
  • Es spart sich bis zu 97% der Rechenarbeit, indem es nur die „interessanten" Teile des Bildes betrachtet.

Die Analogie: Der Nachrichtensprecher

Stell dir vor, du musst einem Freund erzählen, was in einem 10-minütigen Video passiert.

  • Der alte Weg (Dichte Pixel-Grids): Du beschreibst jede Sekunde im Detail: „Sekunde 1: Die Wand ist weiß. Sekunde 2: Die Wand ist immer noch weiß. Sekunde 3: Die Wand ist immer noch weiß..." – Das ist langweilig und dauert ewig.
  • Der OneVision-Weg (Codec-Alignment): Du sagst: „Die Wand ist weiß. Plötzlich rennt ein Hund durch das Bild. Dann springt er." Du hast den Hintergrund nur einmal erwähnt und dich auf die Überraschungen (die Bewegung) konzentriert.

Das ist das Prinzip der Sparsamkeit: Weniger Daten verarbeiten, aber mehr Sinn daraus machen.

Wie funktioniert das technisch? (Ohne Fachchinesisch)

  1. Der „Scharfsinnige Scanner" (Codec Patchification):
    Das Modell schaut sich das Video an und fragt: „Wo ist Bewegung? Wo gibt es einen neuen Gegenstand?" Nur diese Stellen werden als „Tokens" (Bilder-Bruchstücke) an die KI weitergegeben. Der Rest wird ausgeblendet.

    • Ergebnis: Statt 16.000 Bildteile zu verarbeiten, reicht es oft, nur 500 wichtige Teile zu sehen.
  2. Der „Gedächtnis-Trainer" (Cluster Discrimination):
    Die KI lernt nicht nur, Objekte zu erkennen, sondern auch, wie sie sich bewegen. Sie lernt, dass ein „laufender Hund" und ein „springender Hund" zur selben Gruppe gehören, auch wenn sie sich an verschiedenen Orten befinden. Sie sortiert das Gesehene in große Schubladen (Cluster) ein, anstatt jedes Bild einzeln auswendig zu lernen.

  3. Der „3D-Kompass" (3D RoPE):
    Damit die KI weiß, wo sich etwas war und wo es hin geht, nutzt sie einen speziellen Kompass, der Zeit, Höhe und Breite gleichzeitig versteht. So weiß sie: „Der Ball war links, jetzt ist er rechts – er bewegt sich also nach rechts."

Warum ist das so wichtig?

Die Ergebnisse sind beeindruckend:

  • Schneller: Da die KI weniger „Müll" (den statischen Hintergrund) verarbeiten muss, ist sie viel schneller.
  • Besser: Paradoxerweise ist sie auch genauer. Weil sie sich auf das Wesentliche konzentriert, versteht sie Bewegungen und Aktionen besser als Modelle, die alles gleich stark betrachten.
  • Effizient: Sie erreicht bessere Ergebnisse mit viel weniger Rechenleistung und weniger Trainingsdaten als ihre großen Konkurrenten (wie Qwen3-ViT oder SigLIP2).

Fazit

OneVision-Encoder ist wie ein kluger Regisseur, der weiß, dass man nicht jeden einzelnen Stein auf der Straße filmen muss, um eine Verfolgungsjagd spannend zu machen. Man braucht nur die Kamera auf die Action zu richten.

Durch das Nachahmen von Videotechnik (Codecs) hat dieses Modell bewiesen, dass weniger oft mehr ist. Es ist ein großer Schritt hin zu einer Künstlichen Intelligenz, die die Welt nicht nur „sieht", sondern wirklich „versteht", indem sie sich auf das konzentriert, was sich ändert – genau wie unser menschliches Gehirn es auch tut.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →