OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Het artikel introduceert OneVision-Encoder, een multimodaal model dat de principes van videocodecs toepast door zich te richten op de meest informatieve, sparsere gebieden in plaats van uniforme beeldverwerking, wat resulteert in superieure prestaties en efficiëntie op diverse visuele taken.

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎬 De Grote Droom: Een Slimme Camera die "Begrijpt"

Stel je voor dat je een camera hebt die niet alleen plaatjes maakt, maar ook echt begrijpt wat er gebeurt. Of het nu een film is, een foto van een hond, of een document met tekst. Dit is wat kunstmatige intelligentie (AI) probeert te doen. Maar tot nu toe waren deze camera's een beetje dom: ze keken naar elk stukje van het beeld, of het nu belangrijk was of niet.

Dit is alsof je een heel boek leest om te weten wat er in de laatste zin staat, terwijl je gewoon naar de samenvatting had kunnen kijken. Het kost veel tijd en energie (rekenkracht), maar levert weinig extra inzicht op.

🧠 De Grote Idee: "Kijk alleen naar het interessante"

De onderzoekers van dit paper hebben een nieuw idee: Waarom kijken we naar alles?

In een video is het grootste deel van het beeld saai en saai. De muur op de achtergrond verandert niet. De lucht blijft blauw. Wat er echt gebeurt, is dat een persoon loopt of een bal springt. Dat is het "interessante" deel.

De onderzoekers zeggen: "Laten we de camera zo programmeren dat hij alleen kijkt naar de beweging en de veranderingen, en negeert de saaie, statische delen."

Ze noemen dit OneVision-Encoder. Het is als een slimme cameraman die niet naar de hele zaal kijkt, maar alleen de lens richt op de acteur die iets doet.

🎞️ De Vergelijking: De Videocoder (Codec) als Gids

Hoe weten ze wat interessant is? Ze kijken naar hoe videobestanden (zoals op YouTube of Netflix) al werken.

  • Hoe het nu werkt (de oude manier): Een computer kijkt naar 64 beelden per seconde en behandelt elk pixelnetje even belangrijk. Alsof je 64 keer hetzelfde plaatje bekijkt, alleen met een klein verschil.
  • Hoe het werkt in de echte wereld (de nieuwe manier): Videobestanden gebruiken een trucje (een codec, zoals H.264). Ze zeggen: "Oké, dit plaatje is de basis (I-frame). De volgende plaatjes zijn bijna hetzelfde, alleen hier en daar beweegt iets. Laten we alleen die beweging opslaan."

De onderzoekers hebben deze truc overgenomen. Ze gebruiken de bewegingsinformatie die al in het videobestand zit om te bepalen: "Kijk hier! Iets beweegt! Kijk hier niet! Dit is een saaie muur."

🧩 De Analogie: De "Puzzel" van de AI

Stel je voor dat je een enorme puzzel moet maken van een video.

  1. De oude manier (Dense Grid): Je probeert elke puzzelstukje van de 64 frames te gebruiken. Je hebt duizenden stukjes nodig, en je raakt de tafel vol. Het duurt eeuwen om de puzzel te leggen.
  2. De nieuwe manier (OneVision-Encoder): Je pakt alleen de puzzelstukjes die de beweging tonen. De stukjes van de saaie muur gooi je weg.
    • Je hebt nu 90% minder stukjes nodig.
    • Maar omdat je alleen de belangrijke stukjes hebt, is de puzzel sneller klaar en beter te begrijpen.

Het resultaat? De AI wordt sneller, slimmer en gebruikt minder energie, terwijl hij toch alles ziet wat belangrijk is.

🚀 Wat levert dit op?

De onderzoekers hebben hun nieuwe "camera" (OneVision-Encoder) getest tegen de beste andere camera's ter wereld (zoals SigLIP en Qwen3-ViT).

  • Bij het kijken naar video's: De nieuwe camera is veel beter in het begrijpen van beweging. Bijvoorbeeld: het ziet precies hoe iemand duikt of kookt, zelfs als het heel snel gaat.
  • Bij het lezen van teksten en documenten: Omdat de camera zo slim is, kan hij ook tekst in plaatjes beter begrijpen.
  • Efficiëntie: Het gebruikt veel minder rekenkracht. Het is alsof je een Ferrari hebt die 10 keer minder benzine verbruikt, maar sneller rijdt.

💡 De Kernboodschap in één zin

"Waarom kijken naar het hele bos als je alleen naar de bomen hoeft te kijken die bewegen?"

OneVision-Encoder leert AI om te kijken zoals de natuur werkt: niet naar alles tegelijk, maar slim te focussen op wat er echt gebeurt. Dit maakt de volgende generatie slimme computers veel sneller en slimmer.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →