OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Il paper presenta OneVision-Encoder, un modello che allinea l'architettura visiva ai principi di compressione dei codec video per concentrare il calcolo solo sulle regioni ad alta entropia, ottenendo così una maggiore efficienza e prestazioni superiori rispetto ai backbone esistenti su compiti di comprensione multimodale.

Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Pubblicato 2026-02-27
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover guardare un film intero, ma invece di guardare ogni singolo fotogramma per 2 ore, il tuo cervello decide di guardare solo i momenti in cui succede qualcosa di importante: un'esplosione, un cambio di espressione, un oggetto che si muove. Tutto il resto (il cielo statico, gli alberi fermi, lo sfondo) lo ignori perché non ti dice nulla di nuovo.

Questo è esattamente il principio su cui si basa OneVision-Encoder, un nuovo sistema di intelligenza artificiale presentato da Glint Lab e altri laboratori di ricerca.

Ecco la spiegazione semplice, con qualche analogia per renderla chiara a tutti.

1. Il Problema: Guardare tutto, ma non capire nulla

Fino a oggi, i computer che "vedono" i video funzionavano come un turista che guarda un panorama: scatta una foto ogni secondo, indipendentemente da cosa succede. Se c'è un albero fermo per 10 secondi, il computer continua a scattare foto dell'albero fermo.

  • Il risultato: Spreca una quantità enorme di energia e tempo per elaborare cose che non cambiano, perdendo di vista i dettagli importanti che accadono velocemente. È come cercare di leggere un libro leggendo ogni singola lettera, anche quelle che formano parole che già conosci a memoria.

2. La Soluzione: I "Codec" come Maestri

Gli autori del paper hanno avuto un'idea geniale: guardare come funzionano i codec video (come quelli usati da YouTube, Netflix o WhatsApp per comprimere i video).

  • L'analogia del Codec: Quando un codec comprime un video, non salva ogni fotogramma intero. Salva un fotogramma completo (chiamato I-Frame, come una foto normale) e poi, per i fotogrammi successivi, salva solo cosa è cambiato (chiamato P-Frame). Se un'auto si muove, il codec salva solo il movimento dell'auto, non l'intero sfondo della strada che è rimasto uguale.
  • La rivoluzione: OneVision-Encoder imita questo comportamento. Invece di guardare tutto il video in modo uniforme, guarda solo le "parti che si muovono" o che cambiano.

3. Come funziona in pratica? (L'analogia del Filtro Magico)

Immagina di avere un video di 64 secondi.

  • Metodo vecchio: Prende 64 fotogrammi completi. Sono tantissimi dati da processare.
  • Metodo OneVision (Codec-Aligned):
    1. Prende il primo fotogramma completo (l'I-Frame) per capire la scena.
    2. Per i restanti 63 secondi, usa un "filtro magico" che guarda solo dove c'è movimento o sorpresa (i residui).
    3. Risultato: Invece di processare il 100% dei dati, ne processa solo tra il 3% e il 25%.
    4. Il trucco: Non perde le informazioni importanti! Anzi, le concentra tutte sui momenti che contano davvero. È come se invece di bere un secchio d'acqua per dissetarsi, bevessi solo il succo concentrato: più potente, meno spreco.

4. Perché è così potente?

Il paper dimostra che questo approccio non è solo più veloce, ma più intelligente.

  • Efficienza e Intelligenza vanno a braccetto: Di solito, per essere più precisi, devi usare più potenza di calcolo. Qui, tagliando il "rumore di fondo" (le parti statiche), il modello si concentra sul "segnale" (il movimento e il significato).
  • Risultati: Quando questo "occhio intelligente" viene collegato a grandi modelli linguistici (come quelli che usano ChatGPT), supera i migliori sistemi attuali (come Qwen3-ViT o SigLIP2) in compiti di comprensione video, immagini e documenti, pur usando molto meno dati e molte meno risorse.

5. L'Analogia Finale: Il Detective vs. La Telecamera di Sorveglianza

  • I vecchi modelli sono come una telecamera di sorveglianza che registra 24 ore su 24, salvando ogni secondo di un corridoio vuoto. Quando qualcuno passa, è difficile trovare quel momento specifico tra ore di filmato inutile.
  • OneVision-Encoder è come un detective esperto. Il detective guarda il corridoio vuoto e sa che non succede nulla. Non registra nulla. Ma appena sente un rumore o vede un'ombra muoversi, si attiva immediatamente e registra solo quel momento specifico con alta definizione.

In sintesi

OneVision-Encoder ci insegna che per essere intelligenti, non serve guardare tutto. Serve sapere cosa guardare.
Spostando l'attenzione dai "pixel statici" ai "movimenti significativi", questo nuovo sistema crea un'intelligenza artificiale che vede il mondo non come una griglia di punti, ma come una storia di cambiamenti e azioni, esattamente come facciamo noi esseri umani. È un passo fondamentale verso un'Intelligenza Artificiale Generale che capisce il mondo in modo più naturale ed efficiente.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →