Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover raccontare una storia complessa a un amico molto intelligente (un'intelligenza artificiale), ma hai solo un tempo brevissimo per parlargli. Se provi a descrivere ogni singolo dettaglio di un video di un'ora, il tuo amico si confonderà, si stancherà e probabilmente dimenticherà i punti importanti.

Questo è esattamente il problema che affrontano i Video Large Language Models (VLLM): devono "guardare" migliaia di fotogrammi di un video, ma i computer si bloccano perché c'è troppa informazione ridondante (ripetitiva).

La soluzione proposta in questo articolo si chiama AOT (Optimal Transport per Ancoraggi Locali e Globali). Ecco come funziona, spiegato con metafore semplici:

1. Il Problema: Troppa "Rumore" di Fondo

Immagina di guardare un video di una festa. Ci sono centinaia di persone che si muovono, ma la storia vera riguarda solo due amici che stanno parlando.
I metodi attuali per comprimere i video sono come se qualcuno ti dicesse: "Taglia via tutte le persone che non parlano".
Il problema? A volte tagli via anche un dettaglio importante (come un regalo nascosto in una tasca) o un'azione sottile che cambia il senso della storia. Oppure, uniscono persone che sembrano simili ma hanno ruoli diversi, perdendo la sfumatura.

2. La Soluzione: Gli "Ancoraggi" (I Guardiani della Storia)

Gli autori dicono: "Non buttiamo via i dettagli, trasformiamoli!".
Invece di cancellare i fotogrammi o i pixel meno importanti, creiamo dei "Guardiani" (chiamati Token Anchors).

Come si scelgono i Guardiani?
Immagina di dividere la scena in due livelli:
1. Il Guardiano Globale: Guarda l'intera stanza e sceglie le persone più importanti (chi sta parlando, chi è al centro dell'azione).
2. Il Guardiano Locale: Guarda ogni angolo della stanza per assicurarsi che non ci siano dettagli importanti nascosti in un angolo buio (un oggetto sul tavolo, un'espressione facciale).
  Questi Guardiani diventano i "punti di riferimento" su cui costruire la nostra versione ridotta del video.

3. Il Trucco Magico: Il "Trasporto Ottimale" (Il Camionista Intelligente)

Qui entra in gioco la parte più creativa, chiamata Optimal Transport (Trasporto Ottimale).
Immagina che i dettagli che stiamo per "tagliare" (le persone in secondo piano, le azioni ripetitive) siano dei fornitori di informazioni. I nostri Guardiani sono i clienti che hanno bisogno di informazioni.

Invece di dire "Via, non ti voglio", il sistema fa una domanda intelligente: "Quanto di questa informazione che sto per tagliare è utile per il mio Guardiano?".

L'analogia del Camionista:
Immagina un camionista (l'algoritmo) che deve trasportare merci (informazioni) dai fornitori (i pixel da tagliare) ai magazzini (i Guardiani).
Il camionista non prende tutto a caso. Calcola il percorso più efficiente per portare solo la merce preziosa dai fornitori ai magazzini, mescolandola perfettamente.
- Se un pixel "da tagliare" contiene un dettaglio cruciale (es. un colore specifico dei pantaloni), il camionista lo carica sul camion e lo consegna al Guardiano appropriato.
- Il Guardiano diventa così più ricco e informato di prima, perché ha assorbito i dettagli migliori di tutto ciò che è stato rimosso.

4. Nel Tempo: Il Film che Avanza

Questo processo non avviene solo su un'immagine fissa, ma scorre nel tempo (tra un fotogramma e l'altro).

Se due fotogrammi sono identici (una persona che sta ferma), il sistema fonde le informazioni nel Guardiano del primo fotogramma.
Se c'è un cambiamento improvviso (la persona inizia a correre), il sistema dice: "Aspetta, questo è un cambiamento importante! Tienilo separato per non perdere il movimento".

Il Risultato Finale

Grazie a questo metodo, il computer può guardare un video di un'ora come se fosse un video di pochi secondi, ma senza perdere la storia.

Efficienza: Usa il 90% in meno di energia e tempo di calcolo.
Qualità: Mantiene il 97% della capacità di comprensione originale, perché non ha "buttato via" nulla, l'ha solo riarrangiato in modo intelligente.

In sintesi:
Invece di buttare via la spazzatura (i pixel ridondanti), questo metodo prende i pezzi preziosi nascosti nella spazzatura e li incolla intelligentemente sui punti chiave del video, creando una versione super-compressa ma perfetta del film. È come riassumere un libro di 1000 pagine in 10 pagine, ma assicurandosi che ogni parola importante e ogni dettaglio emotivo siano stati salvati e trasferiti nel riassunto.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Modelli Linguistici Video (VLLM) hanno dimostrato capacità eccezionali nella comprensione del contenuto video, ma soffrono di una bassa efficienza computazionale e di un elevato consumo di memoria.

Ridondanza: I video generano un numero enorme di token visivi (spesso decine di migliaia per video lunghi), molti dei quali sono ridondanti.
Limitazioni degli approcci esistenti: I metodi di pruning (potatura) attuali si concentrano principalmente sulla ridondanza spaziale intra-frame (all'interno dello stesso frame) o operano all'interno del LLM con overhead di strati superficiali.
Perdita di informazioni: Questi metodi tendono a scartare o fondere token in modo ingenuo, perdendo contesti sottili ma informativi e non sfruttando appieno la comprimibilità dei contesti a lungo termine (temporale). Spesso ignorano le dipendenze temporali tra i frame.

2. Metodologia: AOT (Anchors via Optimal Transport)

Gli autori propongono AOT, un approccio training-free (senza riaddestramento) che riduce i token video aggregando contesti informativi sottili dai token rimossi verso un set ridotto di "token ancora" (token anchors). Il metodo si basa su due fasi principali guidate dal Trasporto Ottimale (Optimal Transport - OT).

A. Istituzione degli "Token Anchors" (Local-Global)

Prima della riduzione, il sistema seleziona un set iniziale di token ancora per ogni frame, combinando due strategie:

Ancore Globali: Selezionano i token che ricevono la massima attenzione dal token [CLS] (o tramite auto-attenzione media) nello strato finale del codificatore visivo, catturando l'informazione globale.
Ancore Locali: Dividono l'immagine in finestre non sovrapposte e selezionano i token più importanti in ciascuna finestra (basati sull'attenzione di uno strato superficiale), preservando i dettagli locali e la diversità spaziale.
Il set finale di ancora è l'unione di queste due selezioni.

B. Pruning Spaziotemporale tramite Trasporto Ottimale (OT)

Il cuore dell'innovazione è l'uso dell'OT per aggregare le informazioni dai token scartati verso le ancora, invece di cancellarli semplicemente.

Fase 1: Pruning Intra-Frame (Spaziale)
- I token ancora ( $X_a$ ) e i token non selezionati ( $X_u$ ) sono trattati come due distribuzioni discrete.
- Viene calcolato un piano di trasporto ottimale che minimizza il costo (basato sulla distanza di similarità coseno inversa) per "spostare" il contesto dai token $X_u$ verso le ancora $X_a$ .
- Le ancora vengono aggiornate pesando l'aggiunta delle informazioni dai token rimossi in base alla massa trasportata, preservando così i dettagli semantici persi.
Fase 2: Pruning Inter-Frame (Temporale)
- I frame sono suddivisi in clip temporali. Il primo frame di ogni clip funge da ancora temporale iniziale.
- Per i frame successivi, l'OT aggrega i token simili tra i frame consecutivi nelle ancora della clip.
- Gestione della Dinamica: Se un token mostra un cambiamento temporale drastico (bassa probabilità di essere assegnato a un'ancora stabile), viene mantenuto intatto per preservare la dinamica temporale. Altrimenti, viene fuso nelle ancora.

C. Efficienza Computazionale

La soluzione del piano di trasporto ottimale viene calcolata efficientemente utilizzando l'iterazione Sinkhorn-Knopp, che permette di risolvere il problema in modo iterativo e veloce con un overhead computazionale trascurabile (meno dell'1% del tempo totale di inferenza).

3. Contributi Chiave

Nuova Prospettiva di Aggregazione: Per la prima volta, il paper propone di aggregare attivamente la semantica e il contesto dai token fusi o rimossi verso i token rimanenti, invece di limitarsi a eliminarli.
Selezione Ibrida Local-Global: Un meccanismo per istituire ancora token che bilanciano l'importanza semantica globale e la diversità spaziale locale.
Ottimizzazione Spaziotemporale senza Training: L'uso del Trasporto Ottimale per comprimere il contesto sia all'interno dei frame che tra i frame, mantenendo la fedeltà temporale e visiva senza necessità di fine-tuning del modello.
Prestazioni Superiori: Dimostrazione empirica che questo approccio supera i metodi esistenti mantenendo l'integrità del video.

4. Risultati Sperimentali

Il metodo è stato valutato su modelli come LLaVA-OneVision-7B e LLaVA-Video-7B su benchmark standard (MVBench, LongVideoBench, EgoSchema, VideoMME).

Efficienza: AOT riduce il costo computazionale (FLOPs) a circa l'8.3% del valore originale (riducendo i token del 90%).
Prestazioni: Nonostante l'aggressiva compressione, il modello mantiene il 97.6% delle prestazioni del modello originale (vanilla) su tutti i benchmark.
Confronto: Supera significativamente metodi training-free come FastV, VisionZip, DyCoke e PruneVid, specialmente a tassi di ritenzione dei token molto bassi (es. 10%).
Scalabilità: Il metodo dimostra robustezza sia con pochi frame (16) che con molti (128), evitando i limiti di lunghezza del contesto che affliggono i modelli vanilla.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti significativo per l'efficienza dei VLLM.

Praticità: Essendo un metodo training-free, può essere applicato a qualsiasi VLLM esistente senza costi di addestramento o risorse hardware aggiuntive per il fine-tuning.
Qualità dell'Informazione: Dimostra che la ridondanza nei video non deve essere semplicemente "cancellata", ma può essere "distillata" e trasferita strategicamente per mantenere la comprensione semantica.
Futuro: Apre la strada a sistemi di inferenza video più veloci e scalabili, rendendo possibile l'elaborazione di video lunghi e complessi su hardware limitato, preservando al contempo la fedeltà temporale e visiva necessaria per compiti avanzati di comprensione.