Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover inviare a un amico un video di 81 secondi. Normalmente, per farlo, dovresti comprimere il file in un formato digitale (come MP4 o AVI), che è come impilare milioni di mattoncini Lego (i pixel) in un pacchetto. Più il pacchetto è piccolo, più perdi dettagli e qualità.

Questo articolo propone un modo completamente diverso per "inviare" quel video. Invece di inviare i mattoncini, invii le istruzioni per costruirli.

Ecco come funziona, spiegato con metafore semplici:

1. Il "Cucina Preparata" (Il Modello Generativo)

Immagina che esista un cuoco super-intelligente (il "Modello Generativo") che ha già cucinato milioni di piatti. Conosce perfettamente come appare una pizza, un tramonto o una persona che ride. Questo cuoco ha tutta la conoscenza visiva del mondo nella sua testa.

Il problema: Di solito, se vuoi che il cuoco ti mostri un video specifico, devi dargli un foglio pieno di istruzioni dettagliatissime (i pixel del video). È come se dovessi descrivere a un esperto di cucina ogni singolo granello di sale nella tua ricetta. È inefficiente.
La soluzione: Invece di dargli il video, gli dai un piccolissimo promemoria che dice: "Ricordati di cucinare quel video specifico".

2. L'Adattamento "LoRA" (Il Promemoria)

Gli autori usano una tecnica chiamata LoRA (Low-Rank Adaptation). Immagina che il cuoco abbia un enorme libro di ricette (il modello congelato). Invece di riscrivere tutto il libro per il tuo video, gli attaccano un piccolo foglietto adesivo con le modifiche necessarie.

Questo foglietto dice: "Quando cucini, modifica leggermente questo ingrediente e quel movimento".
Il video non è più un file di dati, ma diventa una funzione matematica: "Se prendi il cuoco e gli dai questo foglietto, lui ricrea il video".
È come se non inviassi la foto del tuo cane, ma inviassi un piccolo codice che dice al cuoco: "Disegna il mio cane, ma con le orecchie più lunghe e la coda arricciata".

3. La "Chiave Universale" (Compressione in un Vettore)

Il foglietto adesivo (i parametri LoRA) è ancora un po' grande. Quindi, gli autori usano un trucco magico (chiamato "hashing") per trasformare tutto quel foglietto in un'unica stringa di numeri, un "vettore" compatto.

L'analogia: Immagina di dover inviare la ricetta di un intero ristorante. Invece di spedire 100 pagine di carta, spedisci un solo numero di telefono. Chiunque chiami quel numero, se ha il libro delle ricette originale (il cuoco), può ricostruire l'intero menu.
Risultato: Un video di 81 secondi viene compresso in un singolo vettore minuscolo. È una compressione estrema, molto più piccola di qualsiasi file video esistente oggi.

4. Il "Controllo in Tempo Reale" (Inference-Time Scaling)

Questa è la parte più magica. Poiché non stai inviando un video statico, ma le istruzioni per crearlo, puoi modificare il processo mentre avviene.

L'analogia: Immagina di guardare un film in TV. Di solito, se la qualità è bassa, è bassa per sempre. Con questo metodo, è come se avessi un telecomando che ti permette di dire al cuoco: "Aspetta, prima di servire, controlla meglio quel piatto. Riprova a cucinarlo 10 volte e scegli la versione migliore".
Questo permette di migliorare la qualità del video al momento della ricezione, senza dover inviare più dati. È come se il video diventasse più nitido e realistico man mano che il computer "pensa" di più a come costruirlo.

5. La "Memoria Visiva"

Infine, questo metodo trasforma il video in una sorta di memoria persistente.

Una volta che hai salvato quel "foglietto adesivo" (il vettore), puoi usarlo non solo per rivedere il video originale, ma anche per modificarlo.
Esempio: Hai salvato un video di una ragazza che ride. Puoi dire al sistema: "Rigenera quel video, ma fai in modo che la ragazza abbia i capelli rossi invece che neri". Il sistema userà la sua "memoria" del video originale e applicherà la nuova istruzione.

In Sintesi

Invece di inviare un fotocopia (il file video compresso), questo metodo invia le istruzioni per disegnare il quadro (l'adattamento del modello).

Vantaggio: Il file è minuscolo (pochi bit).
Vantaggio: La qualità è altissima perché il "disegnatore" (il modello AI) sa già come funzionano le cose.
Vantaggio: Puoi cambiare il disegno mentre lo stai creando.

È come passare dall'invio di una foto stampata all'invio di un codice segreto che fa apparire la foto direttamente nella mente di chi la riceve, con la possibilità di cambiarne i colori o i dettagli al volo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I moderni modelli generativi visivi su larga scala (come i modelli di diffusione per immagini e video) hanno acquisito una ricca conoscenza visiva attraverso l'addestramento su dataset massicci. Tuttavia, esiste una disconnessione fondamentale:

Rappresentazioni Esterne: I segnali visivi (pixel, latenti o token) sono rappresentati in modo esplicito e rimangono esterni al modello. Devono essere codificati separatamente e poi inseriti nel modello per interazioni come l'editing.
Inefficienza: Questa separazione tra la conoscenza interna del modello e le rappresentazioni esterne del segnale porta a ridondanza e inefficienza nella compressione.
Limiti degli INR: Le rappresentazioni neurali implicite (INR) esistenti comprimono i segnali come funzioni continue, ma sono spesso addestrate da zero, senza sfruttare la conoscenza pre-addestrata dei grandi modelli generativi.

L'obiettivo è colmare questo divario creando un framework che utilizzi la conoscenza interna del modello generativo per comprimere i segnali visivi in modo estremamente compatto, trasformando la compressione in un processo di adattamento del modello stesso.

2. Metodologia

Il paper propone un nuovo framework che rappresenta un segnale visivo non come un array di dati, ma come una funzione che descrive il processo di generazione di quel segnale. Questa funzione è parametrizzata da adattamenti a basso rango (LoRA) applicati a un modello generativo visivo congelato (frozen).

A. Rappresentazione Implicita come Adattamento

Invece di comprimere "cosa" è il segnale, il metodo comprime "come" generare il segnale.

Adattamento LoRA: Si utilizza il Parameter-Efficient Fine-Tuning (PEFT), specificamente il Low-Rank Adaptation (LoRA), per adattare un modello di diffusione (o flow-matching) pre-addestrato a un singolo segnale visivo (es. un video di 81 frame).
Obiettivo di Addestramento: Si ottimizzano i parametri LoRA per minimizzare la distanza tra il percorso di generazione del modello adattato e il segnale target, partendo dal rumore. Matematicamente, questo equivale a trovare la misura di percorso che si discosta il meno possibile dalla misura pre-addestrata (minimizzando l'entropia relativa o KL-divergenza) pur ricostruendo il segnale finale.

B. Compressione in un Vettore Unico (One-Vector)

Per rendere la rappresentazione pratica per la compressione:

Hashing dei Parametri: Invece di memorizzare le matrici LoRA per ogni layer (che sarebbero ancora troppo grandi), tutti i parametri di adattamento vengono mappati in un singolo vettore compatto ( $v \in \mathbb{R}^{1 \times k}$ ) tramite una proiezione fissa e un generatore di numeri pseudo-casuali (PRNG). Questo concetto è simile al lavoro recente Uni-LoRA.
Vincolo di Entropia: Il vettore viene quantizzato e codificato con un modello di entropia (simile ai codec neurali classici) per ottenere un bitrate estremamente basso (circa 1-3 bit per parametro).
Decodifica: Il decoder riceve il vettore compatto, lo espande nei parametri LoRA tramite la stessa proiezione e PRNG, e li inietta nel modello generativo congelato per ricostruire il video.

C. Scaling e Controllo al Tempo di Inferenza

Una caratteristica distintiva è che la rappresentazione è una funzione, non un codice statico. Questo permette:

Inference-Time Scaling: Durante la decodifica (o codifica), è possibile eseguire più passi di campionamento o selezionare tra più percorsi di denoising (usando tecniche come Sequential Monte Carlo o Importance Sampling) per migliorare la qualità senza cambiare il vettore compresso.
Memoria Visiva: L'adattamento LoRA funge da "memoria visiva" persistente. Una volta compresso, il vettore può essere riutilizzato per generare variazioni del contenuto originale o per editing semantico modificando il prompt testuale, mantenendo l'identità visiva.

3. Contributi Chiave

Nuovo Framework di Rappresentazione: Introduzione di un metodo che rappresenta i segnali visivi come funzioni di generazione adattate a modelli foundation, sfruttando direttamente la conoscenza pre-addestrata.
Compressione in Vettore Singolo: Proposta di una tecnica che comprime intere rappresentazioni LoRA in un singolo vettore tramite hashing, permettendo la compressione di video (es. 81 frame a 480p) in un'unica entità vettoriale.
Vantaggi dell'Inferenza: Dimostrazione che le rappresentazioni funzionali permettono un controllo flessibile al momento dell'inferenza. Viene introdotta una strategia di inference-time scaling che migliora significativamente la fedeltà della ricostruzione con un costo computazionale minimo aggiuntivo.
Unificazione Compressione-Generazione: Il lavoro suggerisce un framework unificato che collega la compressione visiva e la generazione adattiva, trasformando i dati compressi in "memorie" attive per modelli generativi.

4. Risultati Sperimentali

Il metodo, denominato VOV (Vision/Video in One Vector), è stato valutato su dataset standard come UVG e HEVC.

Prestazioni di Compressione: VOV raggiunge prestazioni di compressione percettiva molto forti a bitrate estremamente bassi (sotto 0.01 bpp), superando o competendo con codec neurali avanzati (come DCVC-RT) e codec tradizionali (H.265/HEVC, H.266/VVC) in termini di metriche percettive (DISTS, FVD, LPIPS).
Qualità Visiva: Sebbene le metriche basate sui pixel (PSNR) possano essere più basse rispetto ad altri metodi (tipico dei metodi generativi), la qualità percettiva è superiore. I video ricostruiti mostrano strutture visive plausibili, dettagli fini e una coerenza temporale migliore (meno sfarfallio) grazie ai priors temporali del modello di diffusione.
Impatto dello Scaling: L'uso dello inference-time scaling (es. 1000 passi di denoising o selezione multi-campione) porta a guadagni sostanziali nella qualità di ricostruzione con un aumento marginale del bitrate.
Editing e Fusione: Gli esperimenti dimostrano che i vettori adattati possono essere usati per editing semantico (cambiare colore, numero di oggetti, fusione di immagini) e generazione personalizzata, confermando il loro ruolo come memoria visiva.

5. Significato e Implicazioni

Questo lavoro rappresenta un cambio di paradigma nella compressione visiva:

Dalla Codifica alla Generazione: Sposta il focus dalla codifica esplicita dei dati alla codifica dei parametri di generazione. Il segnale non è più un file da trasmettere, ma un'istruzione su come modificare un modello generativo universale.
Efficienza e Flessibilità: Offre un potenziale per archiviazione e trasmissione ultra-compatta, dove un singolo vettore può contenere un intero video ad alta qualità, decodificabile con qualsiasi modello generativo compatibile.
Ponte tra Campi: Colma il divario tra compressione e modelli generativi, suggerendo che in futuro i dati compressi potrebbero essere direttamente integrati nei modelli foundation come "memorie" per l'editing e la generazione contestuale, eliminando la necessità di codec tradizionali basati su trasformate (DCT, Wavelet) o latenti fissi.

In sintesi, il paper dimostra che la compressione può essere vista come un processo di adattamento del modello, permettendo di immagazzinare informazioni visive complesse in spazi vettoriali estremamente ridotti, mantenendo al contempo la capacità di manipolare e rigenerare il contenuto in modo intelligente.