Content-Aware Mamba for Learned Image Compression

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover inviare una valigia piena di vestiti a un amico lontano. Il tuo obiettivo è farla entrare in un bagaglio a mano (ridurre le dimensioni) senza che i vestiti si rovinino (mantenere la qualità).

Il Problema: La Valigia Rigida

Fino a poco tempo fa, i computer usavano due metodi principali per comprimere le immagini:

I "Mattoncini" (CNN): Guardano l'immagine pezzo per pezzo, come se analizzassero un muro mattone per mattone. Funzionano bene, ma non vedono il quadro intero.
I "Super-Occhi" (Transformer): Guardano tutto l'immagine insieme. Vedono subito che una nuvola in alto a sinistra è simile a una in basso a destra. Ma sono lenti e costosi, come un camioncino che trasporta solo due vestiti ma consuma benzina per un aereo.

Poi è arrivato Mamba, un nuovo modello intelligente che promette di vedere tutto l'immagine velocemente (come un aereo) ma consumando poco (come una bicicletta). Tuttavia, Mamba ha un difetto: è troppo rigido.

Immagina Mamba come un nastro trasportatore in un magazzino. I vestiti (i pixel dell'immagine) passano uno dopo l'altro in un ordine fisso: prima la riga 1, poi la riga 2, e così via.

Il problema: Se hai una maglietta rossa in alto a sinistra e un'altra maglietta rossa identica in basso a destra, il nastro trasportatore le vede come estranee perché sono lontane nel tempo e nello spazio. Il computer non capisce che sono uguali e non riesce a dire: "Ehi, questa è uguale a quella, non serve scriverla di nuovo!".

La Soluzione: Il "Mamba Consapevole" (CAM)

Gli autori di questo paper hanno creato una versione nuova e intelligente chiamata Content-Aware Mamba (CAM). Immagina di sostituire il nastro trasportatore rigido con un magazziniere super-intelligente che riorganizza la valiglia mentre la riempie.

Ecco come funziona, con due trucchi magici:

1. Il Riordinamento Intelligente (Token Permutation)

Invece di seguire l'ordine fisso del nastro (riga per riga), il magazziniere guarda i vestiti e dice:

"Aspetta! Questa maglietta rossa qui è identica a quella laggiù. Mettiamole vicine!"

Il sistema raggruppa i vestiti simili (pixel con colori o forme simili) e li mette uno accanto all'altro nella sequenza, anche se nell'immagine originale erano lontani chilometri.

L'effetto: Ora, quando il computer legge la sequenza, vede subito: "Oh, ho appena visto un rosso, e ora ne vedo un altro identico! Posso risparmiare spazio!". Questo permette di eliminare le ridondanze (le ripetizioni inutili) molto meglio di prima.

2. La "Bussola Globale" (Global-Prior Prompting)

C'è un altro problema: il magazziniere legge i vestiti uno alla volta e non può guardare indietro o in avanti (è "causale"). Se legge il primo vestito, non sa cosa ci sarà dopo.
Per risolvere questo, gli autori danno al magazziniere una bussola speciale (chiamata Prompt).

Prima di iniziare a leggere, il magazziniere fa una rapida panoramica di tutta la valigia e crea una mappa mentale: "So che in questa valigia ci sono molte nuvole e pochi alberi".
Mentre legge ogni singolo vestito, questa mappa mentale gli dice: "Attenzione, stai leggendo una zona che di solito ha le nuvole, quindi cerca di collegarti con le altre nuvole che hai già visto, anche se sono state lette molto tempo fa".

Questo trucco permette al modello di "vedere" l'immagine intera senza doverla rileggere da capo, rompendo la rigidità della lettura sequenziale.

I Risultati: Una Valigia Perfetta

Grazie a questi due trucchi, il nuovo sistema (chiamato CMIC) è diventato il migliore al mondo per comprimere le immagini.

Risparmio: Rispetto ai metodi attuali (come VTM-21.0, lo standard industriale), il nuovo sistema riduce le dimensioni dei file del 15-21% mantenendo la stessa qualità. È come se riuscissi a portare il doppio dei vestiti nello stesso bagaglio a mano.
Velocità: È veloce quanto i metodi precedenti, non richiede computer giganti.

In Sintesi

Immagina di dover ordinare una biblioteca.

I vecchi metodi: Mettono i libri in ordine alfabetico rigido. Se cerchi un libro su "Gatto" e un altro su "Gatto" che sono stati scritti da autori diversi, devono essere vicini per essere trovati.
Mamba originale: Legge i libri uno dopo l'altro velocemente, ma se un libro è all'inizio e l'altro alla fine, non li collega.
Il nuovo Mamba (CAM): Prende tutti i libri sugli animali e li mette in un unico scaffale, poi tutti quelli sulle macchine in un altro, e così via. Poi, mentre legge, ha una mappa che gli ricorda di quali argomenti ci sono nella biblioteca intera.

Il risultato? Trova le ripetizioni, risparmia spazio e ti dà un'immagine perfetta, anche se compressa in modo estremo. È un passo avanti enorme per inviare foto e video su internet più velocemente e con meno dati.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La compressione di immagini appresa (LIC - Learned Image Compression) ha visto un rapido avanzamento grazie all'uso di modelli basati su Transformer e, più recentemente, ai Modelli di Spazio di Stato (SSM) come Mamba. Mamba offre un campo ricettivo globale con complessità computazionale lineare, rendendolo ideale per catturare dipendenze a lungo raggio.

Tuttavia, l'adattamento standard di Mamba alla compressione di immagini presenta due limitazioni fondamentali:

Scansione Rigida e Content-Agnostica: Mamba elabora i token (patch dell'immagine) seguendo un ordine di scansione predefinito (solitamente raster o multi-direzionale). Questo approccio ignora la correlazione semantica tra i token. Due regioni semanticamente simili ma spazialmente distanti vengono processate in momenti diversi della sequenza, riducendo l'efficacia nell'eliminare la ridondanza.
Vincolo di Causalità Stretta: Mamba è un modello sequenziale causale; un token può accedere solo alle informazioni dei token precedenti nella sequenza di scansione. Poiché le immagini sono non-causali (il contesto futuro è rilevante), questa restrizione limita la capacità del modello di comprendere il contesto globale, a meno che non si utilizzino scansioni multi-direzionali che quadruplicano la complessità computazionale.

2. Metodologia: Content-Aware Mamba (CAM)

Gli autori propongono CAM (Content-Aware Mamba), un nuovo modulo SSM progettato specificamente per adattarsi dinamicamente al contenuto dell'immagine, superando le limitazioni sopra citate attraverso due meccanismi innovativi:

A. Permutazione Adattiva dei Token (Content-Adaptive Token Permutation - CTP)

Invece di seguire un ordine spaziale fisso (raster), CAM riorganizza la sequenza dei token in base alla loro somiglianza delle caratteristiche (feature-space proximity).

Clustering basato su Codebook: Utilizza un codebook condivisibile e apprendibile (ispirato a VQ-VAE) per raggruppare i token in cluster semantici. A differenza del K-Means online, questo metodo è stabile e non richiede aggiornamenti iterativi costosi durante l'inferenza.
Riordinamento: I token appartenenti allo stesso cluster (e quindi semanticamente correlati) vengono raggruppati consecutivamente nella sequenza 1D.
Vantaggio: Questo permette a Mamba di processare token correlati l'uno dopo l'altro, indipendentemente dalla loro posizione spaziale originale, massimizzando l'eliminazione della ridondanza mantenendo la complessità lineare.

B. Prompting con Priori Globali (Global-Prior Prompting - GPP)

Per mitigare la causalità stretta senza ricorrere a scansioni multi-direzionali costose, CAM introduce un meccanismo di prompting.

Dizionario di Ridondanza: Viene creato un dizionario di prompt che mappa i cluster di token a vettori di prompt specifici.
Iniezione di Priori: Per ogni immagine, viene generato un prompt specifico basato sulla distribuzione dei cluster di quella particolare immagine. Questo prompt viene iniettato nella matrice di uscita ( $C$ ) dell'equazione dello stato di Mamba.
Vantaggio: Il prompt codifica statistiche globali dell'intera immagine, permettendo al modello di "vedere" il contesto globale ad ogni passo della scansione, rilassando efficacemente il vincolo causale senza aumentare la complessità computazionale.

3. Architettura del Modello (CMIC)

Sulla base di CAM, gli autori costruiscono CMIC (Content-Aware Mamba-based Image Compression), un modello LIC end-to-end:

Trasformata Non Lineare: Utilizza una struttura VAE (Variational Autoencoder) con sei stadi. Ogni stadio combina blocchi di attenzione a finestre (per le dipendenze locali) e blocchi CAM (per le dipendenze globali adattive).
Modello di Entropia: Si basa su un modello SCCTX (Space-Channel Context) potenziato, che utilizza convoluzioni depthwise e MLP per modellare la distribuzione dei latenti quantizzati.
Efficienza: L'architettura mantiene la complessità lineare tipica di Mamba, evitando il costo quadratico dei Transformer.

4. Risultati Sperimentali

Il modello CMIC è stato valutato su tre dataset standard (Kodak, Tecnick, CLIC) e confrontato con lo stato dell'arte (SOTA), inclusi codec tradizionali (VTM-21.0) e modelli LIC basati su CNN, Transformer e Mamba.

Prestazioni Rate-Distortion (RD):
- CMIC supera VTM-21.0 (il codec di riferimento VVC) con risparmi di bitrate (BD-rate) del 15.91% (Kodak), 21.34% (Tecnick) e 17.58% (CLIC).
- Supera i modelli LIC basati su Mamba precedenti (MambaVC e MambaIC) in modo significativo, dimostrando che l'adattività al contenuto è cruciale.
- Supera anche modelli basati su Transformer (come FTIC) e architetture ibride CNN-Transformer (TCM-L).
Complessità ed Efficienza:
- Nonostante le prestazioni superiori, CMIC mantiene una complessità moderata. Rispetto a MambaIC, riduce i parametri del 56%, le FLOPs del 57% e la latenza di decodifica del 39%.
- Il consumo di memoria GPU è ridotto del 78% rispetto ai modelli Mamba basati su scansioni 2D multi-direzionali.
Visualizzazione del Campo Ricettivo (ERF):
- Le visualizzazioni dell'ERF mostrano che CMIC sviluppa campi ricettivi adattivi al contenuto, focalizzandosi su strutture semantiche (es. piume, cielo, bordi) anche se spazialmente distanti, a differenza dei modelli standard che mostrano campi ricettivi isotropi e fissi.

5. Contributi Chiave

Permutazione Adattiva dei Token: Un nuovo meccanismo che riordina la sequenza di scansione basandosi sulla similarità delle feature, permettendo a Mamba di catturare ridondanze a lungo raggio in modo efficiente.
Prompting con Priori Globali: Una tecnica che inietta statistiche globali specifiche del campione nel modello SSM, mitigando la causalità stretta senza raddoppiare o quadruplicare il carico computazionale.
Modello CMIC SOTA: La realizzazione di un modello di compressione che combina l'efficienza di Mamba con l'intelligenza semantica, ottenendo prestazioni superiori a tutti i metodi precedenti sia in termini di qualità di ricostruzione che di efficienza computazionale.

6. Significato

Questo lavoro rappresenta un passo avanti significativo nel campo della compressione di immagini neurali. Dimostra che i modelli basati su SSM (come Mamba) possono essere resi altamente efficaci per compiti visivi 2D non solo migliorando l'architettura, ma rendendola consapevole del contenuto. Superando la rigidità della scansione raster e il vincolo causale, CAM apre la strada a modelli di compressione che sono sia estremamente efficienti dal punto di vista computazionale (lineare) sia capaci di comprendere la semantica globale dell'immagine, un requisito fondamentale per la compressione ad alta fedeltà.