ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un grande archivio fotografico pieno di immagini della vita quotidiana in Vietnam e, accanto a ogni foto, una descrizione scritta in vietnamita. Il tuo obiettivo è creare un "magazziniere intelligente" che, quando gli chiedi "Fammi vedere una foto di un mercato affollato", trovi subito la foto giusta, anche se non gli hai mai mostrato quella specifica immagine prima.

Il problema? La maggior parte dei "magazzinieri" moderni (chiamati modelli di intelligenza artificiale) sono stati addestrati quasi esclusivamente in inglese. Se provi a usare uno di questi modelli per cercare foto in vietnamita, spesso si perdono, fanno confusione o non capiscono le sfumature della lingua locale. È come se avessi un bibliotecario che parla perfettamente inglese ma non capisce una parola di vietnamita: ti dà libri sbagliati perché ha tradotto male la tua richiesta.

La Soluzione: ViCLIP-OT

Gli autori di questo studio hanno creato un nuovo "magazziniere" chiamato ViCLIP-OT, fatto apposta per il vietnamita. Ecco come funziona, usando due metafore semplici:

1. Il "Doppio Binario" (L'Architettura)

Immagina che il modello abbia due orecchie distinte:

L'orecchio visivo: Guarda le foto e le trasforma in un codice astratto.
L'orecchio linguistico: Legge le frasi in vietnamita e le trasforma nello stesso tipo di codice.
L'obiettivo è far sì che il codice di una foto di un "tempio" e il codice della parola "tempio" in vietnamita siano quasi identici, così il computer capisce che sono la stessa cosa.

2. Il Problema: "Il Divario tra le Lingue"

I modelli vecchi (come CLIP) funzionano un po' come due persone che cercano di incontrarsi in una piazza buia gridando il proprio nome. Si trovano, ma a volte sbagliano strada perché il rumore di fondo è forte. In termini tecnici, c'è un "divario" (gap) tra come il computer vede le immagini e come legge le parole.

3. La Magia: "Il Trapianto Ottimale" (Optimal Transport)

Qui entra in gioco la parte geniale del paper, chiamata SIGROT (basata sulla Trasporto Ottimale).

Immagina di dover spostare dei pacchi da un magazzino (le immagini) a un altro (le descrizioni testuali).

Il metodo vecchio (Contrasto): Dice: "Metti il pacco A vicino al pacco A', e il pacco B lontano dal pacco B'". È un approccio "uno contro uno". Funziona, ma è un po' rigido.
Il metodo ViCLIP-OT (Trasporto Ottimale): Dice: "Guarda l'intero magazzino. Non guardare solo i singoli pacchi, ma guarda come sono organizzati tutti insieme".
- Se hai tre foto di "strade affollate" e tre descrizioni simili, il modello capisce che queste tre foto formano un "gruppo" e quelle tre frasi formano un "gruppo" corrispondente.
- Usa una mappa di similarità (un grafo) per dire: "Ehi, queste due foto sono simili tra loro, e queste due frasi sono simili tra loro. Quindi, quando sposti le foto verso le frasi, assicurati di mantenere questa struttura di gruppo".

È come se invece di far incontrare due persone alla volta, organizzassi un ballo di gruppo dove tutti devono muoversi in armonia. Se il gruppo delle "strade" si muove verso il gruppo delle "strade", l'intero sistema diventa più coerente e meno confuso.

I Risultati: Perché è importante?

Gli autori hanno messo alla prova il loro nuovo "magazziniere" su tre diversi set di dati vietnamiti (immagini di città, vita quotidiana e paesaggi).

Risultato: ViCLIP-OT ha battuto tutti i modelli precedenti (anche quelli inglesi tradotti) con un margine significativo.
L'analogia finale: Se i vecchi modelli erano come un turista che cerca di ordinare al ristorante usando un dizionario tradotto male (e finisce per ordinare il piatto sbagliato), ViCLIP-OT è come un cameriere locale che conosce perfettamente il menu, il dialetto e le sfumature della cultura vietnamita.

In sintesi, questo lavoro dimostra che per far funzionare bene l'intelligenza artificiale nelle lingue meno diffuse (come il vietnamita), non basta tradurre tutto in inglese. Bisogna costruire modelli che capiscano la struttura logica e relazionale della lingua e delle immagini locali, usando matematica avanzata (il trasporto ottimale) per tenere tutto "in ordine" e coerente.

In una frase: Hanno creato un ponte più solido tra le immagini e le parole in vietnamita, non solo facendole "parlare" tra loro, ma assicurandosi che l'intera conversazione abbia un senso logico globale.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il recupero immagine-testo (Image-Text Retrieval) è un componente fondamentale dei sistemi multimediali intelligenti. Sebbene modelli foundation come CLIP e ALIGN abbiano ottenuto risultati eccezionali grazie al pre-addestramento su larga scala, la maggior parte di questi è ottimizzata per lingue ad alto risorse (soprattutto l'inglese).
Per le lingue a risorse limitate come il vietnamita, esistono diverse sfide:

Mancanza di dati: Scarsità di dataset immagine-testo su larga scala rispetto all'inglese.
Limitazioni dei modelli esistenti: L'adattamento di modelli inglesi tramite traduzione delle didascalie introduce "rumore" di traduzione e non preserva i significati specifici della lingua.
Divario modale (Modality Gap): I modelli basati su apprendimento contrastivo standard tendono a creare spazi di embedding in cui le rappresentazioni visive e testuali occupano regioni distinte, riducendo l'allineamento semantico.

2. Metodologia: ViCLIP-OT

L'articolo propone ViCLIP-OT, un modello fondazionale visione-linguaggio specificamente progettato per il recupero immagine-testo in vietnamita. L'architettura integra l'apprendimento contrastivo stile CLIP con una nuova funzione di perdita basata sul Trasporto Ottimale (Optimal Transport - OT).

Architettura del Modello

Il modello utilizza un'architettura a doppio encoder:

Encoder Visivo: Basato su DINOv3 (un Vision Transformer ad alte prestazioni pre-addestrato con auto-distillazione), che estrae caratteristiche globali dalle immagini.
Encoder Testuale: Basato su un modello Sentence-BERT (SBERT) pre-addestrato su grandi corpora vietnamiti, che codifica le descrizioni testuali.
Spazio di Embedding: Entrambi gli encoder proiettano i dati in uno spazio condiviso normalizzato ( $\ell_2$ ).

La Funzione di Perdita Ibrida

L'innovazione principale risiede nell'obiettivo di addestramento ibrido che combina due componenti:

Perdita Contrastiva (CLIP o SigLIP): Assicura l'allineamento a livello di istanza, spingendo le coppie immagine-testo corrette vicine e quelle errate lontane nello spazio latente.
Perdita SIGROT (Similarity-Graph Regularized Optimal Transport): Questa è la novità del lavoro.
- Costruzione del Grafo di Similarità: Per ogni batch di addestramento, viene costruito un grafo di similarità che codifica le relazioni tra i campioni (sia intra-modale che inter-modale). Questo grafo cattura la struttura relazionale globale (es. più didascalie che descrivono concetti visivi simili).
- Trasporto Ottimale (OT): Viene utilizzato un solver di OT (con regolarizzazione entropica e trasporto sbilanciato - UOT) per trovare un piano di trasporto che allinei le distribuzioni delle immagini e del testo rispettando la struttura del grafo.
- Obiettivo: La perdita SIGROT penalizza la divergenza tra il piano di trasporto ottimale e la distribuzione definita dal grafo di similarità. Questo forza il modello a mantenere una coerenza strutturale globale oltre al semplice allineamento a coppie.

La funzione di perdita totale è:
$L_{totale} = \lambda L_{contrastiva} + L_{SIGROT}$
dove $\lambda$ bilancia i due obiettivi.

3. Contributi Chiave

Primo Modello Foundation per il Vietnamita: ViCLIP-OT è il primo modello visione-linguaggio fondazionale sviluppato specificamente per il vietnamita su larga scala.
Integrazione SIGROT: Introduzione della perdita SIGROT che utilizza il Trasporto Ottimale regolarizzato da un grafo di similarità per migliorare l'allineamento cross-modale e mitigare il divario modale.
Prestazioni Superiori: Dimostrazione che l'integrazione di strutture relazionali globali (tramite OT) supera i metodi puramente contrastivi sia in contesti "in-domain" che "zero-shot".
Risorsa Open Source: I modelli pre-addestrati e il codice sono resi pubblici per favorire la riproducibilità e la ricerca futura.

4. Risultati Sperimentali

Il modello è stato valutato su tre dataset vietnamiti: UIT-OpenViIC (principale), KTVIC e Crossmodal-3600.

Recupero In-Domain (UIT-OpenViIC):
- ViCLIP-OT ha raggiunto un Recall@K medio del 67,34%, superando il baseline CLIP di 5,75 punti percentuali.
- La variante ViSigLIP-OT ha ottenuto risultati ancora migliori (68,96%).
- Il modello supera significativamente anche modelli multilingue pre-addestrati come Jina CLIP v2 e Qwen3-VL-Embedding-2B in modalità zero-shot.
Valutazione Zero-Shot:
- Su Crossmodal-3600, ViCLIP-OT ha superato CLIP di 11,72 punti percentuali (56,85% vs 45,13%), dimostrando una forte capacità di generalizzazione su dati non visti.
- Su KTVIC, il modello ha mostrato miglioramenti consistenti in entrambe le direzioni (Testo->Immagine e Immagine->Testo).
Analisi dello Spazio di Embedding:
- Riduzione del Modality Gap: Le visualizzazioni UMAP e le metriche quantitative mostrano che ViCLIP-OT riduce drasticamente la distanza tra i centroidi delle immagini e del testo rispetto ai baseline (es. il gap scende da 0,58 a 0,31 per SigLIP).
- Allineamento Migliore: I punteggi di allineamento (Alignment score) sono significativamente più alti, indicando che le coppie semanticamente correlate sono più vicine nello spazio latente.
- Interpretabilità: Le visualizzazioni GradCAM mostrano che il modello con SIGROT tende a focalizzarsi su oggetti semanticamente rilevanti nella query, piuttosto che su sfondi generici.

5. Significato e Implicazioni

Questo lavoro dimostra che l'integrazione del Trasporto Ottimale nell'apprendimento contrastivo è una strategia scalabile ed efficace per il recupero cross-modale, specialmente in contesti con risorse linguistiche limitate.

Superamento del divario linguistico: Offre una soluzione pratica per costruire sistemi di ricerca intelligenti in vietnamita senza dipendere dalla traduzione.
Robustezza Strutturale: L'uso di grafi di similarità e OT permette al modello di apprendere non solo le corrispondenze a coppie, ma anche le relazioni distribuzionali complesse all'interno di un batch.
Futuro della Ricerca: Apre la strada all'uso di tecniche di allineamento strutturale per altre lingue sottorappresentate e per compiti multimodali avanzati come il Visual Question Answering (VQA) e il ragionamento multimodale.

In sintesi, ViCLIP-OT rappresenta un passo significativo verso l'equità linguistica nell'IA multimodale, fornendo uno stato dell'arte per il recupero immagine-testo in vietnamita grazie a un approccio matematicamente sofisticato che combina apprendimento contrastivo e trasporto ottimo.

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

La Soluzione: ViCLIP-OT

1. Il "Doppio Binario" (L'Architettura)

2. Il Problema: "Il Divario tra le Lingue"

3. La Magia: "Il Trapianto Ottimale" (Optimal Transport)

I Risultati: Perché è importante?

1. Il Problema

2. Metodologia: ViCLIP-OT

Architettura del Modello

La Funzione di Perdita Ibrida

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems