ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Questo lavoro presenta ViCLIP-OT, il primo modello fondazionale visione-linguaggio ottimizzato per il recupero immagine-testo in vietnamita, che integra l'apprendimento contrastivo CLIP con una perdita di trasporto ottimale regolarizzata da grafi di similarità (SIGROT) per superare le limitazioni dei modelli esistenti e ottenere risultati superiori su benchmark locali e in setting zero-shot.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Pubblicato 2026-02-27
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un grande archivio fotografico pieno di immagini della vita quotidiana in Vietnam e, accanto a ogni foto, una descrizione scritta in vietnamita. Il tuo obiettivo è creare un "magazziniere intelligente" che, quando gli chiedi "Fammi vedere una foto di un mercato affollato", trovi subito la foto giusta, anche se non gli hai mai mostrato quella specifica immagine prima.

Il problema? La maggior parte dei "magazzinieri" moderni (chiamati modelli di intelligenza artificiale) sono stati addestrati quasi esclusivamente in inglese. Se provi a usare uno di questi modelli per cercare foto in vietnamita, spesso si perdono, fanno confusione o non capiscono le sfumature della lingua locale. È come se avessi un bibliotecario che parla perfettamente inglese ma non capisce una parola di vietnamita: ti dà libri sbagliati perché ha tradotto male la tua richiesta.

La Soluzione: ViCLIP-OT

Gli autori di questo studio hanno creato un nuovo "magazziniere" chiamato ViCLIP-OT, fatto apposta per il vietnamita. Ecco come funziona, usando due metafore semplici:

1. Il "Doppio Binario" (L'Architettura)

Immagina che il modello abbia due orecchie distinte:

  • L'orecchio visivo: Guarda le foto e le trasforma in un codice astratto.
  • L'orecchio linguistico: Legge le frasi in vietnamita e le trasforma nello stesso tipo di codice.
    L'obiettivo è far sì che il codice di una foto di un "tempio" e il codice della parola "tempio" in vietnamita siano quasi identici, così il computer capisce che sono la stessa cosa.

2. Il Problema: "Il Divario tra le Lingue"

I modelli vecchi (come CLIP) funzionano un po' come due persone che cercano di incontrarsi in una piazza buia gridando il proprio nome. Si trovano, ma a volte sbagliano strada perché il rumore di fondo è forte. In termini tecnici, c'è un "divario" (gap) tra come il computer vede le immagini e come legge le parole.

3. La Magia: "Il Trapianto Ottimale" (Optimal Transport)

Qui entra in gioco la parte geniale del paper, chiamata SIGROT (basata sulla Trasporto Ottimale).

Immagina di dover spostare dei pacchi da un magazzino (le immagini) a un altro (le descrizioni testuali).

  • Il metodo vecchio (Contrasto): Dice: "Metti il pacco A vicino al pacco A', e il pacco B lontano dal pacco B'". È un approccio "uno contro uno". Funziona, ma è un po' rigido.
  • Il metodo ViCLIP-OT (Trasporto Ottimale): Dice: "Guarda l'intero magazzino. Non guardare solo i singoli pacchi, ma guarda come sono organizzati tutti insieme".
    • Se hai tre foto di "strade affollate" e tre descrizioni simili, il modello capisce che queste tre foto formano un "gruppo" e quelle tre frasi formano un "gruppo" corrispondente.
    • Usa una mappa di similarità (un grafo) per dire: "Ehi, queste due foto sono simili tra loro, e queste due frasi sono simili tra loro. Quindi, quando sposti le foto verso le frasi, assicurati di mantenere questa struttura di gruppo".

È come se invece di far incontrare due persone alla volta, organizzassi un ballo di gruppo dove tutti devono muoversi in armonia. Se il gruppo delle "strade" si muove verso il gruppo delle "strade", l'intero sistema diventa più coerente e meno confuso.

I Risultati: Perché è importante?

Gli autori hanno messo alla prova il loro nuovo "magazziniere" su tre diversi set di dati vietnamiti (immagini di città, vita quotidiana e paesaggi).

  • Risultato: ViCLIP-OT ha battuto tutti i modelli precedenti (anche quelli inglesi tradotti) con un margine significativo.
  • L'analogia finale: Se i vecchi modelli erano come un turista che cerca di ordinare al ristorante usando un dizionario tradotto male (e finisce per ordinare il piatto sbagliato), ViCLIP-OT è come un cameriere locale che conosce perfettamente il menu, il dialetto e le sfumature della cultura vietnamita.

In sintesi, questo lavoro dimostra che per far funzionare bene l'intelligenza artificiale nelle lingue meno diffuse (come il vietnamita), non basta tradurre tutto in inglese. Bisogna costruire modelli che capiscano la struttura logica e relazionale della lingua e delle immagini locali, usando matematica avanzata (il trasporto ottimale) per tenere tutto "in ordine" e coerente.

In una frase: Hanno creato un ponte più solido tra le immagini e le parole in vietnamita, non solo facendole "parlare" tra loro, ma assicurandosi che l'intera conversazione abbia un senso logico globale.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →