ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

🇻🇳 ViCLIP-OT : Le Traducteur Universel pour les Images Vietnamiennes

Imaginez que vous avez une immense bibliothèque de photos vietnamiennes et de descriptions en vietnamien. Le problème ? Les meilleurs "traducteurs" d'images existants (les intelligences artificielles qui comprennent à la fois les photos et les mots) parlent très bien l'anglais, mais ils sont presque muets en vietnamien. Ils ont été entraînés avec des milliards de données en anglais, alors que pour le vietnamien, les données sont rares.

C'est là qu'intervient ViCLIP-OT, le nouveau héros de cette histoire. C'est le premier "cerveau" artificiel conçu spécifiquement pour comprendre les images et les textes en vietnamien.

1. Le Problème : Un Mur de Langue

Pensez aux modèles actuels (comme CLIP) comme à des touristes qui ont visité l'Asie mais qui ne parlent que l'anglais. Si vous leur montrez une photo d'un marché de Hanoï et que vous leur demandez de trouver la bonne description en vietnamien, ils vont essayer de deviner en traduisant mentalement en anglais. Résultat : ils font des erreurs, perdent les nuances culturelles et ne comprennent pas vraiment l'ambiance.

2. La Solution : ViCLIP-OT

Les chercheurs de l'Université de Can Tho ont créé un modèle qui apprend directement en vietnamien. Mais ils ont ajouté une astuce de génie pour le rendre encore plus intelligent : l'Optimal Transport (Transport Optimal).

Pour comprendre cette astuce, utilisons une analogie :

L'approche classique (CLIP) : Imaginez un professeur qui fait faire des exercices de "vrai/faux" à ses élèves. Il montre une photo et une phrase, et demande : "Est-ce que ça correspond ?". Si oui, il dit "Bravo !". Si non, il dit "Non". C'est bien, mais c'est un peu binaire. L'élève apprend juste à associer des paires, sans voir le grand tableau.
L'approche ViCLIP-OT (avec SIGROT) : Maintenant, imaginez que ce professeur organise une grande fête. Il ne regarde pas juste les couples un par un. Il observe toute la salle.
- Il voit que la photo A ressemble un peu à la photo B (parce qu'elles ont toutes les deux des lanternes rouges).
- Il voit que la phrase C et la phrase D parlent de la même chose (des enfants jouant).
- Grâce à une technique mathématique appelée Transport Optimal, le modèle trace une "carte" ou une toile d'araignée (un graphe de similarité) qui relie toutes les photos et toutes les phrases entre elles en fonction de leurs ressemblances.

Ensuite, le modèle essaie de faire correspondre les photos aux phrases en respectant cette carte. Il ne se contente pas de dire "C'est ça", il dit : "Cette photo va avec cette phrase, et comme cette autre photo ressemble à la première, elle doit aller avec une phrase qui ressemble à la deuxième".

C'est comme si le modèle comprenait non seulement les mots, mais aussi l'ambiance globale et les relations entre les objets, même si le mot exact n'est pas là.

3. Les Résultats : Une Révolution

Les chercheurs ont testé ce nouveau modèle sur trois grands défis (des bases de données vietnamiennes). Les résultats sont impressionnants :

Mieux que les géants : ViCLIP-OT bat les modèles internationaux (comme CLIP ou SigLIP) qui sont pourtant entraînés sur des milliards d'images.
Zéro entraînement : Même sur des images que le modèle n'a jamais vues avant (comme des photos de la vie quotidienne vietnamienne ou des paysages variés), il devine très bien la bonne description. C'est comme si un étudiant qui a bien appris ses leçons en classe pouvait réussir un examen sur un sujet qu'il n'a jamais vu, juste grâce à sa logique.
Moins de confusion : Le modèle a réussi à réduire le "fossé" entre les images et les textes. Avant, les images et les mots vivaient dans deux mondes séparés dans le cerveau de l'IA. Avec ViCLIP-OT, ils sont maintenant dans la même pièce, bien alignés.

4. Pourquoi c'est important ?

Jusqu'à présent, pour utiliser l'IA sur des images vietnamiennes, il fallait souvent traduire le vietnamien en anglais, ce qui créait du bruit et des erreurs. ViCLIP-OT change la donne :

Il permet de créer des moteurs de recherche d'images plus précis pour les Vietnamiens.
Il aide à préserver la langue et la culture vietnamienne dans le monde numérique.
Il prouve qu'on n'a pas besoin de milliards de données pour créer une IA puissante ; il suffit d'une bonne méthode (comme le Transport Optimal) pour tirer le meilleur des données disponibles.

En résumé : ViCLIP-OT est comme un guide local expert qui, au lieu de simplement traduire mot à mot, comprend la culture, les liens entre les objets et l'histoire derrière chaque photo, rendant la recherche d'images en vietnamien aussi fluide et naturelle que la conversation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le domaine de la recherche image-texte (Image-Text Retrieval) a connu des avancées majeures grâce à des modèles pré-entraînés à grande échelle comme CLIP et ALIGN. Cependant, ces modèles sont optimisés pour des langues à ressources abondantes (principalement l'anglais). Pour les langues à ressources limitées comme le vietnamien, plusieurs défis persistent :

Manque de données : L'absence de grands ensembles de données image-texte vietnamiens limite l'application directe des méthodes de type CLIP.
Limites de la traduction : Traduire les légendes vietnamiennes en anglais pour utiliser des modèles anglophones introduit du bruit de traduction et perd les nuances sémantiques spécifiques à la langue.
Fossé modal (Modality Gap) : Les modèles existants peinent souvent à aligner parfaitement les espaces d'embedding visuels et textuels, créant une séparation géométrique entre les deux modalités.

L'objectif de ce travail est de combler ce vide en proposant ViCLIP-OT, un modèle fondation (foundation model) vision-langage spécifiquement conçu pour la recherche image-texte en vietnamien, capable de gérer ces contraintes de ressources et d'améliorer l'alignement multimodal.

2. Méthodologie : Architecture ViCLIP-OT

ViCLIP-OT s'inspire de l'architecture à double encodeur (dual-encoder) de CLIP mais introduit deux innovations majeures pour améliorer l'alignement et la robustesse :

A. Architecture de Base

Encodeur d'images : Utilise un Vision Transformer (ViT) basé sur DINOv3, pré-entraîné par auto-distillation sur de grands ensembles d'images.
Encodeur de texte : Utilise un modèle Sentence-BERT (SBERT) pré-entraîné sur de grands corpus vietnamiens.
Espace d'embedding : Les deux encodeurs projettent les images et les textes dans un espace d'embedding commun de dimension $d$ , normalisé en $L_2$ .

B. La Perte Hybride : CLIP + SIGROT

Le cœur de l'innovation réside dans la fonction de perte combinée qui intègre l'apprentissage contrastif classique et un régularisateur basé sur le Transport Optimal (OT).

Perte Contrastive (CLIP ou SigLIP) :
- Assure l'alignement au niveau des instances (paires image-texte correspondantes) en repoussant les paires non correspondantes au sein d'un lot (batch).
- Le modèle explore deux variantes : une basée sur la perte CLIP standard (softmax) et une sur la perte SigLIP (sigmoid).
Perte SIGROT (Similarity-Graph Regularized Optimal Transport) :
- Motivation : La perte contrastive classique ignore la structure relationnelle globale entre les échantillons d'un lot (par exemple, plusieurs légendes décrivant des concepts visuels similaires).
- Construction du graphe de similarité : Pour chaque lot d'entraînement, un graphe de similarité ( $G_{cross}$ ) est pré-calculé. Il agrège les similarités intra-modales (texte-texte, image-image) et inter-modales (texte-image) pour capturer les relations structurelles globales.
- Transport Optimal (OT) : Une perte de transport optimal non équilibré (Unbalanced OT) est utilisée pour trouver un plan de transport ( $\gamma$ ) qui aligne les distributions d'images et de textes tout en respectant la structure du graphe de similarité.
- Fonctionnement : La perte SIGROT mesure la divergence (KL) entre le plan de transport optimal et la distribution du graphe de similarité. Cela force le modèle à respecter non seulement les correspondances paires, mais aussi la cohérence distributionnelle globale au sein du lot.

La fonction de perte finale est une combinaison pondérée :
$L_{hybride} = \lambda L_{contrastive} + L_{SIGROT}$

3. Contributions Clés

Premier Modèle Fondation pour le Vietnamien : ViCLIP-OT est le premier modèle vision-langage fondation développé spécifiquement pour la recherche image-texte en vietnamien à cette échelle.
Intégration du SIGROT : Proposition d'une nouvelle perte de régularisation (SIGROT) qui utilise le transport optimal et les graphes de similarité pour améliorer l'alignement cross-modal et réduire le fossé modal (modality gap).
Performance et Généralisation : Démonstration d'une supériorité constante par rapport aux modèles de base (CLIP, SigLIP) et aux modèles multilingues existants, tant en configuration in-domain que zero-shot.
Ressources Ouvertes : Mise à disposition publique du code et des modèles pré-entraînés pour favoriser la reproductibilité et la recherche future.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois benchmarks vietnamiens : UIT-OpenViIC (données d'entraînement et évaluation in-domain), KTVIC (scénarios de vie quotidienne) et Crossmodal-3600 (évaluation zero-shot sur des données géographiquement diversifiées).

Performance sur UIT-OpenViIC (In-Domain)

ViCLIP-OT atteint un Recall@K moyen de 67,34 %, surpassant le modèle CLIP de base de 5,75 points de pourcentage.
La variante ViSigLIP-OT obtient encore de meilleurs résultats avec 68,96 %.
Le modèle bat également tous les modèles pré-entraînés multilingues (Jina CLIP, Qwen3-VL, etc.) en configuration zero-shot sur ce dataset, avec un écart de plus de 11 points par rapport au meilleur concurrent multilingue.

Performance Zero-Shot (Généralisation)

Sur Crossmodal-3600, ViCLIP-OT dépasse CLIP de 11,72 points (56,85 % contre 45,13 %).
Sur KTVIC, le modèle montre une robustesse significative, confirmant sa capacité à généraliser à des domaines non vus lors de l'entraînement.

Analyse de l'Espace d'Embedding

Réduction du fossé modal : Les visualisations UMAP et les métriques quantitatives montrent que SIGROT réduit considérablement la distance entre les centroids des embeddings d'images et de textes (le "Modality Gap" passe de 0,5843 à 0,3177 pour SigLIP).
Alignement : Les scores d'alignement (Alignment score) sont nettement améliorés, indiquant une meilleure cohérence sémantique.
Interprétabilité : Les visualisations GradCAM montrent que ViCLIP-OT se concentre davantage sur les objets sémantiquement pertinents de l'image (ex: une femme en Ao dai, un homme tenant des pommes) plutôt que sur le fond, contrairement aux modèles de base.

5. Signification et Impact

Ce travail démontre que l'intégration du Transport Optimal dans l'apprentissage contrastif est une stratégie efficace et évolutive pour la recherche multimodale dans des langues à ressources limitées.

Avancée Technique : La méthode SIGROT prouve que l'exploitation de la structure relationnelle globale (via les graphes de similarité) complète efficacement l'apprentissage au niveau des instances, résolvant partiellement le problème de l'alignement imparfait des modalités.
Impact Sociétal : En fournissant un modèle performant pour le vietnamien, cette recherche ouvre la voie à des systèmes de récupération d'informations multimodales plus intelligents pour une population sous-représentée dans le paysage actuel de l'IA.
Futur : Les auteurs suggèrent d'explorer des stratégies de pré-entraînement à grande échelle et l'apprentissage de graphes de similarité en bout en bout pour d'autres systèmes experts multimodaux (VQA, raisonnement multimodal).

En résumé, ViCLIP-OT établit un nouvel état de l'art pour la recherche image-texte en vietnamien, prouvant que des approches mathématiques avancées comme le Transport Optimal peuvent pallier le manque de données massives spécifiques à une langue.