ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, chaotischen Bibliothekskeller, gefüllt mit Millionen von Fotos und dazu passenden Beschreibungen. Aber hier ist das Problem: Die meisten modernen „Bibliothekare" (die künstlichen Intelligenzen, die wir heute nutzen) sprechen nur fließend Englisch. Wenn Sie ihnen ein Foto auf Vietnamisch zeigen und eine Beschreibung auf Vietnamisch geben, schauen sie verwirrt drein. Sie verstehen die Bilder, aber die Sprache der Beschriftungen entgeht ihnen, oder sie müssen sie erst ins Englische übersetzen – was oft wie eine schlechte Google-Übersetzung klingt und die feinen Nuancen verliert.

Das ist genau das Problem, das die Forscher in diesem Papier mit ihrer neuen Erfindung, ViCLIP-OT, lösen wollen.

Hier ist eine einfache Erklärung, wie sie das gemacht haben, mit ein paar anschaulichen Bildern:

1. Das Grundproblem: Der „Klangunterschied"

Stellen Sie sich vor, Sie versuchen, zwei verschiedene Musikinstrumente zu einem Duett zu bringen. Das eine ist eine Geige (das Bild), das andere ein Cello (der Text). Beide spielen die gleiche Melodie (die Bedeutung), aber sie klingen völlig unterschiedlich.
Bisherige KI-Modelle (wie CLIP) versuchen, diese Instrumente einfach laut aufeinander zu schreien, damit sie sich verstehen. Das funktioniert gut, wenn beide Instrumente im selben Raum spielen (z. B. beide auf Englisch). Aber wenn das Cello vietnamesisch spielt und die Geige auf Englisch, entsteht ein riesiges Missverständnis. Die KI sieht das Bild, versteht aber den Text nicht richtig, und umgekehrt.

2. Die Lösung: ViCLIP-OT (Der neue Dirigent)

Die Forscher haben einen neuen „Dirigenten" namens ViCLIP-OT entwickelt, der speziell für vietnamesische Bilder und Texte trainiert wurde. Er macht zwei Dinge besonders gut:

Der Spezialist für die Sprache: Statt einen allgemeinen KI-Modell zu nehmen, das alles nur halbwegs kann, haben sie einen Experten für vietnamesische Sprache (ein sogenanntes Sentence-BERT-Modell) genommen. Das ist wie ein Übersetzer, der vietnamesische Dialekte und Nuancen perfekt versteht.
Der Spezialist für die Bilder: Für die Bilder nutzen sie ein sehr modernes System (DINOv3), das Bilder nicht nur als Pixel, sondern als komplexe Szenen versteht.

3. Das Geheimnis: Der „Optimal Transport" (Der perfekte Tanz)

Das ist der coolste Teil. Die Forscher haben eine neue Methode namens SIGROT (basierend auf „Optimal Transport") eingeführt.

Stellen Sie sich vor, Sie haben eine Gruppe von Gästen (Bilder) und eine Gruppe von Tänzern (Texte).

Der alte Weg (CLIP): Der Dirigent ruft einfach: „Du, Bild A, du musst mit Text A tanzen!" Er ignoriert aber, ob Bild B vielleicht eher zu Text C passt, oder ob die Gäste in einer Gruppe zusammengehören. Er schaut nur auf die Paare.
Der neue Weg (ViCLIP-OT mit SIGROT): Dieser Dirigent schaut sich die ganze Tanzfläche an. Er erstellt eine Art „Karte der Beziehungen". Er merkt: „Oh, diese drei Bilder zeigen alle einen belebten Markt. Diese drei Texte beschreiben alle einen belebten Markt. Also sollten diese Bilder und Texte nicht nur einzeln, sondern als Gruppe zueinander passen."

Die Analogie:
Stellen Sie sich vor, Sie müssen eine Party organisieren.

CLIP versucht, jeden Gast einzeln einem Getränk zuzuordnen.
ViCLIP-OT schaut sich an, wer mit wem redet, wer lacht und wer welche Musik mag. Es sorgt dafür, dass die gesamte Atmosphäre passt. Es nutzt einen mathematischen Trick (Optimal Transport), um den „perfekten Weg" zu finden, wie Bilder und Texte am besten zusammenfließen, ohne dass jemand allein steht.

4. Was passiert dabei?

Durch diese Methode passiert Magie:

Der „Modality Gap" schließt sich: Das ist wie ein Riss in der Tanzfläche zwischen den Bildern und den Texten. Bei alten Modellen waren Bilder und Texte weit voneinander entfernt im digitalen Raum. Bei ViCLIP-OT tanzen sie eng zusammen.
Bessere Suche: Wenn Sie jetzt auf vietnamesisch nach „einem Mann, der Äpfel hält" suchen, findet die KI das Bild sofort, weil sie nicht nur nach dem Wort „Mann" sucht, sondern versteht, dass der Kontext (die Äpfel, die Geste) wichtig ist.

5. Die Ergebnisse

Die Forscher haben ihr System an drei verschiedenen vietnamesischen Datensätzen getestet (Bilder von Alltagsleben, Märkten, etc.).

Ergebnis: ViCLIP-OT ist deutlich besser als die alten englischen Modelle, selbst wenn man sie auf vietnamesische Daten loslässt.
Der Vergleich: Stellen Sie sich vor, ein englischer Tourist versucht, in Vietnam einen Weg zu finden. Er kommt mit einer Karte zurecht, aber er verpasst die kleinen Details. ViCLIP-OT ist wie ein lokaler Führer, der nicht nur die Straße kennt, sondern auch weiß, welche Gassen am schönsten sind und wo die besten Cafés liegen.

Fazit

Kurz gesagt: ViCLIP-OT ist der erste große, intelligente Bibliothekar, der Vietnamesisch wirklich versteht und nicht nur übersetzt. Er nutzt eine clevere mathematische Methode, um sicherzustellen, dass Bilder und Texte nicht nur oberflächlich, sondern tief im Inneren perfekt aufeinander abgestimmt sind. Das bedeutet, dass Suchmaschinen und intelligente Systeme in Vietnam endlich so gut funktionieren können wie im Rest der Welt.

Each language version is independently generated for its own context, not a direct translation.

Titel: ViCLIP-OT: Das erste fundamentale Vision-Language-Modell für die vietnamesische Bild-Text-Retrieval mit Optimal Transport

1. Problemstellung

Bild-Text-Retrieval (die Suche nach relevanten Bildern basierend auf Textanfragen und umgekehrt) ist ein Kernbestandteil intelligenter Multimediassysteme. Während große Vision-Language-Modelle wie CLIP und ALIGN durch Vortraining auf riesigen Datensätzen (Milliarden von Bild-Text-Paaren) hervorragende Ergebnisse in englischsprachigen Umgebungen erzielen, bestehen erhebliche Lücken für ressourcenarme Sprachen wie Vietnamesisch.

Die Hauptprobleme sind:

Fehlende große Datensätze: Es gibt kaum großskalige, öffentlich zugängliche Bild-Beschriftungs-Datensätze für das Vietnamesische.
Suboptimale Leistung bestehender Modelle: Die direkte Anwendung englischer Modelle oder das Übersetzen vietnamesischer Texte ins Englische führt zu „Übersetzungsrauschen" und geht sprachspezifische Nuancen verloren.
Modality Gap: Bestehende kontrastive Lernansätze (wie CLIP) optimieren oft nur die paarweise Ausrichtung (Instance-Level), ignorieren aber globale strukturelle Beziehungen innerhalb eines Trainingsbatches, was zu einer schlechteren Ausrichtung der Embedding-Räume führen kann.

2. Methodik: ViCLIP-OT

Das Paper stellt ViCLIP-OT vor, ein fundamentales Vision-Language-Modell, das speziell für das Vietnamesische entwickelt wurde. Es kombiniert ein duales Encoder-Architektur mit einem hybriden Trainingsziel.

A. Architektur

Dual-Encoder: Das Modell nutzt zwei separate Encoder, die Bilder und Texte in einen gemeinsamen Embedding-Raum projizieren.
- Bild-Encoder: Basierend auf DINOv3 (ein Vision Transformer), der durch Self-Distillation auf großen Bilddatensätzen vortrainiert wurde.
- Text-Encoder: Ein auf vietnamesischen Korpora vortrainiertes Sentence-BERT (SBERT)-Modell.
Embedding-Projektion: Beide Encoder projizieren ihre Ausgaben in einen gemeinsamen Raum (Dimension $d=768$ ), gefolgt von einer $\ell_2$ -Normalisierung.

B. Der SIGROT-Loss (Similarity-Graph Regularized Optimal Transport)

Das Kerninnovation ist die Integration des SIGROT-Verlusts, der das klassische kontrastive Lernen (CLIP oder SigLIP) durch eine Optimal-Transport-basierte Regularisierung ergänzt.

Konstruktions des Ähnlichkeitsgraphen: Für jeden Trainingsbatch wird ein Ähnlichkeitsgraph ( $G_{cross}$ $G_{cr oss}$ ) erstellt. Dieser aggregiert Ähnlichkeiten zwischen:
- Text-Text-Paaren,
- Bild-Bild-Paaren,
- und cross-modalen Paaren (Text-Bild).
  Dies erfasst sowohl intra- als auch inter-modale Beziehungen innerhalb des Batches.
Optimal Transport (OT): Anstatt nur einzelne Paare zu vergleichen, berechnet SIGROT einen Transportplan ( $\gamma$ ), der die Verteilung der Bild-Embeddings optimal auf die Verteilung der Text-Embeddings abbildet, unter Berücksichtigung des Ähnlichkeitsgraphen als Kostenfunktion.
Unbalanced OT: Um mit Rauschen in den Daten (z. B. irrelevante Hintergrundelemente in Bildern oder nicht-visuelle Wörter in Texten) umzugehen, wird ein Unbalanced Optimal Transport Ansatz verwendet, der die Randbedingungen (Marginal Constraints) durch KL-Divergenz-Strafterme relaxiert.
Hybrides Trainingsziel: Der Gesamtverlust ist eine Kombination aus dem kontrastiven Basis-Loss (CLIP oder SigLIP) und dem SIGROT-Loss:
$L_{total} = \lambda L_{contrastive} + L_{SIGROT}$
Dies ermöglicht dem Modell, sowohl starke paarweise Ausrichtung als auch globale, verteilungsbasierte Konsistenz zu lernen.

3. Wichtige Beiträge

Erstes fundamentales Modell für Vietnamesisch: ViCLIP-OT ist das erste großskalige Vision-Language-Modell, das speziell für das Vietnamesische entwickelt wurde, anstatt auf Übersetzungen oder englische Modelle angewiesen zu sein.
Einführung von SIGROT: Ein neuer Verlustmechanismus, der Optimal Transport mit Ähnlichkeitsgraphen kombiniert, um die globale Struktur von Datenbatches für eine bessere cross-modale Ausrichtung zu nutzen.
Umfassende Evaluation: Das Modell wurde auf drei verschiedenen vietnamesischen Benchmarks getestet (UIT-OpenViIC, KTVIC, Crossmodal-3600) und zeigt überlegene Leistung sowohl im In-Domain- als auch im Zero-Shot-Szenario.
Open Source: Die vortrainierten Modelle und der Code sind öffentlich verfügbar, um die Reproduzierbarkeit und weitere Forschung zu fördern.

4. Ergebnisse

Die Experimente wurden auf drei Datensätzen durchgeführt:

UIT-OpenViIC: Ein großskaliger, offener Datensatz mit 13.100 Bildern und 61.241 vietnamesischen Beschreibungen.
KTVIC: Ein Benchmark für Alltagsszenen in Vietnam.
Crossmodal-3600: Ein multilingualer Datensatz, hier mit vietnamesischen Untertiteln für Zero-Shot-Tests.

Hauptergebnisse:

In-Domain (UIT-OpenViIC): ViCLIP-OT erreicht eine durchschnittliche Recall@K von 67,34 %. Dies ist eine Steigerung von 5,75 Prozentpunkten gegenüber dem CLIP-Baseline-Modell (61,59 %). Die Variante mit SigLIP-Basis (ViSigLIP-OT) erreicht sogar 68,96 %.
Zero-Shot (Crossmodal-3600): Das Modell übertrifft CLIP um 11,72 Prozentpunkte (56,85 % vs. 45,13 %), was die starke Generalisierungsfähigkeit auf unbekannte Domänen beweist.
Vergleich mit State-of-the-Art: ViCLIP-OT schlägt auch große, vortrainierte multilinguale Modelle wie Jina CLIP v2, Qwen3-VL-Embedding und mSigLIP deutlich, obwohl diese Modelle auf viel größeren, aber englisch-dominierten Datensätzen trainiert wurden.
Embedding-Raum Analyse: Die Visualisierung (UMAP) und Metriken zeigen, dass SIGROT den „Modality Gap" (die räumliche Trennung zwischen Bild- und Text-Embeddings) signifikant reduziert und die Ausrichtung (Alignment Score) verbessert.
GradCAM: Die Visualisierung der Aufmerksamkeit zeigt, dass ViCLIP-OT präziser auf die im Text genannten Objekte fokussiert, während Baseline-Modelle oft auf Hintergrundbereiche ablenken.

5. Bedeutung und Fazit

ViCLIP-OT demonstriert, dass die Integration von Optimal Transport in das kontrastive Lernen eine effektive und skalierbare Strategie ist, um die Leistung von Multimodal-Modellen in ressourcenarmen Sprachen zu steigern.

Praktische Implikationen: Das Modell bietet eine solide Basis für intelligente Suchsysteme, Bildanalyse und multimodale Anwendungen im vietnamesischen Sprachraum.
Forschungsbeitrag: Es zeigt, dass die Berücksichtigung globaler relationaler Strukturen (durch OT) über die reine paarweise Ausrichtung hinausgeht und entscheidend für die Überwindung des Modality Gaps ist.
Zukunftsaussichten: Die Autoren sehen Potenzial für weitere Skalierung, end-to-end Lernen von Ähnlichkeitsgraphen und die Erweiterung auf andere multimodale Aufgaben wie Visual Question Answering (VQA).

Zusammenfassend füllt ViCLIP-OT eine kritische Lücke in der KI-Forschung für südostasiatische Sprachen und etabliert einen neuen State-of-the-Art für das vietnamesische Bild-Text-Retrieval.