ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un bibliotecario digital muy inteligente, pero que solo habla inglés perfectamente. Si le muestras una foto de un mercado en Hanoi y le pides que busque la descripción correcta, este bibliotecario se queda confundido porque no entiende el vietnamita. Hasta ahora, para que funcionara, teníamos que traducir todo al inglés, lo cual a veces perdía el sabor y la esencia de la historia.

Este paper presenta a ViCLIP-OT, un nuevo bibliotecario diseñado específicamente para Vietnam, que no solo habla vietnamita, sino que entiende perfectamente cómo se relacionan las imágenes con las palabras en su cultura.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: Dos idiomas que no se entienden bien

Imagina que tienes dos grupos de personas en una habitación:

Grupo A: Lleva fotos en las manos.
Grupo B: Lleva descripciones escritas.

El objetivo es que cada persona del Grupo A encuentre a su pareja exacta en el Grupo B. Los modelos anteriores (como CLIP) son como un traductor que intenta emparejarlos, pero como fue entrenado principalmente con fotos y textos en inglés, a veces se equivoca con matices culturales o detalles específicos del vietnamita. Es como intentar emparejar zapatos usando una regla que mide en pulgadas cuando todos usan centímetros; funciona, pero no es perfecto.

2. La Solución: ViCLIP-OT (El nuevo emparejador)

ViCLIP-OT es un sistema de dos partes:

El Ojo (Visión): Usa un "super-visor" (llamado DINOv3) que ya sabe ver cosas genéricas, pero se entrena específicamente para ver escenas vietnamitas.
La Voz (Texto): Usa un "experto en lenguaje" (Sentence-BERT) que ya conoce el vietnamita a la perfección.

Ellos se entrenan juntos para aprender a poner las fotos y las palabras en el mismo "lugar mental" (un espacio de embeddings).

3. El Truco Secreto: El "Transporte Óptimo" (SIGROT)

Aquí es donde la magia ocurre. La mayoría de los modelos anteriores funcionan como un juego de "buscar la pareja" individual: miran una foto, miran una frase y dicen "¡Están bien!".

ViCLIP-OT añade una capa extra llamada SIGROT (Transporte Óptimo Regularizado por Gráficos de Similitud). Imagina que en lugar de emparejar a las personas una por una, el sistema mira a todo el grupo a la vez y dice:

"Espera, si esta foto de un festival de faroles se parece a esa foto de otro festival, y la descripción de la primera se parece a esa otra descripción, entonces estas dos fotos y estas dos descripciones deberían estar en un círculo cercano, no dispersas."

Es como organizar una fiesta:

Método antiguo: Intentas que cada invitado encuentre a su pareja ideal sin mirar a los demás.
Método ViCLIP-OT: Ves cómo se agrupan los invitados. Si ves que un grupo de gente que ama el café está cerca, y otro grupo que ama el té está lejos, ajustas las sillas para que los grupos afines se sienten juntos, creando una estructura global coherente.

Esto ayuda al modelo a entender que, aunque una foto y una frase no sean idénticas, si pertenecen a un "grupo de ideas" similar, deberían estar cerca.

4. Los Resultados: ¡Funciona increíblemente bien!

Los autores probaron a ViCLIP-OT en tres escenarios diferentes:

En su propia casa (UIT-OpenViIC): Encontró las fotos correctas mucho mejor que los modelos anteriores (mejoró un 5.75% en promedio).
En la calle (KTVIC): Incluso con fotos que nunca había visto antes, entendió el contexto vietnamita mejor que nadie.
En el mundo (Crossmodal-3600): Cuando le mostraron fotos de todo el mundo con descripciones en vietnamita, fue un 11.72% mejor que el modelo estándar.

La prueba de fuego:
Si le pides al modelo que busque "un hombre sosteniendo manzanas", ViCLIP-OT sabe exactamente mirar al hombre y las manzanas. Los modelos antiguos a veces miraban el fondo o el cielo. ViCLIP-OT ha aprendido a focalizar la atención en lo que realmente importa.

En resumen

ViCLIP-OT es como darle a un sistema de inteligencia artificial un "mapa mental" específico para Vietnam, en lugar de obligarlo a usar un mapa genérico. Al usar una técnica matemática avanzada (Transporte Óptimo) para entender cómo se agrupan las ideas, logra que las fotos y las palabras en vietnamita se entiendan entre sí de una manera mucho más natural, precisa y humana.

Es un gran paso para que la tecnología no solo hable inglés, sino que realmente entienda y respete las lenguas y culturas de todo el mundo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo ViCLIP-OT en español, estructurado según los puntos solicitados:

1. Problema Identificado

El campo de la recuperación de imágenes y texto (Image-Text Retrieval) ha avanzado significativamente gracias a modelos de pre-entrenamiento a gran escala como CLIP y ALIGN. Sin embargo, estos modelos están optimizados principalmente para idiomas de alto recurso (como el inglés) y muestran un rendimiento subóptimo en escenarios de bajos recursos, como el vietnamita.

Las principales limitaciones actuales incluyen:

Falta de datos: Escasez de conjuntos de datos grandes de pares imagen-texto en vietnamita.
Ruido de traducción: Las soluciones existentes a menudo traducen los textos al inglés para usar modelos pre-entrenados, lo que introduce ruido y pierde matices lingüísticos específicos del idioma.
Brecha de modalidad (Modality Gap): Los modelos estándar tienden a alinear las representaciones a nivel de instancia (parejas individuales), pero a menudo fallan en capturar la estructura relacional global entre muestras dentro de un lote, lo que genera espacios de incrustación donde las modalidades de imagen y texto permanecen separadas.

2. Metodología: ViCLIP-OT

El artículo propone ViCLIP-OT, un modelo fundacional de visión-idioma diseñado específicamente para la recuperación de imágenes y texto en vietnamita. La arquitectura se basa en un diseño de doble codificador (dual-encoder) que integra dos componentes clave:

A. Arquitectura de Codificadores

Codificador de Imágenes: Utiliza una arquitectura basada en DINOv3 (un Transformer de visión pre-entrenado con auto-distilación), que extrae características a nivel de parche y las agrupa mediante pooling medio para obtener una representación global.
Codificador de Texto: Emplea un modelo Sentence-BERT (SBERT) pre-entrenado específicamente en grandes corpus de vietnamita, asegurando una comprensión profunda del idioma local.
Ambos codificadores proyectan sus entradas en un espacio de incrustación compartido de 768 dimensiones.

B. Función de Pérdida Híbrida (El núcleo de la innovación)

El modelo se entrena con un objetivo híbrido que combina:

Pérdida de Aprendizaje Contrastivo (CLIP o SigLIP): Establece la alineación a nivel de instancia, empujando pares coincidentes juntos y separando los no coincidentes.
Pérdida SIGROT (Similarity-Graph Regularized Optimal Transport): Esta es la contribución central.
- Construcción de Gráfico de Similitud: Se construye un gráfico que codifica las relaciones entre todas las muestras dentro de un lote de entrenamiento (incluyendo similitudes texto-texto, imagen-imagen y cruzadas).
- Transporte Óptimo (OT): Se utiliza un solver de Transporte Óptimo (con regularización entrópica y transporte no balanceado - UOT) para encontrar un plan de transporte que alinee las distribuciones de imágenes y textos respetando la estructura global del gráfico de similitud.
- Objetivo: A diferencia del contraste puro, SIGROT fuerza una consistencia estructural global, asegurando que si dos imágenes son similares, sus textos correspondientes también lo sean en el espacio de incrustación, mitigando así la brecha de modalidad.

La función de pérdida total es una combinación ponderada: $L_{total} = \lambda L_{contrastiva} + L_{SIGROT}$ .

3. Contribuciones Clave

Primer Modelo Fundacional para Vietnamita: ViCLIP-OT es el primer modelo de visión-idioma de escala fundacional desarrollado específicamente para el vietnamita, superando las limitaciones de los enfoques basados en traducción.
Introducción de SIGROT: Propone una nueva función de pérdida que integra el Transporte Óptimo regularizado por un gráfico de similitud. Esto permite capturar alineaciones cruzadas de modalidad tanto a nivel de instancia como a nivel de distribución, mejorando la consistencia semántica global.
Rendimiento Superior en Bajos Recursos: Demuestra que es posible lograr un estado del arte (SOTA) en idiomas de bajos recursos mediante la combinación de arquitecturas modernas (DINOv3, SBERT) y regularización estructural avanzada, sin necesidad de datos masivos adicionales.
Recursos Abiertos: Los modelos pre-entrenados y el código se han hecho públicos para fomentar la reproducibilidad y la investigación futura en el contexto lingüístico vietnamita.

4. Resultados Experimentales

El modelo fue evaluado en tres conjuntos de datos vietnamitas: UIT-OpenViIC (principal), KTVIC y Crossmodal-3600.

Rendimiento In-Domain (UIT-OpenViIC):
- ViCLIP-OT superó consistentemente a las líneas base CLIP y SigLIP.
- Logró un Recall@K promedio de 67.34%, una mejora de 5.75 puntos porcentuales sobre el CLIP base (61.59%).
- La variante ViSigLIP-OT alcanzó aún mejor rendimiento con un 68.96% promedio.
- Superó significativamente a modelos multilingües pre-entrenados de última generación (como Qwen3-VL-Embedding y Jina CLIP) en configuración zero-shot.
Generalización Zero-Shot:
- En Crossmodal-3600 (datos no vistos), ViCLIP-OT superó al CLIP base en 11.72 puntos porcentuales (56.85% vs 45.13%), demostrando una capacidad de generalización excepcional a través de dominios.
- En KTVIC, también mostró mejoras significativas en la recuperación de texto a imagen y viceversa.
Análisis del Espacio de Incrustación:
- Reducción de la Brecha de Modalidad: Las métricas mostraron que SIGROT reduce drásticamente la distancia entre los centroides de las incrustaciones de imagen y texto (ej. la brecha bajó de 0.5843 a 0.3177 en SigLIP al añadir SIGROT).
- Visualización (UMAP): Los gráficos UMAP revelaron que ViCLIP-OT produce agrupaciones más tight y superpuestas entre imágenes y textos en comparación con las líneas base, indicando una alineación semántica más coherente.
- Interpretabilidad (GradCAM): Las visualizaciones mostraron que el modelo con SIGROT tiende a enfocarse más en objetos semánticamente relevantes (ej. una chica con vestido Ao Dai) en lugar de fondos difusos, en comparación con las líneas base.

5. Significancia e Impacto

Avance para Idiomas de Bajos Recursos: ViCLIP-OT establece un nuevo estándar para la recuperación multimodal en vietnamita, demostrando que la ingeniería de funciones de pérdida (como SIGROT) puede compensar la falta de datos masivos.
Estrategia Escalable: La integración de Transporte Óptimo con aprendizaje contrastivo ofrece una estrategia escalable y efectiva para mejorar la alineación cruzada de modalidades en cualquier contexto lingüístico subrepresentado.
Aplicaciones Prácticas: El modelo tiene implicaciones directas para sistemas de recuperación de multimedia inteligentes, motores de búsqueda y aplicaciones de IA en Vietnam y otras regiones con idiomas similares, permitiendo una comprensión más precisa del contexto cultural y lingüístico local.

En resumen, el trabajo demuestra que combinar el aprendizaje contrastivo con la regularización estructural basada en Transporte Óptimo es una vía prometedora para superar las limitaciones actuales de los modelos de visión-idioma en idiomas con recursos limitados.

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

1. El Problema: Dos idiomas que no se entienden bien

2. La Solución: ViCLIP-OT (El nuevo emparejador)

3. El Truco Secreto: El "Transporte Óptimo" (SIGROT)

4. Los Resultados: ¡Funciona increíblemente bien!

En resumen

1. Problema Identificado

2. Metodología: ViCLIP-OT

A. Arquitectura de Codificadores

B. Función de Pérdida Híbrida (El núcleo de la innovación)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significancia e Impacto

Más como este

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction