ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de fotos e descrições em vietnamita. O problema é que, até agora, os "robôs" de inteligência artificial que entendem fotos e textos eram como estudantes que só falavam inglês fluentemente. Se você mostrasse uma foto de um mercado de Ho Chi Minh e pedisse para eles descreverem em vietnamita, eles ficariam confusos ou inventariam coisas, porque não foram treinados com dados suficientes nesse idioma.

O artigo que você enviou apresenta o ViCLIP-OT, que é como se fosse o primeiro "super-intérprete" nativo criado especificamente para o vietnamita. Ele não apenas traduz, mas entende a cultura e o contexto visual local.

Aqui está uma explicação simples de como ele funciona, usando analogias do dia a dia:

1. O Problema: O "Abismo" entre Foto e Texto

Pense em uma foto e uma frase como duas pessoas tentando se encontrar em um parque escuro.

A foto é uma pessoa segurando uma lanterna.
A frase é outra pessoa segurando um mapa.
Nos modelos antigos (como o CLIP original), essas duas pessoas tentavam se encontrar apenas gritando "Eu sou a foto!" e "Eu sou o texto!" para quem estivesse perto. Isso funciona bem se elas estiverem lado a lado, mas se houver ruído ou se o parque for muito grande, elas podem se perder. Além disso, em idiomas com poucos dados (como o vietnamita), elas quase nunca se encontram.

2. A Solução: O "Mapa de Conexões" (SIGROT)

O grande trunfo do ViCLIP-OT é uma técnica chamada SIGROT (Transporte Ótimo Regularizado por Gráfico de Similaridade). Vamos usar uma analogia de organizar uma festa:

O Método Antigo (Contraste Simples): É como se o organizador da festa dissesse: "Quem está com a camisa vermelha, fique perto de quem está com o chapéu azul". Isso é bom, mas não considera que, na mesa ao lado, há alguém com uma camisa vermelha parecida com a do primeiro grupo. É uma visão muito rígida e individual.
O Método ViCLIP-OT (SIGROT): Imagine que o organizador olha para todo o grupo de uma vez. Ele vê que há um "clique" entre um grupo de pessoas que gostam de música e outro grupo que gosta de dança. Ele cria um mapa de conexões (o gráfico de similaridade) que diz: "Ei, essas pessoas aqui se parecem com aquelas ali, então vamos organizar a festa de forma que todos os grupos relacionados fiquem próximos".

O Transporte Ótimo é a matemática que calcula o caminho mais eficiente para mover as pessoas (os dados) de um lado para o outro, garantindo que ninguém fique sozinho e que os grupos relacionados fiquem juntos.

3. Como Funciona na Prática

O ViCLIP-OT faz duas coisas ao mesmo tempo:

Aula de Gramática (Aprendizado Contrastivo): Ensina o robô a dizer "Esta foto de um bánh mì combina com a frase 'sanduíche vietnamita'".
Aula de Geografia Social (SIGROT): Ensina o robô a entender que, se há várias fotos de bánh mì e várias frases sobre comida, elas formam uma "comunidade". O robô aprende a organizar essas comunidades no espaço mental dele, de modo que fotos e textos que têm a mesma "vibe" fiquem muito próximos, mesmo que não sejam idênticos.

4. Os Resultados: O Robô que "Vê" Melhor

Os autores testaram esse robô em três cenários diferentes:

Cenário de Casa (UIT-OpenViIC): Fotos e textos do dia a dia no Vietnã. O ViCLIP-OT foi muito melhor que os modelos antigos, encontrando a foto certa 5,75% mais vezes.
Cenário de Viagem (Zero-Shot): Eles mostraram fotos de lugares que o robô nunca viu antes (como o dataset Crossmodal-3600). Mesmo sem ter estudado especificamente essas fotos, o ViCLIP-OT foi 11,72% melhor que os concorrentes.
- Analogia: É como se você ensinasse a alguém a reconhecer "cachorros" usando fotos de labradores, e depois mostrasse uma foto de um poodle. O modelo antigo ficaria confuso, mas o ViCLIP-OT, por ter entendido a "estrutura" dos cachorros, reconhece imediatamente que é um cachorro, mesmo sendo uma raça diferente.

5. Por que isso importa?

Antes disso, para usar inteligência artificial em vietnamita, as pessoas tinham que traduzir tudo para inglês, o que perdia nuances e gírias locais. O ViCLIP-OT prova que é possível criar sistemas inteligentes que entendem idiomas menos comuns sem depender de traduções.

Em resumo:
O ViCLIP-OT é como um detetive vietnamita que não apenas olha para a foto e lê a legenda, mas usa um mapa de relacionamentos para entender como as coisas se conectam no mundo real. Ele preenche o "abismo" entre o que vemos e o que lemos, tornando a busca por imagens e textos em vietnamita muito mais precisa e inteligente.

Each language version is independently generated for its own context, not a direct translation.

Título: ViCLIP-OT: O Primeiro Modelo Fundacional Visão-Linguagem para Recuperação Imagem-Texto em Vietnamita com Transporte Ótimo

1. O Problema

A recuperação imagem-texto (Image-Text Retrieval) é um componente fundamental em sistemas multimodais inteligentes. Embora modelos de pré-treinamento em larga escala, como CLIP e ALIGN, tenham alcançado resultados excepcionais em idiomas de alto recurso (principalmente inglês), eles apresentam desempenho subótimo em idiomas de baixo recurso, como o vietnamita.

As principais limitações enfrentadas são:

Falta de dados: Escassez de conjuntos de dados em larga escala de pares imagem-legenda em vietnamita.
Limitações de tradução: Soluções comuns envolvem traduzir legendas vietnamitas para inglês e usar modelos baseados em inglês, o que introduz ruído de tradução e perde nuances semânticas específicas do idioma.
Alinhamento imperfeito: Modelos padrão de aprendizado contrastivo (como CLIP) focam no alinhamento nível de instância (par a par), mas muitas vezes falham em capturar a estrutura relacional global entre amostras dentro de um lote de treinamento, levando a um "gap de modalidade" (modality gap) onde os espaços de incorporação de imagem e texto permanecem separados.

2. Metodologia: ViCLIP-OT

O trabalho propõe o ViCLIP-OT, um modelo fundacional visão-linguagem projetado especificamente para o vietnamita. A arquitetura combina uma estrutura de codificador duplo (dual-encoder) com uma nova função de perda baseada em Transporte Ótimo (Optimal Transport - OT).

Arquitetura do Modelo

Codificador de Imagem: Baseado no DINOv3 (um Vision Transformer de última geração pré-treinado com auto-distilação), que extrai características de alto nível de imagens.
Codificador de Texto: Utiliza um modelo Sentence-BERT (SBERT) pré-treinado em grandes corpora vietnamitas.
Espaço de Incorporação: Ambos os codificadores projetam suas entradas em um espaço de incorporação compartilhado de dimensão $d$ .

A Inovação Principal: Perda SIGROT

O núcleo da contribuição metodológica é a integração da perda SIGROT (Similarity-Graph Regularized Optimal Transport) ao aprendizado contrastivo padrão.

Grafo de Similaridade: Para cada lote de treinamento, é construído um grafo de similaridade que codifica as relações entre as amostras (texto-texto, imagem-imagem e texto-imagem). Isso captura a estrutura semântica global do lote, não apenas pares individuais.
Transporte Ótimo Não Equilibrado (Unbalanced OT): O modelo utiliza uma formulação de Transporte Ótimo regularizada entropicamente para encontrar um plano de transporte globalmente consistente entre as distribuições de imagens e textos.
- Diferente do CLIP padrão, que trata cada par independentemente, o SIGROT força o modelo a alinhar as distribuições completas, respeitando a estrutura relacional definida pelo grafo de similaridade.
- Isso mitiga o problema de ruído em pares não perfeitos e reduz o gap entre as modalidades.
Objetivo Híbrido: O treinamento otimiza uma combinação de:
- Perda Contrastiva (CLIP ou SigLIP) para alinhamento nível de instância.
- Perda SIGROT para alinhamento nível de distribuição e consistência estrutural.

3. Principais Contribuições

Primeiro Modelo Fundacional para Vietnamita: O ViCLIP-OT é o primeiro modelo visão-linguagem fundacional desenvolvido especificamente para recuperação imagem-texto em vietnamita nesta escala.
Mecanismo SIGROT: Propõe uma nova perda que integra Transporte Ótimo com grafos de similaridade para melhorar o alinhamento cruzado e reduzir o gap de modalidade.
Desempenho Superior: Demonstra que a abordagem supera os modelos base (CLIP e SigLIP) tanto em cenários in-domain quanto zero-shot.
Recursos Abertos: Os modelos pré-treinados e o código são disponibilizados publicamente para promover a pesquisa reprodutível em línguas de baixo recurso.

4. Resultados Experimentais

Os experimentos foram realizados em três benchmarks vietnamitas: UIT-OpenViIC (domínio aberto), KTVIC (cenários do dia a dia) e Crossmodal-3600 (avaliação zero-shot multilíngue).

Desempenho em UIT-OpenViIC (In-Domain):
- O ViCLIP-OT alcançou uma média de Recall@K de 67,34%, superando o modelo CLIP base em 5,75 pontos percentuais.
- A variante ViSigLIP-OT atingiu ainda mais, com 68,96%.
- Superou significativamente modelos multilíngues pré-treinados (como Jina CLIP v2 e Qwen3-VL) em configuração zero-shot.
Desempenho Zero-Shot (Generalização):
- No conjunto de dados Crossmodal-3600, o ViCLIP-OT superou o CLIP em 11,72 pontos percentuais (56,85% vs 45,13%), demonstrando forte capacidade de generalização para domínios não vistos.
Análise do Espaço de Incorporação:
- Redução do Gap de Modalidade: Métricas mostraram que o SIGROT reduz drasticamente a distância entre os centróides das embeddings de imagem e texto (gap de modalidade), criando um espaço latente mais coeso.
- Interpretabilidade: Visualizações via GradCAM indicam que o modelo com SIGROT foca mais precisamente nos objetos relevantes na imagem (ex: "menina com vestido Ao Dai") em comparação com o SigLIP base, que tende a se dispersar em fundos.

5. Significado e Impacto

Este trabalho é significativo por várias razões:

Avanço para Línguas de Baixo Recurso: Demonstra que é possível construir modelos fundacionais de alta performance para idiomas com poucos dados de treinamento, sem depender exclusivamente de tradução para inglês.
Validação do Transporte Ótimo: Confirma que o Transporte Ótimo, quando combinado com aprendizado contrastivo e grafos de similaridade, é uma estratégia escalável e eficaz para resolver problemas de alinhamento multimodal e reduzir o gap entre modalidades.
Aplicabilidade Prática: Oferece uma base sólida para sistemas de recuperação de mídia inteligente, busca semântica e aplicações de IA generativa no contexto vietnamita e em outros contextos linguísticos sub-representados.

Em resumo, o ViCLIP-OT estabelece um novo estado da arte para a recuperação imagem-texto em vietnamita, provando que a incorporação de estrutura relacional global via Transporte Ótimo é crucial para superar as limitações dos métodos puramente contrastivos em cenários de dados limitados.