ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Este trabalho apresenta o ViCLIP-OT, o primeiro modelo fundacional de visão e linguagem otimizado para a recuperação de imagem-texto em vietnamita, que integra aprendizado contrastivo CLIP com uma perda de transporte ótimo regularizada por grafos de similaridade para superar os modelos existentes e reduzir a lacuna entre modalidades em contextos de recursos linguísticos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de fotos e descrições em vietnamita. O problema é que, até agora, os "robôs" de inteligência artificial que entendem fotos e textos eram como estudantes que só falavam inglês fluentemente. Se você mostrasse uma foto de um mercado de Ho Chi Minh e pedisse para eles descreverem em vietnamita, eles ficariam confusos ou inventariam coisas, porque não foram treinados com dados suficientes nesse idioma.

O artigo que você enviou apresenta o ViCLIP-OT, que é como se fosse o primeiro "super-intérprete" nativo criado especificamente para o vietnamita. Ele não apenas traduz, mas entende a cultura e o contexto visual local.

Aqui está uma explicação simples de como ele funciona, usando analogias do dia a dia:

1. O Problema: O "Abismo" entre Foto e Texto

Pense em uma foto e uma frase como duas pessoas tentando se encontrar em um parque escuro.

  • A foto é uma pessoa segurando uma lanterna.
  • A frase é outra pessoa segurando um mapa.
  • Nos modelos antigos (como o CLIP original), essas duas pessoas tentavam se encontrar apenas gritando "Eu sou a foto!" e "Eu sou o texto!" para quem estivesse perto. Isso funciona bem se elas estiverem lado a lado, mas se houver ruído ou se o parque for muito grande, elas podem se perder. Além disso, em idiomas com poucos dados (como o vietnamita), elas quase nunca se encontram.

2. A Solução: O "Mapa de Conexões" (SIGROT)

O grande trunfo do ViCLIP-OT é uma técnica chamada SIGROT (Transporte Ótimo Regularizado por Gráfico de Similaridade). Vamos usar uma analogia de organizar uma festa:

  • O Método Antigo (Contraste Simples): É como se o organizador da festa dissesse: "Quem está com a camisa vermelha, fique perto de quem está com o chapéu azul". Isso é bom, mas não considera que, na mesa ao lado, há alguém com uma camisa vermelha parecida com a do primeiro grupo. É uma visão muito rígida e individual.
  • O Método ViCLIP-OT (SIGROT): Imagine que o organizador olha para todo o grupo de uma vez. Ele vê que há um "clique" entre um grupo de pessoas que gostam de música e outro grupo que gosta de dança. Ele cria um mapa de conexões (o gráfico de similaridade) que diz: "Ei, essas pessoas aqui se parecem com aquelas ali, então vamos organizar a festa de forma que todos os grupos relacionados fiquem próximos".

O Transporte Ótimo é a matemática que calcula o caminho mais eficiente para mover as pessoas (os dados) de um lado para o outro, garantindo que ninguém fique sozinho e que os grupos relacionados fiquem juntos.

3. Como Funciona na Prática

O ViCLIP-OT faz duas coisas ao mesmo tempo:

  1. Aula de Gramática (Aprendizado Contrastivo): Ensina o robô a dizer "Esta foto de um bánh mì combina com a frase 'sanduíche vietnamita'".
  2. Aula de Geografia Social (SIGROT): Ensina o robô a entender que, se há várias fotos de bánh mì e várias frases sobre comida, elas formam uma "comunidade". O robô aprende a organizar essas comunidades no espaço mental dele, de modo que fotos e textos que têm a mesma "vibe" fiquem muito próximos, mesmo que não sejam idênticos.

4. Os Resultados: O Robô que "Vê" Melhor

Os autores testaram esse robô em três cenários diferentes:

  • Cenário de Casa (UIT-OpenViIC): Fotos e textos do dia a dia no Vietnã. O ViCLIP-OT foi muito melhor que os modelos antigos, encontrando a foto certa 5,75% mais vezes.
  • Cenário de Viagem (Zero-Shot): Eles mostraram fotos de lugares que o robô nunca viu antes (como o dataset Crossmodal-3600). Mesmo sem ter estudado especificamente essas fotos, o ViCLIP-OT foi 11,72% melhor que os concorrentes.
    • Analogia: É como se você ensinasse a alguém a reconhecer "cachorros" usando fotos de labradores, e depois mostrasse uma foto de um poodle. O modelo antigo ficaria confuso, mas o ViCLIP-OT, por ter entendido a "estrutura" dos cachorros, reconhece imediatamente que é um cachorro, mesmo sendo uma raça diferente.

5. Por que isso importa?

Antes disso, para usar inteligência artificial em vietnamita, as pessoas tinham que traduzir tudo para inglês, o que perdia nuances e gírias locais. O ViCLIP-OT prova que é possível criar sistemas inteligentes que entendem idiomas menos comuns sem depender de traduções.

Em resumo:
O ViCLIP-OT é como um detetive vietnamita que não apenas olha para a foto e lê a legenda, mas usa um mapa de relacionamentos para entender como as coisas se conectam no mundo real. Ele preenche o "abismo" entre o que vemos e o que lemos, tornando a busca por imagens e textos em vietnamita muito mais precisa e inteligente.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →