ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

本文提出了专为越南语图像 - 文本检索设计的 ViCLIP-OT 基础模型,通过结合 CLIP 式对比学习与相似性图正则化最优传输(SIGROT)损失函数,有效解决了低资源语言下的模态鸿沟问题,并在多个基准测试中显著超越了现有基线模型。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ViCLIP-OT 的新模型,它的核心任务是教计算机“看懂”越南语的图片并“读懂”越南语的文字,从而在两者之间进行精准的匹配(比如你搜一张图,它能找到对应的描述;或者你写一句话,它能找到对应的图)。

简单来说,之前的模型大多是用英语训练的,对越南语这种“资源较少”的语言效果一般。ViCLIP-OT 就是专门为解决这个痛点而生的。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解它的工作原理:

1. 核心问题:两个“语言不通”的翻译官

想象一下,你有一个视觉翻译官(负责看图)和一个文字翻译官(负责读越南语)。

  • 以前的做法(CLIP 模型): 这两个翻译官虽然都在同一个房间里工作,但他们各自为战。视觉翻译官把图片变成一种“密码”,文字翻译官把句子变成另一种“密码”。他们试图把相同的图片和句子对应的密码拉近,把不相关的推远。
  • 存在的问题: 这种“一对一”的硬碰硬(比如:这张图=这句话,那张图=那句话)有时候不够聪明。比如,一张图里有“很多灯笼”,另一张图里是“几个灯笼”,它们其实很像,但旧模型可能因为没看到具体的“灯笼”这个词,就认为它们没关系。这就叫模态鸿沟(Modality Gap),即图片和文字在计算机的“大脑”里住得太远了,甚至分成了两个不同的社区。

2. 创新方案:引入“交通规划师” (Optimal Transport)

ViCLIP-OT 的聪明之处在于,它给这两个翻译官请了一位交通规划师,也就是论文里提到的 OT (最优传输) 技术。

  • 比喻: 想象你要把一群图片(乘客)和一群文字(目的地)进行匹配。
    • 旧方法是:每个乘客必须直接跳进一个特定的出租车,不管旁边有没有更合适的车。
    • ViCLIP-OT 的方法是:交通规划师会先画一张关系网(相似性图)。他发现,虽然乘客 A 和目的地 A 是配对的,但乘客 A 和目的地 B 其实也很像(比如都是关于“灯笼”的)。
    • 于是,规划师不再只盯着“一对一”,而是计算全局最优方案:如何把这一批乘客和这一批目的地整体地、最省力地匹配起来?它允许“模糊匹配”,比如把关于“灯笼”的所有图片和所有文字都聚在一起,形成一个紧密的社区。

3. 具体怎么做的?(SIGROT 技术)

论文里提到的 SIGROT 就是这个“交通规划师”的算法名字。

  • 建图: 它先看看这一批训练数据里,哪些图片和文字长得像(哪怕它们不是官方配对的一对)。
  • 修路: 它利用“最优传输”数学工具,强行把图片和文字在计算机的“大脑空间”里拉近。它不仅仅告诉模型“这张图配这句话”,还告诉模型“这张图配这句话,同时也和那几张图、那段话有亲戚关系”。
  • 结果: 图片和文字不再散落在两个孤岛上,而是像混居的社区一样,紧密地交织在一起。这就是论文里说的“减少模态鸿沟”。

4. 效果如何?(实战表现)

研究人员在三个越南语数据集上测试了这个模型:

  • UIT-OpenViIC (主战场): 这是一个包含一万多张越南生活图片的大数据集。ViCLIP-OT 的表现比之前的“英语转译”模型强了 5.75%。这就像是一个原本只能考 60 分的学生,突然考到了 66 分,而且是在完全不懂英语的情况下。
  • 零-shot 测试 (Crossmodal-3600): 这是最厉害的测试。模型没有见过这些新数据,直接上去考试。结果它比旧模型强了 11.72%!这说明它真的“学会”了越南语图片的规律,而不是死记硬背。
  • 可视化证据: 论文里的图显示,旧模型里,图片点和文字点像两群互不理睬的人;而 ViCLIP-OT 里,它们紧紧抱在一起,分都分不开。

5. 总结:为什么这很重要?

这就好比以前我们想通过图片搜索越南语信息,就像是用一把英语钥匙去开越南语的门,要么打不开,要么很费劲。
ViCLIP-OT 则是专门打造了一把越南语钥匙,并且给这把钥匙装上了智能导航系统(最优传输),让它不仅能开锁,还能理解门后复杂的房间布局(图片里的细节和文字里的关系)。

一句话总结:
ViCLIP-OT 是一个专门为越南语设计的“超级翻译官”,它不再死板地一对一匹配,而是学会了从整体关系上理解图片和文字,让计算机在越南语环境下“看图说话”和“按图索骥”的能力有了质的飞跃。这对于越南的互联网搜索、智能客服和多媒体系统来说,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →