ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ViCLIP-OT 的新模型，它的核心任务是教计算机“看懂”越南语的图片并“读懂”越南语的文字，从而在两者之间进行精准的匹配（比如你搜一张图，它能找到对应的描述；或者你写一句话，它能找到对应的图）。

简单来说，之前的模型大多是用英语训练的，对越南语这种“资源较少”的语言效果一般。ViCLIP-OT 就是专门为解决这个痛点而生的。

为了让你更容易理解，我们可以用几个生活中的比喻来拆解它的工作原理：

1. 核心问题：两个“语言不通”的翻译官

想象一下，你有一个视觉翻译官（负责看图）和一个文字翻译官（负责读越南语）。

以前的做法（CLIP 模型）： 这两个翻译官虽然都在同一个房间里工作，但他们各自为战。视觉翻译官把图片变成一种“密码”，文字翻译官把句子变成另一种“密码”。他们试图把相同的图片和句子对应的密码拉近，把不相关的推远。
存在的问题： 这种“一对一”的硬碰硬（比如：这张图=这句话，那张图=那句话）有时候不够聪明。比如，一张图里有“很多灯笼”，另一张图里是“几个灯笼”，它们其实很像，但旧模型可能因为没看到具体的“灯笼”这个词，就认为它们没关系。这就叫模态鸿沟（Modality Gap），即图片和文字在计算机的“大脑”里住得太远了，甚至分成了两个不同的社区。

2. 创新方案：引入“交通规划师” (Optimal Transport)

ViCLIP-OT 的聪明之处在于，它给这两个翻译官请了一位交通规划师，也就是论文里提到的 OT (最优传输) 技术。

比喻： 想象你要把一群图片（乘客）和一群文字（目的地）进行匹配。
- 旧方法是：每个乘客必须直接跳进一个特定的出租车，不管旁边有没有更合适的车。
- ViCLIP-OT 的方法是：交通规划师会先画一张关系网（相似性图）。他发现，虽然乘客 A 和目的地 A 是配对的，但乘客 A 和目的地 B 其实也很像（比如都是关于“灯笼”的）。
- 于是，规划师不再只盯着“一对一”，而是计算全局最优方案：如何把这一批乘客和这一批目的地整体地、最省力地匹配起来？它允许“模糊匹配”，比如把关于“灯笼”的所有图片和所有文字都聚在一起，形成一个紧密的社区。

3. 具体怎么做的？(SIGROT 技术)

论文里提到的 SIGROT 就是这个“交通规划师”的算法名字。

建图： 它先看看这一批训练数据里，哪些图片和文字长得像（哪怕它们不是官方配对的一对）。
修路： 它利用“最优传输”数学工具，强行把图片和文字在计算机的“大脑空间”里拉近。它不仅仅告诉模型“这张图配这句话”，还告诉模型“这张图配这句话，同时也和那几张图、那段话有亲戚关系”。
结果： 图片和文字不再散落在两个孤岛上，而是像混居的社区一样，紧密地交织在一起。这就是论文里说的“减少模态鸿沟”。

4. 效果如何？(实战表现)

研究人员在三个越南语数据集上测试了这个模型：

UIT-OpenViIC (主战场)： 这是一个包含一万多张越南生活图片的大数据集。ViCLIP-OT 的表现比之前的“英语转译”模型强了 5.75%。这就像是一个原本只能考 60 分的学生，突然考到了 66 分，而且是在完全不懂英语的情况下。
零-shot 测试 (Crossmodal-3600)： 这是最厉害的测试。模型没有见过这些新数据，直接上去考试。结果它比旧模型强了 11.72%！这说明它真的“学会”了越南语图片的规律，而不是死记硬背。
可视化证据： 论文里的图显示，旧模型里，图片点和文字点像两群互不理睬的人；而 ViCLIP-OT 里，它们紧紧抱在一起，分都分不开。

5. 总结：为什么这很重要？

这就好比以前我们想通过图片搜索越南语信息，就像是用一把英语钥匙去开越南语的门，要么打不开，要么很费劲。
ViCLIP-OT 则是专门打造了一把越南语钥匙，并且给这把钥匙装上了智能导航系统（最优传输），让它不仅能开锁，还能理解门后复杂的房间布局（图片里的细节和文字里的关系）。

一句话总结：
ViCLIP-OT 是一个专门为越南语设计的“超级翻译官”，它不再死板地一对一匹配，而是学会了从整体关系上理解图片和文字，让计算机在越南语环境下“看图说话”和“按图索骥”的能力有了质的飞跃。这对于越南的互联网搜索、智能客服和多媒体系统来说，是一个巨大的进步。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：现有的视觉 - 语言模型（如 CLIP、SigLIP）主要在英语等高资源语言的大规模数据上训练，在低资源语言（如越南语）的图像 - 文本检索任务中表现不佳。
现有局限：
- 数据匮乏：缺乏大规模、高质量的越南语图像 - 文本配对数据集。
- 翻译噪声：常见的解决方案是将越南语文本翻译成英语再使用英文模型，但这会引入翻译噪声，且无法保留语言特有的语义含义。
- 模态间隙 (Modality Gap)：传统的对比学习（Contrastive Learning）主要关注实例级别的对齐，忽略了样本间的关系结构，导致图像和文本在嵌入空间中往往形成分离的簇（模态间隙），影响检索精度。

2. 方法论 (Methodology)

本文提出了 ViCLIP-OT，这是首个专为越南语图像 - 文本检索设计的基座视觉 - 语言模型。其核心架构由双编码器（Dual-Encoder）和混合训练目标组成。

2.1 模型架构

图像编码器 (Image Tower)：基于 DINOv3（Vision Transformer），利用自蒸馏在大规模图像数据集上预训练，提取图像特征。
文本编码器 (Text Tower)：基于在大规模越南语语料上预训练的 Vietnamese Sentence-BERT (SBERT)，提取文本特征。
共享嵌入空间：两个编码器将图像和文本投影到同一个 $d$ 维嵌入空间中，并通过 $\ell_2$ 归一化。

2.2 核心创新：SIGROT 损失函数

为了克服传统对比学习的局限，作者引入了 SIGROT (Similarity-Graph Regularized Optimal Transport) 损失函数，将对比学习与最优传输（Optimal Transport, OT）相结合：

相似性图构建 (Similarity-Graph Construction)：
- 利用预计算的嵌入（使用 Qwen3-VL-Embedding-2B 等模型）构建批次内的相似性图。
- 不仅计算文本 - 文本和图像 - 图像的相似度，还计算跨模态（文本 - 图像）的相似度，形成一个综合的跨模态相似性图 $G_{cross}$ 。
- 该图编码了批次内样本之间的全局关系结构（例如，多个描述相似视觉概念的文本）。
最优传输 (Optimal Transport, OT)：
- 使用 非平衡最优传输 (Unbalanced OT) 来解决图像和文本之间的匹配问题。
- 引入熵正则化（Entropic Regularization）和 KL 散度惩罚项，允许部分匹配，从而有效处理包含背景噪声或非视觉词汇的噪声数据。
- 通过 Sinkhorn 算法求解最优传输计划 $\gamma^*$ ，该计划旨在最小化传输成本，同时尊重相似性图所定义的全局结构。
混合训练目标 (Hybrid Objective)：
- 总损失函数 = 对比损失 (CLIP 或 SigLIP) + SIGROT 损失。
- CLIP/SigLIP 部分：负责实例级别的强对齐（拉近匹配对，推开不匹配对）。
- SIGROT 部分：负责分布级别的全局一致性，利用相似性图引导模型捕捉样本间的关系结构，弥合模态间隙。

3. 主要贡献 (Key Contributions)

首个越南语基座模型：提出了 ViCLIP-OT，这是首个针对越南语大规模图像 - 文本检索的基座视觉 - 语言模型，填补了该领域的空白。
SIGROT 损失提出：创新性地提出了基于相似性图正则化的最优传输损失。该方法利用批次内样本的关系结构来增强跨模态对齐，有效缓解了模态间隙问题。
全面的实验验证：在三个不同的越南语基准数据集（UIT-OpenViIC, KTVIC, Crossmodal-3600）上进行了广泛的实验，证明了模型在域内（In-domain）和零样本（Zero-shot）设置下的优越性。
开源与复现：公开了预训练模型和代码，支持后续研究和复现。

4. 实验结果 (Results)

实验在三个数据集上进行，主要指标为 Recall@K (R@K)。

域内性能 (UIT-OpenViIC)：
- ViCLIP-OT 的平均 R@K 达到 67.34%，比基线 CLIP 模型高出 5.75%。
- 基于 SigLIP 的变体 ViSigLIP-OT 表现更佳，平均 R@K 达到 68.96%。
- 显著优于现有的多语言预训练模型（如 Jina CLIP, Qwen3-VL-Embedding 等），后者在零样本设置下平均 R@K 仅为 55.40% 左右。
零样本泛化能力 (Zero-shot)：
- KTVIC 数据集：ViCLIP-OT 在测试集上平均 R@K 达到 82.68%，比 CLIP 高出 3.36%。
- Crossmodal-3600 (XM3600)：在跨语言/跨域测试中，ViCLIP-OT 平均 R@K 达到 56.85%，比 CLIP 高出 11.72%，显示出极强的泛化能力。
嵌入空间质量分析：
- 模态间隙 (Modality Gap)：ViCLIP-OT 显著降低了图像和文本嵌入中心之间的距离（例如在 UIT-OpenViIC 上，模态间隙从 SigLIP 的 0.5843 降至 0.1026）。
- 对齐度 (Alignment)：SIGROT 的引入显著提高了匹配对的余弦相似度。
- 可视化 (UMAP)：UMAP 可视化显示，ViCLIP-OT 的图像和文本嵌入紧密交织，而基线模型（特别是 SigLIP）则存在明显的分离簇。
可解释性 (GradCAM)：
- 可视化显示，引入 SIGROT 后，模型更倾向于关注与查询语义相关的物体（如“穿奥黛的女孩”、“拿着苹果的男人”），而不是背景区域，表明模型学会了更精准的语义关注。

5. 消融实验 (Ablation Studies)

图像编码器微调：部分微调 DINOv3 的最后 13 层 Transformer 组效果最佳（平均 R@K 69.62%），证明了适应特定领域（越南语图像）特征的重要性。
损失权重 ( $\lambda$ )：对比损失与 SIGROT 损失的平衡至关重要。 $\lambda=0.1$ 或 $0.2$ 时效果最佳，纯 SIGROT ( $\lambda=0$ ) 或纯对比损失均不如混合策略。
相似性图策略：跨模态组合策略（同时利用文本 - 文本、图像 - 图像和跨模态相似度）优于单一模态或简单的算术/调和平均策略，证明了整合多模态关系信息的必要性。

6. 意义与影响 (Significance)

低资源语言检索的突破：ViCLIP-OT 证明了通过引入最优传输和结构正则化，可以在数据相对匮乏的低资源语言场景下，构建出高性能的跨模态检索模型。
技术范式创新：将分布级的最优传输与实例级的对比学习相结合，为解决多模态学习中的“模态间隙”问题提供了新的有效思路。
实际应用价值：该模型可直接应用于越南语的智能多媒体检索系统、视觉问答（VQA）及多模态推理任务，具有重要的实际应用前景。
社区贡献：作为首个开源的越南语大规模视觉 - 语言基座模型，为相关领域的研究提供了宝贵的基准和资源。

总结：ViCLIP-OT 通过结合 DINOv3 视觉编码器、越南语 SBERT 文本编码器以及创新的 SIGROT 损失函数，成功解决了越南语图像 - 文本检索中的模态间隙和数据稀缺问题，在多项基准测试中取得了 State-of-the-Art (SOTA) 的性能。