Each language version is independently generated for its own context, not a direct translation.

비클립-OT (ViCLIP-OT): 베트남어를 위한 '눈과 귀'를 연결하는 새로운 인공지능

이 논문은 베트남어로 된 이미지와 텍스트를 서로 찾아주는 인공지능을 개발한 연구입니다. 기존에 영어 등 주요 언어에는 뛰어난 인공지능이 많았지만, 베트남어처럼 데이터가 부족한 언어에서는 성능이 떨어지는 문제가 있었습니다. 연구팀은 이를 해결하기 위해 **'ViCLIP-OT'**라는 새로운 모델을 만들었습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제 상황: "영어만 잘하는 도서관 사서"

기존의 유명한 인공지능 (CLIP 같은 모델) 은 영어로 된 사진과 설명을 아주 잘 매칭합니다. 마치 영어만 유창하게 하는 도서관 사서 같은 존재죠.

하지만 베트남어 사진과 설명을 주면 사서는 당황합니다.

번역의 함정: 베트남어를 영어로 번역해서 검색하면, 원래 뉘앙스가 사라지거나 오역이 생길 수 있습니다.
데이터 부족: 베트남어로 된 사진과 설명 쌍 (이미지 - 텍스트 쌍) 이 영어에 비해 훨씬 적어서, 인공지능이 충분히 배우기 어렵습니다.

2. 해결책: ViCLIP-OT (새로운 사서)

연구팀은 베트남어에 특화된 새로운 사서, ViCLIP-OT를 채용했습니다. 이 사서는 두 가지 특별한 능력을 가지고 있습니다.

① 강력한 기본기 (CLIP 스타일 학습)

먼저, 사진과 글의 일치하는 부분을 찾는 기본 능력을 기릅니다.

비유: "이 사진은 '소'이고, 이 글은 '소'에 대한 설명이야. 둘을 짝지어라!"라고 가르치는 것입니다.
기술적 배경: 사진은 'DINOv3'라는 최신 안경 (시각 모델) 을 쓰고, 글은 베트남어에 특화된 'Sentence-BERT'라는 두뇌 (언어 모델) 를 사용합니다.

② '최적 수송 (Optimal Transport)'이라는 마법 지팡이 (SIGROT)

이게 이 연구의 핵심입니다. 단순히 짝을 맞추는 것만으로는 부족할 때가 있습니다.

문제: 같은 '소' 사진이라도, 하나는 풀밭에 있고 하나는 농장에 있을 수 있습니다. 글도 "소"라고만 했을 수도 있고, "푸른 풀을 먹는 소"라고 구체적으로 썼을 수도 있습니다. 단순히 '소=소'로만 보면 미세한 차이가 무시됩니다.
해결 (SIGROT): 연구팀은 **'최적 수송 (Optimal Transport)'**이라는 수학적 개념을 도입했습니다.
- 비유: imagine you have a pile of red balls (photos) and a pile of blue balls (texts). Instead of just matching them one by one, you look at the entire shape of the piles. If the red balls are clustered in a specific way, you arrange the blue balls to match that overall pattern.
- 실제 적용: 한 번에 여러 사진과 글이 들어오는 '배치 (Batch)' 안에서, 개별 짝 맞추기뿐만 아니라 전체적인 관계 구조를 고려합니다. "이 사진들은 서로 비슷하고, 이 글들도 서로 비슷하니까, 사진과 글의 전체적인 모양이 서로 잘 맞도록 조정해라"라고 가르치는 것입니다.
- 효과: 이렇게 하면 인공지능은 단순히 단어를 맞추는 것을 넘어, 이미지와 글이 가진 전체적인 분위기나 맥락까지 이해하게 됩니다.

3. 실험 결과: 얼마나 잘할까요?

연구팀은 베트남의 세 가지 다른 데이터셋으로 실험을 했습니다.

일반적인 상황 (UIT-OpenViIC): 일상적인 베트남 사진과 글로 테스트했습니다.
- 결과: 기존 모델 (CLIP) 보다 약 5.75% 더 정확해졌습니다. 이는 큰 차이입니다.
보지 못한 상황 (Zero-shot): 학습에 쓰지 않은 새로운 데이터 (KTVIC, Crossmodal-3600) 로 테스트했습니다.
- 결과: 특히 새로운 데이터에서는 기존 모델보다 약 11.72% 더 뛰어났습니다. 이는 ViCLIP-OT 가 베트남어의 뉘앙스를 훨씬 잘 이해하고 있다는 뜻입니다.

4. 시각적 증거: "눈"이 어디를 보고 있을까?

인공지능이 실제로 무엇을 보고 판단하는지 'GradCAM'이라는 기술로 확인했습니다.

기존 모델: "소"라고 검색했을 때, 소뿐만 아니라 배경의 풀이나 하늘까지 다 포함해서 반응했습니다. (너무 넓은 시야)
ViCLIP-OT: "소"라고 검색했을 때, 정확히 소가 있는 부분에 집중했습니다.
비유: 기존 모델은 "저기 소가 있네, 주변도 다 소 같아!"라고 막연하게 생각했다면, ViCLIP-OT 는 "저기 정확히 소가 있네!"라고 정확하게 집어냈습니다.

5. 결론: 왜 중요한가요?

이 연구는 **데이터가 부족한 언어 (저자원 언어)**를 위한 인공지능 개발의 새로운 길을 열었습니다.

핵심 메시지: 단순히 데이터를 많이 모으는 것뿐만 아니라, 데이터 간의 관계를 수학적으로 잘 정리해주는 (최적 수송) 방법을 쓰면, 적은 데이터로도 훨씬 똑똑한 모델을 만들 수 있습니다.
미래: 이제 베트남어뿐만 아니라 다른 소수 언어에서도 이미지와 텍스트를 더 정확하게 연결하는 지능형 시스템 (검색 엔진, 자동 캡션 생성 등) 을 만드는 데 이 기술이 쓰일 것입니다.

한 줄 요약:

"ViCLIP-OT 는 베트남어 사진과 글을 단순히 짝 맞추는 게 아니라, 전체적인 맥락과 관계까지 고려하여 더 정확하게 연결해주는, 베트남어에 특화된 똑똑한 인공지능입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

저자원 언어의 한계: 기존 대규모 비전 - 언어 (Vision-Language) 모델 (CLIP, ALIGN 등) 은 영어와 같은 고자원 언어에 최적화되어 있으며, 베트남어와 같은 저자원 언어에서는 성능이 현저히 떨어집니다.
데이터 부족: 베트남어용 대규모 이미지 - 텍스트 쌍 데이터셋이 부족하여 CLIP 스타일의 전이 학습 (Pre-training) 을 직접 적용하기 어렵습니다.
번역의 비효율성: 베트남어 캡션을 영어로 번역하여 영어 기반 모델을 사용하는 방식은 번역 노이즈를 유발하고 언어 고유의 뉘앙스를 잃게 만듭니다.
모달리티 간 격차 (Modality Gap): 기존 대비 학습 (Contrastive Learning) 은 인스턴스 단위의 정렬에는 효과적이지만, 배치 내 샘플 간의 관계적 구조를 고려하지 않아 이미지와 텍스트 임베딩 공간 간의 격차를 완전히 해소하지 못합니다.

2. 제안 방법론 (Methodology: ViCLIP-OT)

이 논문은 베트남어 이미지 - 텍스트 검색을 위한 최초의 파운데이션 모델인 ViCLIP-OT를 제안합니다. 이 모델은 CLIP 의 이중 인코더 (Dual-Encoder) 아키텍처를 기반으로 하되, 유사성 그래프 정규화 최적 수송 (SIGROT) 손실 함수를 통합하여 개선되었습니다.

2.1. 아키텍처

이미지 인코더: 대규모 이미지 데이터셋에서 자기 증류 (Self-distillation) 방식으로 사전 학습된 DINOv3 기반의 비전 트랜스포머 (ViT) 를 사용합니다.
텍스트 인코더: 대규모 베트남어 말뭉치로 사전 학습된 Vietnamese Sentence-BERT (SBERT) 를 사용합니다.
공유 임베딩 공간: 두 인코더는 이미지와 텍스트를 동일한 차원의 임베딩 공간으로 매핑합니다.

2.2. 핵심 혁신: SIGROT 손실 함수

기존의 CLIP 대비 손실 (Instance-level alignment) 에 더해, 배치 내 샘플 간의 관계적 구조 (Relational Structure) 를 보존하는 SIGROT (Similarity-Graph Regularized Optimal Transport) 를 도입했습니다.

유사성 그래프 구축: 배치 내 이미지 - 이미지, 텍스트 - 텍스트, 그리고 교차 모달리티 (이미지 - 텍스트) 간의 유사성을 기반으로 그래프를 구성합니다. 이는 데이터의 글로벌 구조를 인코딩합니다.
최적 수송 (Optimal Transport, OT): 이미지와 텍스트 임베딩 간의 매칭을 찾을 때, 단순한 쌍별 정렬이 아닌, 구축된 유사성 그래프의 구조를 존중하는 전역적 (Global) 일관성을 가진 매칭을 찾습니다.
불균형 최적 수송 (Unbalanced OT): 배경 노이즈나 비시각적 단어가 포함된 경우를 처리하기 위해 마진 제약 조건을 완화하는 불균형 OT 를 사용하여 노이즈에 강인한 정렬을 수행합니다.
하이브리드 목적 함수: CLIP (또는 SigLIP) 손실과 SIGROT 손실을 가중치 $\lambda$ 로 결합하여 학습합니다.
$L_{total} = \lambda L_{contrastive} + L_{SIGROT}$

3. 주요 기여 (Key Contributions)

베트남어 전용 파운데이션 모델: 베트남어 이미지 - 텍스트 검색을 위해 설계된 최초의 대규모 파운데이션 비전 - 언어 모델 (ViCLIP-OT) 을 제시했습니다.
SIGROT 손실 제안: 배치 내 샘플 간의 관계적 구조를 활용하여 모달리티 간 정렬을 강화하고 모달리티 격차 (Modality Gap) 를 줄이는 새로운 손실 함수를 도입했습니다.
성능 입증: 세 가지 베트남어 벤치마크 (UIT-OpenViIC, KTVIC, Crossmodal-3600) 에서 기존 CLIP 및 SigLIP 기반 모델과 비교하여 도메인 내 (In-domain) 및 제로샷 (Zero-shot) 설정 모두에서 최첨단 (SOTA) 성능을 달성했습니다.
오픈 소스: 재현성 확보와 향후 연구를 위해 사전 학습된 모델과 코드를 공개했습니다.

4. 실험 결과 (Results)

세 가지 데이터셋 (UIT-OpenViIC, KTVIC, Crossmodal-3600) 에 대한 실험 결과는 다음과 같습니다.

도메인 내 성능 (UIT-OpenViIC):
- ViCLIP-OT 는 평균 Recall@K **67.34%**를 기록하여, 기존 CLIP 모델 (61.59%) 보다 5.75%p 향상되었습니다.
- ViSigLIP-OT (SigLIP 기반) 는 **68.96%**로 더 높은 성능을 보였습니다.
- 제로샷 설정에서 다국어 모델 (Qwen3-VL, Jina CLIP 등) 보다도 월등히 높은 성능을 보였습니다.
제로샷 일반화 성능 (KTVIC & Crossmodal-3600):
- Crossmodal-3600: CLIP 대비 11.72%p 높은 평균 Recall@K (56.85% vs 45.13%) 를 기록하여 뛰어난 도메인 일반화 능력을 입증했습니다.
- KTVIC: 데드uplicates 제거 후 평가에서도 일관된 성능 향상을 보였습니다.
임베딩 공간 분석:
- 모달리티 격차 감소: SIGROT 를 적용한 모델은 이미지와 텍스트 임베딩 간의 거리 (Modality Gap) 가 크게 줄어들었으며, UMAP 시각화에서 두 모달리티가 더 밀집되고 잘 정렬된 클러스터를 형성함을 확인했습니다.
- 시각적 주의 (GradCAM): SIGROT 를 적용한 모델은 배경 노이즈보다 쿼리와 관련된 객체 (예: '아오자이를 입은 소녀', '사과를 든 남자') 에 더 집중하는 경향을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

저자원 언어 처리의 새로운 패러다임: 대규모 데이터가 부족한 언어 환경에서도 최적 수송 (Optimal Transport) 기반의 구조적 정규화를 통해 강력한 크로스모달 검색 성능을 달성할 수 있음을 증명했습니다.
실용적 적용 가능성: 베트남어 및 기타 소수 언어를 위한 지능형 멀티미디어 검색 시스템의 기반 기술로 활용될 수 있습니다.
향후 연구 방향: 대규모 전이 학습 전략, 엔드 - 투 - 엔드 유사성 그래프 학습, 그리고 시각적 질문 응답 (VQA) 및 다중 모달 추론 시스템으로의 확장이 제안됩니다.

이 논문은 베트남어와 같은 저자원 언어를 위한 비전 - 언어 모델 개발에 있어 구조적 일관성 (Structural Consistency) 을 강조하는 새로운 접근법의 유효성을 입증한 중요한 연구입니다.

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport