ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

이 논문은 CLIP 스타일의 대비 학습에 유사성 그래프 정규화 최적 수송 (SIGROT) 손실을 통합하여 저자원 언어인 베트남어 이미지 - 텍스트 검색 성능을 획기적으로 개선한 최초의 기반 비전 - 언어 모델인 ViCLIP-OT 를 제안하고, 여러 벤치마크에서 기존 모델들을 능가하는 성과를 입증합니다.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

게시일 2026-02-27
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

비클립-OT (ViCLIP-OT): 베트남어를 위한 '눈과 귀'를 연결하는 새로운 인공지능

이 논문은 베트남어로 된 이미지와 텍스트를 서로 찾아주는 인공지능을 개발한 연구입니다. 기존에 영어 등 주요 언어에는 뛰어난 인공지능이 많았지만, 베트남어처럼 데이터가 부족한 언어에서는 성능이 떨어지는 문제가 있었습니다. 연구팀은 이를 해결하기 위해 **'ViCLIP-OT'**라는 새로운 모델을 만들었습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 문제 상황: "영어만 잘하는 도서관 사서"

기존의 유명한 인공지능 (CLIP 같은 모델) 은 영어로 된 사진과 설명을 아주 잘 매칭합니다. 마치 영어만 유창하게 하는 도서관 사서 같은 존재죠.

하지만 베트남어 사진과 설명을 주면 사서는 당황합니다.

  • 번역의 함정: 베트남어를 영어로 번역해서 검색하면, 원래 뉘앙스가 사라지거나 오역이 생길 수 있습니다.
  • 데이터 부족: 베트남어로 된 사진과 설명 쌍 (이미지 - 텍스트 쌍) 이 영어에 비해 훨씬 적어서, 인공지능이 충분히 배우기 어렵습니다.

2. 해결책: ViCLIP-OT (새로운 사서)

연구팀은 베트남어에 특화된 새로운 사서, ViCLIP-OT를 채용했습니다. 이 사서는 두 가지 특별한 능력을 가지고 있습니다.

① 강력한 기본기 (CLIP 스타일 학습)

먼저, 사진과 글의 일치하는 부분을 찾는 기본 능력을 기릅니다.

  • 비유: "이 사진은 '소'이고, 이 글은 '소'에 대한 설명이야. 둘을 짝지어라!"라고 가르치는 것입니다.
  • 기술적 배경: 사진은 'DINOv3'라는 최신 안경 (시각 모델) 을 쓰고, 글은 베트남어에 특화된 'Sentence-BERT'라는 두뇌 (언어 모델) 를 사용합니다.

② '최적 수송 (Optimal Transport)'이라는 마법 지팡이 (SIGROT)

이게 이 연구의 핵심입니다. 단순히 짝을 맞추는 것만으로는 부족할 때가 있습니다.

  • 문제: 같은 '소' 사진이라도, 하나는 풀밭에 있고 하나는 농장에 있을 수 있습니다. 글도 "소"라고만 했을 수도 있고, "푸른 풀을 먹는 소"라고 구체적으로 썼을 수도 있습니다. 단순히 '소=소'로만 보면 미세한 차이가 무시됩니다.
  • 해결 (SIGROT): 연구팀은 **'최적 수송 (Optimal Transport)'**이라는 수학적 개념을 도입했습니다.
    • 비유: imagine you have a pile of red balls (photos) and a pile of blue balls (texts). Instead of just matching them one by one, you look at the entire shape of the piles. If the red balls are clustered in a specific way, you arrange the blue balls to match that overall pattern.
    • 실제 적용: 한 번에 여러 사진과 글이 들어오는 '배치 (Batch)' 안에서, 개별 짝 맞추기뿐만 아니라 전체적인 관계 구조를 고려합니다. "이 사진들은 서로 비슷하고, 이 글들도 서로 비슷하니까, 사진과 글의 전체적인 모양이 서로 잘 맞도록 조정해라"라고 가르치는 것입니다.
    • 효과: 이렇게 하면 인공지능은 단순히 단어를 맞추는 것을 넘어, 이미지와 글이 가진 전체적인 분위기나 맥락까지 이해하게 됩니다.

3. 실험 결과: 얼마나 잘할까요?

연구팀은 베트남의 세 가지 다른 데이터셋으로 실험을 했습니다.

  1. 일반적인 상황 (UIT-OpenViIC): 일상적인 베트남 사진과 글로 테스트했습니다.
    • 결과: 기존 모델 (CLIP) 보다 약 5.75% 더 정확해졌습니다. 이는 큰 차이입니다.
  2. 보지 못한 상황 (Zero-shot): 학습에 쓰지 않은 새로운 데이터 (KTVIC, Crossmodal-3600) 로 테스트했습니다.
    • 결과: 특히 새로운 데이터에서는 기존 모델보다 약 11.72% 더 뛰어났습니다. 이는 ViCLIP-OT 가 베트남어의 뉘앙스를 훨씬 잘 이해하고 있다는 뜻입니다.

4. 시각적 증거: "눈"이 어디를 보고 있을까?

인공지능이 실제로 무엇을 보고 판단하는지 'GradCAM'이라는 기술로 확인했습니다.

  • 기존 모델: "소"라고 검색했을 때, 소뿐만 아니라 배경의 풀이나 하늘까지 다 포함해서 반응했습니다. (너무 넓은 시야)
  • ViCLIP-OT: "소"라고 검색했을 때, 정확히 소가 있는 부분에 집중했습니다.
  • 비유: 기존 모델은 "저기 소가 있네, 주변도 다 소 같아!"라고 막연하게 생각했다면, ViCLIP-OT 는 "저기 정확히 소가 있네!"라고 정확하게 집어냈습니다.

5. 결론: 왜 중요한가요?

이 연구는 **데이터가 부족한 언어 (저자원 언어)**를 위한 인공지능 개발의 새로운 길을 열었습니다.

  • 핵심 메시지: 단순히 데이터를 많이 모으는 것뿐만 아니라, 데이터 간의 관계를 수학적으로 잘 정리해주는 (최적 수송) 방법을 쓰면, 적은 데이터로도 훨씬 똑똑한 모델을 만들 수 있습니다.
  • 미래: 이제 베트남어뿐만 아니라 다른 소수 언어에서도 이미지와 텍스트를 더 정확하게 연결하는 지능형 시스템 (검색 엔진, 자동 캡션 생성 등) 을 만드는 데 이 기술이 쓰일 것입니다.

한 줄 요약:

"ViCLIP-OT 는 베트남어 사진과 글을 단순히 짝 맞추는 게 아니라, 전체적인 맥락과 관계까지 고려하여 더 정확하게 연결해주는, 베트남어에 특화된 똑똑한 인공지능입니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →