Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

본 논문은 메콩강 삼각주의 무형문화유산 이미지 분류에서 데이터 부족과 높은 시각적 유사성으로 인한 과적합 문제를 해결하기 위해, CoAtNet 아키텍처와 모델 수프 (Model Soups) 기법을 결합하여 분산을 줄이고 일반화 성능을 향상시킨 새로운 프레임워크를 제안하고, ICH-17 데이터셋에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 베트남 메콩강 삼각주 지역의 '무형 문화유산' 사진들을 인공지능이 잘 분류하도록 돕는 새로운 방법을 소개합니다.

쉽게 말해, **"인공지능이 베트남의 전통 문화 사진을 구별할 때, 한 명의 천재보다 '여러 명의 전문가를 합친 지혜'를 사용하는 것이 더 효과적이다"**는 것을 증명하는 연구입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제 상황: "비슷한 사진들 사이에서 헷갈리는 인공지능"

베트남 메콩강 지역에는 '물고기 잡이 축제', '대나무 짚공예', '크메르족의 춤' 등 매우 다양한 무형 문화유산이 있습니다. 하지만 이걸 사진으로 구분하는 건 정말 어렵습니다.

  • 비유: 마치 비슷하게 생긴 쌍둥이를 구별하는 것과 같습니다.
    • 예를 들어, '미롱 항구 제사'와 '탄푸옥타이 사원 의식' 사진은 배경이나 분위기가 너무 비슷해서, 인공지능이 "어? 이거 둘 다 같은 거 아니야?"라고 헷갈려 합니다.
    • 게다가 이런 문화 사진들은 데이터가 너무 적습니다. (천 명 중 한 명만 있는 드문 경우처럼요.)
    • 그래서 인공지능은 적은 데이터를 보고 공부하다 보니, 과도하게 외워서 (과적합) 새로운 사진을 보면 엉뚱한 답을 내놓는 경우가 많습니다.

2. 해결책: "모델 수프 (Model Soups)"라는 새로운 요리법

연구진들은 이 문제를 해결하기 위해 **'모델 수프 (Model Soups)'**라는 기술을 사용했습니다.

  • 기존 방식 (단일 모델): 한 명의 요리사 (인공지능 모델) 가 열심히 요리를 해서 맛을 냅니다. 하지만 그 요리사가 그날 컨디션이 나쁘면 맛이 떨어질 수 있습니다.
  • 새로운 방식 (모델 수프):
    1. 같은 요리사 (CoAtNet 이라는 인공지능) 가 요리를 할 때, **다른 시간대마다 맛을 본 요리 (체크포인트)**를 여러 개 모읍니다. (예: 아침에 맛본 것, 점심에 맛본 것, 저녁에 맛본 것 등)
    2. 이 여러 개의 '맛본 요리'들을 한 그릇에 섞어서 (평균을 내서) 새로운 '수프'를 만듭니다.
    3. 이 수프는 개별 요리사보다 더 균형 잡히고 안정적인 맛을 냅니다.

핵심 포인트:

  • CoAtNet: 이 연구에서 쓴 인공지능의 이름입니다. 사진의 **세부적인 부분 (국소적 특징)**과 **전체적인 분위기 (전체적 특징)**를 동시에 잘 파악하도록 설계된 '하이브리드' 모델입니다.
  • 수프의 종류:
    • 균일 수프 (Uniform Soup): 좋은 체크포인트들을 모두 골고루 섞습니다.
    • 탐욕스러운 수프 (Greedy Soup): 가장 좋은 것부터 하나씩 골라 섞어가며, 섞었을 때 더 좋아지면 계속 섞습니다.

3. 왜 이렇게 하면 더 잘될까? (다양성의 힘)

이 연구의 가장 재미있는 부분은 **"왜 섞으면 더 잘하는가?"**를 분석한 것입니다.

  • 비유: 시험을 볼 때, 친구 10 명에게 답을 물어보는 것을 생각해 보세요.
    • 소프트 보팅 (기존 방식): 친구들이 모두 비슷한 생각을 하는 경우, 그 답을 평균내도 큰 도움이 안 됩니다. (모두 틀리면 같이 틀리니까요.)
    • 모델 수프: 친구들 중 서로 다른 관점을 가진 사람 (예: 한 명은 역사, 한 명은 미술, 한 명은 과학에 강한) 을 골라 섞는 것입니다.
    • 연구진은 **MDS(다차원 척도법)**라는 지도를 그려서 확인했습니다. 그 결과, 모델 수프가 고른 친구들은 **서로 다른 위치 (다양한 관점)**에 서 있었지만, 기존 방식은 모두 한곳에 뭉쳐서 비슷한 생각만 하고 있었습니다.
    • 결론: 서로 다른 관점을 가진 모델들을 섞으면, 실수가 상쇄되어 더 정확한 답이 나옵니다.

4. 실험 결과: "최고의 성적"

이 방법을 메콩강 문화유산 사진 7,406 장 (17 가지 종류) 으로 테스트했습니다.

  • 결과: 기존에 쓰이던 유명한 인공지능들 (ResNet, ViT 등) 보다 더 높은 정확도를 기록했습니다.
    • 정확도: 72.36% (기존 최고 기록을 깼습니다!)
    • 특히, 데이터가 적고 헷갈리는 사진들일수록 모델 수프가 더 큰 효과를 발휘했습니다.
  • 중요한 점: 이 방법은 계산 비용을 늘리지 않습니다. 여러 모델을 동시에 돌리는 게 아니라, 섞어서 하나의 모델로 만들기 때문에, 실제 사용할 때는 속도가 느려지지 않습니다.

5. 한 줄 요약

"비슷한 문화유산 사진을 구별할 때, 한 명의 천재 AI 에게 맡기는 것보다, 같은 AI 가 학습한 여러 단계의 '지혜'를 섞어 만든 '모델 수프'를 사용하는 것이 훨씬 더 똑똑하고 안정적입니다."

이 연구는 문화 유산을 디지털로 보존하려는 노력에 있어, 적은 데이터로도 높은 성능을 낼 수 있는 효율적인 방법을 제시했다는 점에서 큰 의의가 있습니다.