Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Each language version is independently generated for its own context, not a direct translation.

이 논문은 베트남 메콩강 삼각주 지역의 '무형 문화유산' 사진들을 인공지능이 잘 분류하도록 돕는 새로운 방법을 소개합니다.

쉽게 말해, **"인공지능이 베트남의 전통 문화 사진을 구별할 때, 한 명의 천재보다 '여러 명의 전문가를 합친 지혜'를 사용하는 것이 더 효과적이다"**는 것을 증명하는 연구입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "비슷한 사진들 사이에서 헷갈리는 인공지능"

베트남 메콩강 지역에는 '물고기 잡이 축제', '대나무 짚공예', '크메르족의 춤' 등 매우 다양한 무형 문화유산이 있습니다. 하지만 이걸 사진으로 구분하는 건 정말 어렵습니다.

비유: 마치 비슷하게 생긴 쌍둥이를 구별하는 것과 같습니다.
- 예를 들어, '미롱 항구 제사'와 '탄푸옥타이 사원 의식' 사진은 배경이나 분위기가 너무 비슷해서, 인공지능이 "어? 이거 둘 다 같은 거 아니야?"라고 헷갈려 합니다.
- 게다가 이런 문화 사진들은 데이터가 너무 적습니다. (천 명 중 한 명만 있는 드문 경우처럼요.)
- 그래서 인공지능은 적은 데이터를 보고 공부하다 보니, 과도하게 외워서 (과적합) 새로운 사진을 보면 엉뚱한 답을 내놓는 경우가 많습니다.

2. 해결책: "모델 수프 (Model Soups)"라는 새로운 요리법

연구진들은 이 문제를 해결하기 위해 **'모델 수프 (Model Soups)'**라는 기술을 사용했습니다.

기존 방식 (단일 모델): 한 명의 요리사 (인공지능 모델) 가 열심히 요리를 해서 맛을 냅니다. 하지만 그 요리사가 그날 컨디션이 나쁘면 맛이 떨어질 수 있습니다.
새로운 방식 (모델 수프):
1. 같은 요리사 (CoAtNet 이라는 인공지능) 가 요리를 할 때, **다른 시간대마다 맛을 본 요리 (체크포인트)**를 여러 개 모읍니다. (예: 아침에 맛본 것, 점심에 맛본 것, 저녁에 맛본 것 등)
2. 이 여러 개의 '맛본 요리'들을 한 그릇에 섞어서 (평균을 내서) 새로운 '수프'를 만듭니다.
3. 이 수프는 개별 요리사보다 더 균형 잡히고 안정적인 맛을 냅니다.

핵심 포인트:

CoAtNet: 이 연구에서 쓴 인공지능의 이름입니다. 사진의 **세부적인 부분 (국소적 특징)**과 **전체적인 분위기 (전체적 특징)**를 동시에 잘 파악하도록 설계된 '하이브리드' 모델입니다.
수프의 종류:
- 균일 수프 (Uniform Soup): 좋은 체크포인트들을 모두 골고루 섞습니다.
- 탐욕스러운 수프 (Greedy Soup): 가장 좋은 것부터 하나씩 골라 섞어가며, 섞었을 때 더 좋아지면 계속 섞습니다.

3. 왜 이렇게 하면 더 잘될까? (다양성의 힘)

이 연구의 가장 재미있는 부분은 **"왜 섞으면 더 잘하는가?"**를 분석한 것입니다.

비유: 시험을 볼 때, 친구 10 명에게 답을 물어보는 것을 생각해 보세요.
- 소프트 보팅 (기존 방식): 친구들이 모두 비슷한 생각을 하는 경우, 그 답을 평균내도 큰 도움이 안 됩니다. (모두 틀리면 같이 틀리니까요.)
- 모델 수프: 친구들 중 서로 다른 관점을 가진 사람 (예: 한 명은 역사, 한 명은 미술, 한 명은 과학에 강한) 을 골라 섞는 것입니다.
- 연구진은 **MDS(다차원 척도법)**라는 지도를 그려서 확인했습니다. 그 결과, 모델 수프가 고른 친구들은 **서로 다른 위치 (다양한 관점)**에 서 있었지만, 기존 방식은 모두 한곳에 뭉쳐서 비슷한 생각만 하고 있었습니다.
- 결론: 서로 다른 관점을 가진 모델들을 섞으면, 실수가 상쇄되어 더 정확한 답이 나옵니다.

4. 실험 결과: "최고의 성적"

이 방법을 메콩강 문화유산 사진 7,406 장 (17 가지 종류) 으로 테스트했습니다.

결과: 기존에 쓰이던 유명한 인공지능들 (ResNet, ViT 등) 보다 더 높은 정확도를 기록했습니다.
- 정확도: 72.36% (기존 최고 기록을 깼습니다!)
- 특히, 데이터가 적고 헷갈리는 사진들일수록 모델 수프가 더 큰 효과를 발휘했습니다.
중요한 점: 이 방법은 계산 비용을 늘리지 않습니다. 여러 모델을 동시에 돌리는 게 아니라, 섞어서 하나의 모델로 만들기 때문에, 실제 사용할 때는 속도가 느려지지 않습니다.

5. 한 줄 요약

"비슷한 문화유산 사진을 구별할 때, 한 명의 천재 AI 에게 맡기는 것보다, 같은 AI 가 학습한 여러 단계의 '지혜'를 섞어 만든 '모델 수프'를 사용하는 것이 훨씬 더 똑똑하고 안정적입니다."

이 연구는 문화 유산을 디지털로 보존하려는 노력에 있어, 적은 데이터로도 높은 성능을 낼 수 있는 효율적인 방법을 제시했다는 점에서 큰 의의가 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 베트남 메콩 델타 지역의 무형문화유산 (ICH) 이미지 분류는 문화 보존 및 디지털 전파에 중요하지만, 다음과 같은 고유한 어려움이 존재합니다.
- 제한된 주석 데이터: 고품질의 레이블이 지정된 데이터가 부족함 (Low-resource setting).
- 높은 시각적 유사성: 클래스 간 경계가 모호하고 시각적 맥락이 매우 유사함 (예: '미롱 해신제'와 '탄푸오타이 사원 기연의식'은 시각적으로 구분이 어려움).
- 도메인 이질성: 다양한 문화적 표현이 혼재되어 있음.
문제점: 이러한 저자원 환경에서 기존 심층 학습 모델은 높은 분산 (variance) 이나 우연한 상관관계 (spurious correlations) 에 과적합되어 일반화 성능이 저하되는 경향이 있습니다.

2. 제안된 방법론 (Methodology)

저자들은 CoAtNet 아키텍처와 모델 수프 (Model Soups) 기술을 결합한 새로운 분류 프레임워크를 제안했습니다.

A. 하이브리드 아키텍처: CoAtNet

구조: 합성곱 (Convolution) 과 자기 주의 (Self-attention) 메커니즘을 단계별로 융합한 하이브리드 모델입니다.
- 초기 단계 ( $S_0, S_1, S_2$ ): MBConv 블록을 사용하여 국소적 특징 (local patterns) 을 효율적으로 추출.
- 후기 단계 ( $S_3, S_4$ ): 트랜스포머 블록을 도입하여 전역적 의존성 (global dependencies) 을 모델링.
장점: 공간적 일반화에 대한 강한 귀납적 편향 (inductive bias) 을 유지하면서도 장거리 상호작용 학습 능력을 확보합니다.

B. 가중치 공간 앙상블: 모델 수프 (Model Soups)

개념: 단일 학습 궤적에서 얻은 여러 체크포인트 (checkpoint) 의 가중치를 평균화하여 하나의 강력한 모델을 생성하는 기법입니다. 추가적인 추론 비용 (inference cost) 을 증가시키지 않습니다.
전략:
1. Greedy Soup: 검증 세트에서 가장 높은 정확도를 가진 체크포인트를 먼저 선택한 후, 검증 성능을 향상시키는 다른 체크포인트들을 순차적으로 추가합니다.
2. Uniform Soup: Greedy 방식으로 선택된 최적의 체크포인트 집합의 가중치를 균등하게 평균화합니다.
핵심 아이디어: 서로 다른 최적해 (solutions) 간의 가중치 공간에서 보간 (interpolation) 을 수행하여 과적합을 줄이고 일반화 능력을 향상시킵니다.

C. 다양성 분석 (Diversity Analysis)

기법: 교차 엔트로피 (Cross-entropy) 기반 거리 측정과 다차원 척도법 (MDS) 을 사용하여 모델 간의 거리를 2 차원 공간에 시각화했습니다.
목적: 모델 수프가 단순히 유사한 모델을 평균화하는 것이 아니라, 출력 공간 (output space) 에서 기하학적으로 다양하고 보완적인 체크포인트를 선택하는지 확인하기 위함입니다.

3. 실험 설정 (Experimental Setup)

데이터셋: ICH-17 데이터셋 사용 (메콩 델타의 17 개 무형문화유산 카테고리, 총 7,406 장의 이미지).
- 학습/검증/테스트 분할: 6,057 / 600 / 749 장.
베이스라인 모델: ResNet-50, DenseNet-121, Vision Transformer (ViT).
제안 모델: CoAtNet-0 (작은 규모) 및 CoAtNet-2 (큰 규모, ImageNet-12k 사전 학습).
학습 세부사항: ImageNet 사전 학습 가중치 미세 조정 (Fine-tuning), MixUp 및 CutMix 데이터 증강, AdamW 옵티마이저 사용.

4. 주요 결과 (Key Results)

성능 향상:
- CoAtNet-2 + Uniform Soup이 최상의 성능을 기록했습니다.
  - Top-1 정확도: 72.36% (기존 CoAtNet-2 대비 0.93%p 향상).
  - Macro F1-Score: 69.28% (기존 대비 0.70%p 향상).
- 이 결과는 ResNet-50, DenseNet-121, ViT 등 강력한 베이스라인 모델을 모두 능가하며, 기존 연구 (Do et al., Tran et al.) 보다도 월등히 높은 성능을 보입니다.
모델 수프의 효과:
- 단일 체크포인트보다 모델 수프가 모든 클래스에서 더 안정적이고 일관된 성능을 제공했습니다.
- 특히 시각적으로 유사하거나 데이터가 부족한 클래스 (예: 클래스 6, 10, 13) 에서 예측 안정성이 크게 개선되었습니다.
예측 다양성 분석:
- MDS 시각화 결과, 모델 수프에 포함된 체크포인트들은 출력 공간에서 넓게 분포되어 있는 반면, 기존 Soft Voting은 중복된 (clustered) 모델들을 평균화하여 중심부에 밀집되어 있음을 확인했습니다. 이는 모델 수프가 다양성 (Diversity) 을 효과적으로 활용함을 증명합니다.
사전 학습의 중요성:
- 무작위 초기화 (Random Initialization) 로 학습한 모델은 사전 학습 (Pre-training) 을 적용한 모델에 비해 정확도가 약 20~22%p 급감하여, 저자원 환경에서 사전 학습의 필수성을 입증했습니다.

5. 주요 기여 및 의의 (Contributions & Significance)

새로운 프레임워크 제안: 무형문화유산과 같은 저자원 및 고난이도 분류 작업에 CoAtNet과 Model Soups를 결합한 효율적인 프레임워크를 최초로 적용했습니다.
비용 효율적인 앙상블: 추론 비용을 증가시키지 않으면서 (단일 모델만 배포), 가중치 평균화를 통해 앙상블의 이점을 얻는 방법을 제시했습니다.
이론적 통찰: 편향 - 분산 (Bias-Variance) 분해 관점에서 모델 수프가 분산을 줄이는 데 효과적임을 입증하고, Soft Voting 과의 기하학적 차이를 MDS 를 통해 시각적으로 증명했습니다.
문화 보존 기여: 메콩 델타의 풍부한 무형문화유산을 디지털로 보존하고 분류하는 데 있어 AI 기반 솔루션의 실용성을 입증했습니다.

6. 결론 및 향후 과제

이 연구는 데이터가 부족하고 클래스 간 구분이 모호한 문화유산 분류 작업에서 모델 수프 기반의 다양성 인식 앙상블이 강력한 일반화 성능을 발휘함을 보여주었습니다. 향후 연구에서는 텍스트 메타데이터와 같은 다중 모달 (Multi-modal) 신호를 통합하고, 메콩 델타를 넘어 다른 지역의 더 넓은 ICH 데이터셋으로 확장하는 것을 목표로 하고 있습니다.