Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

Each language version is independently generated for its own context, not a direct translation.

🎨 배경: 왜 이 연구가 필요할까요?

중국 남서부의 나시족 (Naxi) 이 가진 '동바 그림'은 매우 특별한 예술입니다. 호랑이, 신, 악마, 연꽃 등 상징적인 그림들이 가득한데, 단순히 "호랑이가 있다"라고 말하는 게 아니라 **"이 호랑이는 동바 제단 수호신으로, 용기를 상징한다"**는 깊은 문화적 의미를 담고 있습니다.

하지만 기존의 인공지능 (AI) 은 우리가 매일 보는 사진 (자연 사진) 만 많이 봤기 때문에, 이런 특수한 그림을 보면 엉뚱한 말을 하거나 (예: 신을 그냥 사람으로 묘사), 문화적 의미를 전혀 모른 채 "색이 예쁘다" 정도만 말해줍니다. 마치 외국인 관광객에게 한국의 전통 제사상을 보고 "음식상이다"라고만 설명하는 것과 비슷합니다.

🛠️ 해결책: PVGF-DPC (똑똑한 안내원)

저자들은 이 문제를 해결하기 위해 PVGF-DPC라는 새로운 AI 모델을 만들었습니다. 이 모델은 두 가지 핵심 장치를 통해 작동합니다.

1. "문화 가이드북" (콘텐츠 프롬프트 모듈)

이 모델은 그림을 볼 때, 먼저 **"이 그림이 어떤 주제인가?"**를 빠르게 분류합니다.

비유: 그림을 본 AI 가 먼저 "아, 이건 '신 (Deity)'에 관한 그림이구나!" 혹은 **"아, 이건 '지옥의 귀신'에 관한 그림이구나!"**라고 분류하는 것입니다.
역할: AI 는 이 분류 결과를 바탕으로 **"이제부터 신에 대해 설명할 거야"**라고 스스로에게 주문 (프롬프트) 을 겁니다. 이렇게 하면 AI 가 엉뚱한 이야기를 지어내는 것을 막고, 문화적으로 정확한 설명을 하도록 유도합니다.

2. "눈과 입의 완벽한 호흡" (시각적 의미 생성 융합 손실)

기존 AI 는 그림을 보고 문장을 만드는 과정이 따로 놀아서, 그림의 디테일과 문화적 의미가 잘 맞지 않는 경우가 많았습니다.

비유: 그림을 보는 **눈 (Encoder)**과 문장을 쓰는 **입 (Decoder)**이 서로 대화하지 않고 따로 노는 상황입니다.
해결: 이 모델은 **눈이 본 문화적 특징 (예: 연꽃 의자, 신비로운 후광)**을 입이 쓰는 문장에 바로바로 반영되도록 훈련시킵니다. 마치 화가와 작가 한 명이 되어, 그림을 보며 동시에 문화적 의미를 해석해 문장을 쓰는 것처럼요.

📊 결과: 얼마나 잘할까요?

저자들은 동바 그림 9,408 장을 학습시켜 이 모델을 훈련시켰습니다. 그 결과:

기존 AI 들 (BLIP, ClipCap 등): "새가 있다", "사람이 있다" 같은 평범하고 틀린 설명을 했습니다.
새로운 모델 (PVGF-DPC): **"이 흰 박쥐는 나시 신화에서 하늘로 날아가 점복서를 가져오는 신성한 사자입니다"**처럼, 그림의 내용뿐만 아니라 문화적 의미까지 정확하고 아름답게 설명했습니다.

💡 요약: 이 연구의 핵심 메시지

이 논문은 **"단순히 그림을 보고 '무엇'이 있는지 말하는 것을 넘어, 그 그림이 가진 '문화적 이야기'까지 이해하고 전달하는 AI"**를 만들 수 있음을 보여줍니다.

마치 박물관의 안내원이 단순히 유물의 이름을 외우는 게 아니라, 그 유물이 가진 역사와 의미를 생생하게 이야기해 주는 것처럼, 이 AI 는 동바 그림의 숨겨진 영혼을 찾아내어 우리에게 들려줍니다. 이는 앞으로 우리가 가진 다양한 문화 유산을 AI 로 보존하고 이해하는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 동바 회화를 위한 프롬프트 학습 및 의미 융합 기반 캡션 생성 (PVGF-DPC)

1. 연구 배경 및 문제 정의 (Problem)

배경: 동바 회화 (Dongba paintings) 는 중국 남서부 나시족의 문화적 유산으로, 신화, 종교, 일상을 시각적으로 표현한 독특한 예술 형식입니다. 이는 강렬한 선, 생생한 색채, 그리고 신 (Deity), 악마 (Hell ghost), 의식적 상징물 등 고유한 문화적 심볼을 포함하고 있습니다.
문제점:
1. 도메인 시프트 (Domain Shift): 기존 이미지 캡션 생성 모델 (BLIP, CLIP 기반 모델 등) 은 자연 이미지 (Natural Images) 로 학습되어 있어, 동바 회화와 같은 특수한 문화적 도메인에 적용할 경우 할루시네이션 (허위 사실 생성) 이나 문화적 맥락이 결여된 일반화된 설명을 생성합니다.
2. 데이터 부족: 고품질의 이미지 - 텍스트 쌍 데이터가 부족하여 대규모 딥러닝 모델의 과적합 (Overfitting) 문제가 발생합니다.
3. 문화적 의미 부재: 기존 제어형 캡션 생성 (Controllable Captioning) 모델은 명시적인 키워드 추출에 의존하여, 동바 회화에 내재된 암묵적인 문화적 함의와 심층적 의미를 포착하지 못합니다.

2. 제안 방법론: PVGF-DPC (Methodology)

저자는 PVGF-DPC (Prompt and Visual Semantic-Generation Fusion-based Dongba Painting Captioning) 라는 엔코더 - 디코더 프레임워크를 제안합니다.

아키텍처 개요:
- 인코더 (Encoder): 입력된 동바 회화에서 특징을 추출하기 위해 MobileNetV2를 사용합니다. (ViT 등 비전 트랜스포머 대비 계산 효율성과 제한된 데이터 환경에서의 적합성 확보).
- 디코더 (Decoder): 10 레이어의 Transformer를 사용하며, 사전 학습된 BERT 가중치로 초기화되어 언어 이해력을 높입니다.
- 컨텐츠 프롬프트 모듈 (Content Prompt Module):
  - 인코더에서 추출된 이미지 특징 벡터를 기반으로 그림의 주제 (예: 신, 악마, 동식물), 행동, 테마 카테고리를 분류합니다.
  - 분류된 레이블을 바탕으로 "이것은 [주제] 에 관한 동바 회화입니다"와 같은 포스트 프롬프트 (Post-prompt) 를 생성하여 디코더에 입력합니다. 이를 통해 모델이 문화적 맥락을 명시적으로 인지하도록 유도합니다.
- 시각 - 의미 - 생성 융합 손실 함수 (Visual Semantic-Generation Fusion Loss):
  - 프롬프트 예측 손실 ( $L_{prompt}$ ) 과 캡션 생성 손실 ( $L_{text}$ ) 을 결합한 복합 손실 함수 ( $L_{fusion} = \alpha L_{text} + \lambda L_{prompt}$ ) 를 도입합니다.
  - 이 손실 함수는 인코더가 문화적으로 중요한 시각적 특징을 추출하도록 하고, 디코더가 시각적 사실과 문화적 의미에 부합하는 텍스트를 생성하도록 공동 최적화 (Joint Optimization) 합니다.
- 특징 주입: 이미지 특징 벡터가 디코더의 레이어 정규화 (Layer Normalization) 단계에 주입되어 시각적 정보가 텍스트 생성 과정 전반에 걸쳐 지속적으로 영향을 미치도록 설계되었습니다.

3. 주요 기여 (Key Contributions)

전용 데이터셋 구축: 기존 문헌에서 수집한 9408 개의 증강된 동바 회화 이미지와 7 가지 테마 카테고리 (신과 영혼, 지옥의 악마, 조수, 식물, 기마 및 낚시, 음악과 춤, 종교적 문양) 에 대한 문화 기반 텍스트 주석을 포함한 전용 데이터셋을 구축했습니다.
문화 인식 프롬프트 모듈: 이미지 특징을 문화적 레이블로 매핑하고 이를 디코더에 명시적인 컨텍스트로 제공하는 프롬프트 모듈을 설계하여, 할루시네이션을 줄이고 주제 관련성을 높였습니다.
시각 - 의미 - 생성 융합 손실: 프롬프트 분류와 캡션 생성을 동시에 최적화하는 새로운 손실 함수를 제안하여, 모델이 시각적 특징과 문화적 의미를 통합적으로 학습하도록 했습니다.

4. 실험 결과 (Results)

데이터셋: 9408 개의 증강된 동바 회화 이미지로 구성된 전용 테스트 세트를 사용했습니다.
성능 비교 (SOTA 대비): 제안된 PVGF-DPC 는 BLIP, ViECap, MacCap, ClipCap, OFA 등 기존 최첨단 모델들을 모든 평가 지표에서 압도적으로 능가했습니다.
- BLEU-1/2/3/4: 0.603 / 0.426 / 0.317 / 0.246
- METEOR: 0.256
- ROUGE: 0.403
- CIDEr: 0.599 (2 위 모델인 ViECap 대비 0.416 포인트 향상)
추론 (Ablation Study):
- 프롬프트 모듈과 융합 손실 함수가 모두 포함된 전체 모델이 가장 우수한 성능을 보였습니다.
- 특히 프롬프트 모듈은 생성된 설명의 다양성과 문화적 구체성 (CIDEr 점수 0.110 향상) 에 결정적인 역할을 했습니다.
정성적 평가:
- 예: '흰 박쥐'가 그려진 그림에서 기존 모델들은 '흰 학'이나 '용'으로 잘못 인식한 반면, PVGF-DPC 는 '흰 박쥐'를 정확히 식별하고 나시 신화에서의 역할 (신성한 사자, 예언서 구출 등) 을 정확하게 설명했습니다.

5. 의의 및 결론 (Significance)

문화 유산 디지털화: 동바 회화와 같은 특수한 문화적 유산에 대한 자동 텍스트 생성의 난제를 해결하여, 시각적 콘텐츠와 문화적 의미의 간극을 메웠습니다.
도메인 적응 전략: 제한된 데이터 환경에서 프롬프트 학습 (Prompt Learning) 과 의미 융합 (Semantic Fusion) 을 결합한 접근법이 일반 목적 모델의 한계를 극복하고 도메인 특화 성능을 극대화할 수 있음을 입증했습니다.
향후 연구: 더 정교한 프롬프트 설계, 데이터셋의 규모 및 다양성 확장, 그리고 다른 문화 유산 시각 도메인 (예: 중국 회화, 서예 등) 으로의 프레임워크 전이 가능성 탐구가 향후 과제로 제시되었습니다.

이 논문은 컴퓨터 비전과 자연어 처리 기술을 문화 연구에 적용하는 중요한 사례로, 단순한 객체 인식을 넘어 문화적 맥락을 이해하고 설명하는 AI 의 발전 가능성을 보여줍니다.