The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 주제: "기억"과 "재해석"의 경계

상상해 보세요. 친구에게 **"달의 뒷면 (The Dark Side of the Moon)"**이라는 제목을 말하고 그림을 그려달라고 했어요.

일반적인 AI: 진짜 달이나 우주선을 그릴지도 모릅니다. (글자 그대로의 뜻)
문화적 기억을 가진 AI: 핑크 플로이드의 앨범 표지처럼 프리즘과 무지개를 그릴 것입니다. (우리가 공유하는 문화적 상징을 이해했기 때문)

이 연구는 AI 가 이런 **문화적 상징 (Multimodal Iconicity)**을 어떻게 처리하는지 분석합니다. AI 가 단순히 훈련 데이터를 **복사 (Memorization)**하는지, 아니면 문화를 **이해하고 변형 (Generalization)**하는지 구분하는 것이 핵심입니다.

🧩 연구의 비유: "요리사"와 "레시피"

이 논문의 저자들은 AI 를 유명한 요리를 만드는 요리사에 비유합니다.

문제 상황:
- 우리가 "파스타"라고 하면 AI 는 보통 파스타를 그립니다. 하지만 "마마파스타 (Mamma Mia!)"라고 하면, 이탈리아의 바다와 햇살이 섞인 특정 분위기를 떠올립니다.
- 기존 연구들은 AI 가 원본 그림을 **100% 똑같이 베꼈는지 (복제)**만 확인했습니다. 하지만 AI 가 원본의 분위기나 핵심 요소를 가져와서 새로운 그림으로 재창조했다면? 이건 '복제'가 아니라 '재해석'입니다.
새로운 평가 도구 (CRT):
- 저자들은 이 두 가지를 구분하기 위해 **CRT(문화적 참조 변환)**라는 새로운 점수 시스템을 만들었습니다.
- 인식 (Recognition): "아, 이 그림이 '어떤 유명한 작품'을 말하는구나!"라고 AI 가 알아챘는가? (예: 프리즘을 보고 앨범을 알아차림)
- 구현 (Realization): "그걸 어떻게 그렸나?" (원본을 그대로 찍어냈는가? 아니면 새로운 스타일로 변형했는가?)
비유:
- 나쁜 요리사 (복제): 레시피를 그대로 베껴서 원본과 똑같은 요리를 냄비에서 꺼내옵니다. (저작권 문제 발생)
- 훌륭한 요리사 (재해석): 레시피의 핵심 맛 (문화적 상징) 을 기억하지만, 자신만의 스타일로 새로운 요리를 만들어냅니다. (창의적)
- 무능한 요리사 (무관심): "파스타"라고 했는데 김치를 그립니다. (문화적 맥락을 모름)

🔍 주요 발견 사항 (요리사들의 실력 비교)

저자들은 5 가지 다른 AI 모델 (Stable Diffusion, Imagen 등) 을 테스트했습니다.

모델마다 성격이 다릅니다:
- 어떤 모델은 인식 능력은 뛰어나지만, 그림을 그릴 때 원본을 너무 많이 베끼는 경향이 있었습니다. (맛은 알지만 레시피를 그대로 베낌)
- 어떤 모델은 원본을 베끼는 건 적지만, 정작 "어떤 작품인지"를 알아차리지 못했습니다. (새로운 걸 만들지만 주제와 다름)
- Imagen 4와 SD3 같은 모델은 "원본의 맛을 알아채면서도, 새로운 스타일로 변형하는" 능력이 가장 뛰어났습니다.
단어를 바꿔도 알아맞히는가?
- "The Scream (비명)"이라는 제목 대신 "The Shriek (비명)"이라는 동의어로 바꿔서 요청했습니다.
- 대부분의 AI 는 단어가 바뀌면 그림을 못 그렸지만, Imagen 4는 단어가 바뀌어도 여전히 "비명"이라는 문화적 상징을 알아보고 그림을 잘 그렸습니다. 이는 AI 가 단순히 단어와 그림을 매칭하는 게 아니라, 의미를 이해하고 있음을 보여줍니다.
왜 어떤 그림은 잘 그리고 어떤 건 못 할까?
- AI 가 잘 그리는 이유는 단순히 자주 봤기 때문만은 아닙니다.
- 제목이 독특할수록, 오래된 명작일수록, 이미지가 기억에 잘 남을수록 AI 가 그 문화적 상징을 더 잘 알아맞혔습니다.

💡 결론: AI 는 단순한 복사기가 아니다

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 유명한 그림을 그릴 때, 그것이 **'저작권 위반인 복사'**인지, **'문화를 존중하는 재해석'**인지를 구분해야 합니다."

기존의 평가 방식은 AI 가 원본과 얼마나 닮았는지만 재서, 창의적인 변형을 '나쁜 복사'로 오해할 수도 있었습니다. 하지만 이 연구는 AI 가 문화를 어떻게 기억하고, 어떻게 새로운 형태로 만들어내는가를 보는 더 섬세한 눈을 필요로 한다고 말합니다.

한 줄 요약:

AI 는 단순히 유명한 그림을 '복사'하는 기계가 아니라, 우리가 공유하는 문화적 기억을 '이해'하고 '새롭게 표현'할 수 있는 잠재력을 가진 존재입니다. 이제 우리는 그 능력을 더 정교하게 평가해야 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

텍스트 - 이미지 확산 모델 (Text-to-Image Diffusion Models) 은 방대한 데이터셋을 학습하여 강력한 생성 능력을 갖추었지만, **일반화 (Generalization)**와 기억 (Memorization) 사이의 경계가 모호하다는 문제가 있습니다. 특히, 문화적으로 공유된 시각적 참조 (예: 유명한 영화 제목, 앨범 커버, 회화 작품) 를 프롬프트로 입력할 때 모델이 어떻게 반응하는지는 기존 평가 방식으로는 명확히 구분하기 어렵습니다.

핵심 문제: 기존 평가 지표는 단순히 '복제 (Replication)' 여부를 판단하여 저작권 침해나 개인정보 유출을 감지하는 데 초점을 맞추고 있습니다. 그러나 문화적 아이콘 (Multimodal Iconicity) 의 경우, 모델이 해당 문화적 참조를 인식하고 시각적으로 재현하는 것은 필수적이지만, 원본을 그대로 베끼는 것은 금지되어야 하는 모순된 상황이 발생합니다.
한계: 현재의 평가 방식은 "문화적 참조를 인식하는 것"과 "원본을 그대로 복제하는 것"을 구분하지 못하여, 모델이 문화적 맥락을 이해하고 재해석하는 능력을 제대로 평가하지 못합니다.

2. 주요 기여 (Key Contributions)

이 논문은 다음과 같은 새로운 프레임워크와 통찰을 제시합니다.

다중 모달 아이콘성 (Multimodal Iconicity) 의 정의 및 형식화: 텍스트와 시각적 모티프 간의 문화적으로 기반을 둔 연관성을 새로운 평가 차원으로 정의했습니다.
문화적 참조 변환 (Cultural Reference Transformation, CRT) 프레임워크 개발: 모델의 행동을 두 가지 차원으로 분리하여 평가합니다.
- 인식 (Recognition): 생성된 이미지가 의도된 문화적 참조를 불러일으키는지 여부.
- 구현 (Realization): 해당 참조가 시각적으로 어떻게 표현되는지 (단순 복제 vs 재해석).
새로운 평가 지표 (CRT Metric) 도입: 인식 (CRA) 과 시각적 재사용 (VR) 을 결합하여, 모델이 문화적 참조를 인식하면서도 원본과 다른 새로운 이미지를 생성하는지 (변환, Transformation) 를 정량화합니다.
대규모 실증 연구: 5 개의 확산 모델 (Stable Diffusion 2, XL, 3, Flux Schnell, Imagen 4) 을 대상으로 767 개의 위키데이터 기반 문화적 참조 (정지 및 동영상 이미지 포함) 를 평가했습니다.

3. 방법론 (Methodology)

A. 데이터셋 구성

출처: 위키데이터 (Wikidata) 를 기반으로 한 767 개의 문화적 참조 (374 개의 정지 이미지, 393 개의 동영상 이미지).
선정 기준: 예술 작품, 앨범, 영화, TV 시리즈 등의 제목만 사용 (작가명 등 명시적 단서 제거). 언어별 위키페이지 링크 (Sitelinks) 가 20 개 이상인 글로벌 인지도를 기준으로 선정.
특징: 프롬프트는 오직 제목만 사용하며, 텍스트 - 시각 관계에 집중합니다.

B. 평가 프레임워크 (CRT)

생성된 이미지를 두 가지 축으로 평가합니다 (Fig. 2 참조).

인식 (Recognition) - CRA (Cultural Reference Alignment) 점수:
- 생성된 이미지와 기준 이미지 (Canonical Image) 간의 CLIP 임베딩 코사인 유사도를 계산합니다.
- 유사도 임계값 ( $\tau = 0.7$ ) 을 초과하면 해당 참조가 '인식'된 것으로 간주합니다.
- $CRA = \frac{1}{n} \sum \mathbb{1}[s_i > \tau]$ (인식된 생성 이미지 비율).
구현 (Realization) - VR (Visual Reuse) 점수:
- 인식된 이미지 내에서 원본의 시각적 요소가 얼마나 국소적으로 재사용되었는지 측정합니다.
- DINOv3 를 사용하여 이미지를 $4\times4$ 패치로 분할하고, 패치 간의 유사도를 계산합니다.
- 패치 유사도 임계값 ( $\tau_{patch} = 0.6$ ) 을 초과하는 패치 비율을 계산합니다.
- 낮은 VR 점수는 독립적인 시각적 합성을, 높은 VR 점수는 국소적 복제를 의미합니다.
문화적 참조 변환 (CRT) 점수:
- 두 지표를 결합하여 모델의 성능을 종합 평가합니다.
- 공식: $CRT = CRA \times (1 - VR)$
- 해석: 높은 CRT 점수는 모델이 문화적 참조를 잘 인식하면서도 (높은 CRA), 원본을 직접 복사하지 않고 변형하여 생성했음을 (낮은 VR) 의미합니다.

C. 실험 설계

모델 비교: Stable Diffusion (v2, XL, 3), Flux Schnell, Imagen 4.
프롬프트 변형 실험: 동의어 치환 (Synonym substitution) 과 직관적 묘사 (Literal description) 를 통해 텍스트 민감도를 테스트했습니다.
인간 평가: 1,000 개의 이미지 쌍에 대해 인간 평가자가 '문화적 참조 연상 여부'와 '시각적 재사용 정도'를 평가하여 자동 지표의 유효성을 검증했습니다.

4. 주요 결과 (Results)

A. 모델별 성능 차이

인식 (CRA) vs 재사용 (VR) 의 트레이드오프:
- Imagen 4: 높은 인식률과 상대적으로 낮은 시각적 재사용을 보여 최고의 CRT 점수를 기록했습니다. (문화적 참조를 잘 이해하면서도 변형 능력이 뛰어남)
- SD3 (Stable Diffusion 3): 높은 인식률을 보였으나, Imagen 4 에 비해 시각적 재사용 (VR) 이 더 높았습니다.
- Flux Schnell: 인식률은 낮았으나 시각적 재사용은 매우 낮았습니다. (문화적 참조를 잘 인식하지 못함)
- SDXL: 높은 인식률과 높은 재사용률을 보여 CRT 점수가 중간 수준이었습니다.
정지 vs 동영상: 정지 이미지 (회화, 앨범) 의 경우 모델 간 인식 차이가 뚜렷했으나, 동영상 (영화, 시리즈) 의 경우 SD2 와 SD3 가 높은 인식률을 보였습니다.

B. 프롬프트 민감도

프롬프트의 단어를 동의어로 바꾸거나 직관적 묘사로 변경하면 모든 모델의 CRA 점수가 감소했습니다.
특히 Synonym(동의어) 치환이 CRA 감소에 더 큰 영향을 미쳤으며, **Literal Description(직관적 묘사)**이 상대적으로 더 잘 유지되었습니다.
Imagen 4는 프롬프트가 변형되었을 때도 가장 높은 인식 유지율을 보였습니다.

C. 인식에 영향을 미치는 요인

텍스트 고유성 (Text Uniqueness): 프롬프트 제목이 훈련 데이터 내에서 얼마나 고유한지가 인식률 (CRA) 에 가장 큰 영향을 미쳤습니다. (고유한 제목일수록 인식률 높음)
생성 연도: 정지 이미지의 경우, 오래된 작품 (1950 년대 이전) 일수록 인식률이 높았습니다. (디지털 아카이브에서의 빈번한 노출 때문으로 추정)
데이터 양의 한계: 훈련 데이터에 포함된 이미지 수가 많다고 해서 반드시 높은 인식률이 보장되지는 않았습니다. (예: "A Night at the Opera"는 빈번하지만 텍스트 고유성이 낮아 인식률이 낮음)

D. 인간 평가와의 일치도

CRA 지표는 인간 평가자의 '연상 판단'과 높은 정확도 (0.91) 를 보였습니다.
VR 지표는 인간이 판단한 '시각적 재사용 정도'와 강한 상관관계 ( $\rho = 0.71$ ) 를 보였습니다.

5. 의의 및 결론 (Significance)

평가 패러다임의 전환: 단순한 '복제 (Replication)' 감지를 넘어, 모델이 문화적 맥락을 어떻게 인식하고 재해석 (Transformation) 하는지를 평가하는 새로운 기준을 제시했습니다.
모델 분석의 심화: 확산 모델이 문화적 참조를 학습하는 방식이 단순히 데이터 빈도에 의존하는 것이 아니라, 텍스트의 고유성, 시각적 특징, 문화적 인기도 등 복합적인 요소에 의해 결정됨을 밝혔습니다.
한계 및 향후 과제: 현재 데이터셋이 서구 중심 (Anglophone) 이라는 편향이 존재하며, 훈련 데이터의 정확한 구성을 알 수 없는 모델들의 경우 분석이 제한적입니다. 향후 더 다양한 문화적 배경을 아우르는 데이터셋과 인과관계 분석이 필요합니다.

요약하자면, 이 논문은 생성형 AI 가 문화적 기억을 어떻게 처리하는지 이해하기 위해, '인식'과 '재현'을 분리하여 평가하는 정교한 메트릭 (CRT) 을 개발하고, 이를 통해 다양한 확산 모델의 문화적 이해도와 창의적 변형 능력을 체계적으로 분석한 선구적인 연구입니다.