Each language version is independently generated for its own context, not a direct translation.

SPGen: 그림을 볼 때 눈이 어떻게 움직일지 예측하는 'AI 눈썰미'

이 논문은 **"사람들이 그림을 볼 때 눈이 어디를 먼저 보고, 어떻게 움직일지 AI 가 예측하는 방법"**을 소개합니다. 이를 위해 개발된 모델의 이름은 SPGen입니다.

이 복잡한 기술 이야기를 마치 미술관 가이드와 눈의 여행에 비유해서 쉽게 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (문화유산의 비밀)

우리가 박물관에 가서 명화를 볼 때, 눈은 무작위로 돌아다니는 게 아니라 아주 특별한 패턴을 따릅니다.

눈의 여행 (스캔패스, Scanpath): 그림을 볼 때 눈이 멈추는 지점 (주목) 과 빠르게 이동하는 경로 (시선 이동) 를 연결한 것이 바로 '스캔패스'입니다.
문제점: 사람들은 자연 풍경 (산, 바다, 고양이 사진) 을 볼 때와 고전 명화 (르네상스, 바로크 등) 를 볼 때 눈이 움직이는 방식이 다릅니다. 하지만 기존 AI 는 자연 풍경은 잘 알아도, 예술 작품은 잘 이해하지 못해 엉뚱한 곳을 바라보게 만들었습니다.

2. SPGen 이란 무엇인가요? (똑똑한 미술관 가이드)

SPGen 은 **"그림을 보고 사람의 눈이 어디로 갈지 시뮬레이션하는 AI 가이드"**입니다. 이 가이드는 두 가지 핵심 기술을 사용합니다.

① '무작위성'을 더하다 (주사위 놀이)

사람의 눈은 기계처럼 똑같은 경로를 걷지 않습니다. 같은 그림을 봐도 사람마다, 혹은 같은 사람이라도 오늘 컨디션에 따라 눈이 가는 곳이 조금씩 다릅니다.

비유: SPGen 은 단순히 "여기를 봐"라고 딱 정해주는 게 아니라, **"여기서부터 시작해서 여기저기 둘러봐"**라고 **주사위 (랜덤 노이즈)**를 굴려서 다양한 시나리오를 만들어냅니다.
온도 (Temperature) 조절: 이 주사위의 강도를 조절하는 '온도'가 있습니다. 온도가 낮으면 눈이 중앙에 집중되고, 온도가 높으면 눈이 그림 전체를 더 넓게 훑어봅니다.

② '자연'에서 '예술'로 배우기 (무감독 도메인 적응)

이게 이 연구의 가장 큰 마법입니다. AI 는 처음에 수만 장의 '자연 사진' (산, 강, 사람) 을 보고 눈의 움직임을 배웠습니다. 그런데 이제 '고전 명화'를 보여주고 싶을 때, AI 는 당황합니다. 자연 사진과 그림은 색감, 구도, 질감이 다르기 때문입니다.

비유: 마치 한국에서 운전 면허를 뗀 사람이, 갑자기 독일에서 운전대를 잡는 상황과 같습니다. 도로 표지판 (데이터 분포) 이 다르기 때문입니다.
해결책: SPGen 은 **미러링 (Gradient Reversal Layer)**이라는 기술을 썼습니다. AI 가 "이건 자연 사진이야, 아니면 그림이야?"를 구별하지 못하도록 훈련시킵니다. 그렇게 하면 AI 는 "자연"과 "그림"의 공통된 특징 (예: 밝은 곳, 얼굴, 중요한 사물) 만 남기고, 나머지 차이점은 무시하게 됩니다.
결과: 자연 사진을 보고 배운 눈의 움직임을, 레이블 (정답) 이 없는 그림 데이터에도 그대로 적용할 수 있게 되었습니다.

3. 어떻게 작동하나요? (작동 원리)

사진을 보고 특징을 잡기 (MobileNet): 그림을 입력받으면 AI 가 그림의 중요한 부분 (얼굴, 사물, 색감) 을 찾아냅니다.
선입견을 더하기 (Learnable Priors): "사람은 보통 그림 중앙을 먼저 본다"는 인간의 습관 (중심 편향) 을 AI 가 스스로 학습해서 반영합니다.
눈의 경로를 그리기 (Fixation Selector): AI 가 "여기가 중요해!"라고 판단한 곳들을 연결해서 눈이 이동할 경로를 그립니다. 이때 랜덤 주사위를 굴려서 매번 조금씩 다른 경로를 만들어냅니다.

4. 결과는 어땠나요? (성공!)

자연 사진: 기존 최고의 AI 들보다 더 정확하게 눈의 움직임을 예측했습니다.
명화 (예술 작품): 자연 사진으로만 훈련된 AI 는 그림을 볼 때 엉뚱한 곳을 보았지만, SPGen 은 도메인 적응 기술을 통해 그림의 특성을 잘 이해했습니다.
- 비유: 이전 AI 가 그림을 볼 때 "중앙만 뚫어지게 쳐다보는" 상태였다면, SPGen 은 "그림의 구도, 색감, 스토리를 이해하며 자연스럽게 시선을 이동시키는" 상태가 되었습니다.

5. 이 기술이 왜 중요할까요?

이 기술은 단순히 AI 연구에 그치지 않고 문화유산 보존에 큰 도움을 줍니다.

가상 박물관: 사람들이 직접 박물관에 가지 않아도, AI 가 "이 그림을 보면 사람들은 이 부분에서 감동받았을 거야"라고 시뮬레이션해 줄 수 있습니다.
예술 감성 분석: 왜 이 그림이 유명한지, 사람들이 어떤 부분에 주목하는지 과학적으로 분석할 수 있습니다.

요약

SPGen은 **"자연 사진에서 배운 눈의 움직임을, AI 가 스스로 그림의 세계에 맞춰 변신시켜, 마치 사람이 그림을 감상하듯 다양한 시선 경로를 만들어내는 똑똑한 AI"**입니다.

이 기술은 우리가 예술 작품을 어떻게 감상하는지 이해하는 새로운 창을 열어주며, 디지털 시대의 문화유산 보존과 감상에 큰 기여를 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 인간의 시각적 주의 (Visual Attention) 를 이해하는 것은 문화유산 (특히 회화) 을 보존하고 감상하는 데 필수적입니다. 인간의 눈은 방대한 시각 정보를 처리하기 위해 '시선 경로 (Scanpath)'를 통해 중요한 영역에 집중하고 나머지는 무시합니다.
문제점:
1. 도메인 간격 (Domain Gap): 기존의 시선 추적 모델은 주로 자연 풍경 사진 (Natural Scenes) 으로 훈련되었습니다. 그러나 회화 (Paintings) 는 자연 사진과 다른 미학적, 구조적 특성을 가지므로, 자연 사진으로 훈련된 모델을 회화에 직접 적용하면 성능이 크게 저하됩니다.
2. 확률적 성질 (Stochasticity): 인간의 시선 이동은 결정론적이지 않고 확률적입니다. 동일한 자극 (이미지) 에 대해서도 관찰자에 따라, 혹은 같은 관찰자라도 상황에 따라 다른 시선 경로가 생성됩니다. 기존 모델들은 이러한 다양성을 반영하지 못하는 경우가 많습니다.
3. 레이블 데이터 부족: 회화 영역에서 고품질의 시선 추적 데이터 (Scanpath) 는 자연 사진에 비해 매우 부족하여 지도 학습을 통한 모델 훈련이 어렵습니다.

2. 제안된 방법론 (Methodology)

저자들은 SPGen이라는 새로운 딥러닝 모델을 제안하였으며, 이는 회화 이미지에 대한 시선 경로를 예측하고 생성하는 데 중점을 둡니다.

A. 아키텍처 구성

특징 추출기 (Feature Extractor): MobileNet 을 사용하여 입력 이미지에서 효율적으로 특징을 추출합니다.
학습 가능한 도메인 사전 편향 맵 (Learnable Domain Prior Bias Maps):
- 이미지의 중심 편향 (Center Bias) 을 모델링하기 위해 가우시안 분포를 사용합니다.
- 고정된 가우시안 함수 대신, 데이터로부터 학습 가능한 여러 개의 '주의 편향 (Attention Biases)' 맵을 생성하여 특정 도메인 (회화) 의 특성을 반영하도록 합니다.
병합 및 예측 모듈:
- 추출된 특징과 편향 맵을 결합한 후, Soft-ArgMax 함수를 통해 연속적인 좌표의 고정점 (Fixation points) 을 생성합니다.
- 고정점 선택기 (Fixation Selector): 글로벌 풀링과 MLP 를 사용하여 확률 벡터를 이진 마스크로 변환합니다. 이를 통해 가변 길이 (Variable-length) 의 시선 경로를 생성할 수 있습니다.
확률적 생성 (Stochastic Generation):
- 인간의 시선이 갖는 무작위성을 반영하기 위해 잠재 공간 (Latent Space) 에 무작위 노이즈 샘플러를 도입합니다.
- **온도 파라미터 (Temperature Parameter, $T$ )**를 통해 노이즈의 강도를 조절하여, 동일한 이미지에서도 다양한 시선 경로를 생성할 수 있도록 합니다.

B. 비지도 도메인 적응 (Unsupervised Domain Adaptation)

목표: 자연 사진 (Source Domain) 에서 학습된 지식을 라벨이 없는 회화 (Target Domain) 로 전이하여 성능을 향상시킵니다.
기법: **경사 반전 계층 (Gradient Reversal Layer, GRL)**을 활용한 적대적 도메인 적응을 적용합니다.
- 도메인 분류기 (Domain Classifier) 가 이미지 출처 (자연 vs 회화) 를 구분하려 할 때, GRL 은 역전파 시 기울기 부호를 반전시켜 (-1 곱하기) 특징 추출기가 도메인 구분에 실패하도록 유도합니다.
- 결과적으로 모델은 두 도메인 간의 공통된 특징만 추출하고 도메인 특유의 노이즈는 제거하여, 회화에서도 일반화 성능이 높은 공통 특징 공간 (Shared Representation Space) 을 학습하게 됩니다.

3. 주요 기여 (Key Contributions)

효율적인 시선 경로 예측 모델: 완전 합성곱 신경망 (FCNN) 기반의 효율적인 아키텍처를 제안하여 이미지에서 시선 경로를 예측합니다.
가변 길이 및 확률적 생성: 고정점 선택 모듈을 통해 가변 길이의 경로를 생성하고, 노이즈 샘플링과 온도 파라미터를 도입하여 동일한 자극에 대해 여러 가지 다른 시선 경로를 생성할 수 있게 했습니다.
회화 도메인 특화 적응: 비지도 적대적 도메인 적응 (Unsupervised Adversarial Domain Adaptation) 을 통해 자연 사진에서 학습된 모델을 라벨 없는 회화 데이터에 성공적으로 적용했습니다.
포괄적인 실험 검증: 자연 장면 (Salicon, MIT1003) 과 회화 (Le Meur, AVAtt) 데이터셋에 대한 정량적 및 정성적 평가를 수행하여 모델의 우수성을 입증했습니다.

4. 실험 결과 (Results)

자연 장면 데이터셋 (Salicon, MIT1003):
- 제안된 모델은 기존 최첨단 (SOTA) 모델 (PathGAN, SALYPATH 등) 보다 MultiMatch (Shape, Length, Position) 및 NSS 지표에서 우수한 성능을 보였습니다.
- 특히 NSS 점수에서 타 모델을 압도하며, 예측된 고정점이 실제 주의 영역 (Saliency) 과 잘 일치함을 입증했습니다.
회화 데이터셋 (Le Meur, AVAtt):
- 도메인 적응 전후 비교: 도메인 적응 (DA) 을 적용한 모델은 적용하지 않은 모델보다 NSS와 Congruency 지표에서 유의미한 성능 향상을 보였습니다.
- AVAtt 데이터셋: 다양한 예술 양식 (르네상스, 바로크, 중국 전통 회화 등) 에서도 모델이 적응하여 정확한 시선 경로를 생성함을 확인했습니다.
- 온도 파라미터 영향: 온도가 낮을수록 (노이즈 적음) 예측 정확도가 높았으나, 온도를 높이면 시선 경로가 더 넓은 영역으로 퍼지는 등 인간의 시선 다양성을 모방하는 것이 가능함을 확인했습니다.

5. 의의 및 결론 (Significance)

문화유산 보존 및 분석: 이 연구는 인간의 시각적 주의 메커니즘을 이해하고 이를 회화 분석에 적용함으로써, 문화유산의 디지털 보존 및 가상 박물관 경험 향상 등에 기여할 수 있는 강력한 도구를 제공합니다.
데이터 효율성: 라벨이 없는 회화 데이터로도 고품질의 시선 경로 예측이 가능하도록 한 도메인 적응 기법은, 데이터가 부족한 예술 분야 연구에 중요한 시사점을 줍니다.
확률적 모델링의 필요성: 인간의 시선이 단일한 정답이 아닌 확률적 분포를 가진다는 점을 모델에 반영함으로써, 더 현실적이고 다양한 시나리오를 시뮬레이션할 수 있게 되었습니다.

한계점 및 향후 과제: 현재 모델은 고정점의 **지속 시간 (Duration)**을 예측하지 못합니다. 향후 연구에서는 시간적 요소를 포함한 모듈을 추가하여 더 완전한 시선 경로 생성을 목표로 할 예정입니다.

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation