EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Each language version is independently generated for its own context, not a direct translation.

1. 연구의 핵심: "눈의 나침반" 만들기

우리가 길을 걸을 때, 무심코 지나치는 풍경 속에서도 뇌는 중요한 것만 골라 봅니다. 신호등, 건너오는 사람, 혹은 길거리 카페 간판 등 말이죠. 이 연구는 **"사람이 걸을 때 눈이 어디로 향하는지"**를 예측하는 인공지능을 만드는 것입니다.

마치 **보이지 않는 '눈의 나침반'**을 개발하는 것과 같습니다. 이 나침반은 사람이 어디를 보느냐에 따라 로봇이나 자율주행차가 더 자연스럽게 사람들과 어울려 움직일 수 있게 도와줍니다.

2. 새로운 도구: '에고캠퍼스' 데이터셋

기존의 연구들은 대부분 실험실 안에서 사람이 화면을 보거나, 주방에서 요리를 하는 등 제한된 상황만을 다뤘습니다. 하지만 이 연구는 실제 대학 캠퍼스를 거닐며 걷는 80 명 이상의 사람들을 관찰했습니다.

비유: 기존 연구가 **'실내 수영장'**에서 헤엄치는 법을 배운다면, 이 연구는 **'실제 바다 (캠퍼스)'**에서 파도와 바람을 맞으며 헤엄치는 80 명의 수영선수를 관찰한 것입니다.
데이터의 양: 6km 길이의 25 개 다른 길을 32 시간 동안 촬영했습니다.
특별한 장비: 연구진은 메타 (Meta) 의 **'Project Aria'**라는 스마트 안경을 사용했습니다. 이 안경은 사람의 눈동자가 어디를 보고 있는지 (시선), 카메라로 보는 풍경 (영상), 그리고 몸의 움직임 (가속도계, GPS 등) 을 동시에 기록합니다. 마치 사람의 눈과 귀, 그리고 몸의 감각을 한꺼번에 녹음하는 '슈퍼 카메라' 같은 역할을 합니다.

3. 개발된 모델: 'EgoCampusNet' (ECN)

이제 이 방대한 데이터를 바탕으로 인공지능을 훈련시켰습니다. 이 모델은 두 가지 정보를 합쳐서 미래를 예측합니다.

비유: 이 모델은 **"과거의 기억 (이전 영상)"**과 **"현재의 순간 (지금 보는 화면)"**을 동시에 고려하는 현명한 길 안내자입니다.
- 단순히 "지금 화면 중앙에 사람이 있으니 사람을 보겠지"라고 추측하는 게 아니라, "아까 저쪽에서 소리가 났으니 고개를 돌렸을 거야"라고 과거의 맥락을 이해합니다.
- 이 모델은 영상의 흐름을 분석하고, 현재 화면의 특징을 결합해 **"사람이 다음에 어디를 볼 확률이 가장 높은지"**를 열지도 (Heatmap) 형태로 보여줍니다.

4. 발견한 재미있는 사실들

연구를 통해 몇 가지 흥미로운 패턴을 발견했습니다.

중앙 편향 (Center Bias): 사람들이 길을 걸을 때, 대부분 **화면의 정중앙 (앞으로 가는 방향)**을 봅니다. 이는 마치 자전거를 탈 때 앞을 보지 않고는 넘어질 수 없는 것과 같은 본능입니다.
고개를 돌릴 때: 사람들이 갑자기 고개를 돌리는 순간 (약 12.5% 의 경우), 주로 건물, 나무, 가로등 같은 구조물이나 다른 보행자를 봅니다. 이는 "무언가 눈에 띄는 것이 있거나, 길을 잃지 않으려고 주변을 확인하는 행동"입니다.

5. 왜 이 연구가 중요한가요?

이 연구는 단순히 "누가 어디를 봤나"를 기록하는 것을 넘어, 로봇과 사람이 함께 살아가는 미래를 준비합니다.

로봇의 눈: 만약 자율주행 로봇이나 서비스 로봇이 이 기술을 배우면, 사람이 어디를 보고 있는지 예측할 수 있습니다.
- 예시: 로봇이 사람과 마주쳤을 때, 사람이 "저기 신호등이 꺼졌네"라고 보고 있다면, 로봇도 그 신호등을 확인하며 길을 비켜줄 수 있습니다.
자연스러운 상호작용: 로봇이 사람의 시선을 읽을 수 있으면, 마치 인간처럼 자연스럽게 협력하거나 방해하지 않고 움직일 수 있게 됩니다.

요약

이 논문은 **"실제 세상에서 걷는 사람들의 눈을 관찰하여, 인공지능이 사람의 시선을 예측할 수 있게 한 연구"**입니다. 마치 **사람의 눈을 닮은 '디지털 나침반'**을 만들어, 앞으로 로봇이 사람들과 더 안전하고 자연스럽게 공존할 수 있는 길을 열어준 것입니다.

이 데이터와 코드는 추후 공개될 예정이며, 로봇 공학과 인공지능 연구자들에게 큰 보물이 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

EgoCampus: 실외 보행자 시선 예측을 위한 데이터셋 및 모델

이 논문은 실세계 보행 중 인간의 시각적 주의 (Visual Attention) 를 예측하는 과제를 해결하기 위해, 대학 캠퍼스 환경에서 수집된 EgoCampus 데이터셋과 이를 기반으로 개발된 **시선 예측 모델 (EgoCampusNet, ECN)**을 제안합니다.

1. 문제 정의 (Problem)

배경: 인간의 시선 패턴은 행동과 의도를 이해하는 데 필수적이며, 공유 공간에서 작동하는 embodied agent(로봇 등) 의 내비게이션 및 협력 행동을 학습하는 데 중요합니다.
한계: 기존 연구는 주로 정적 이미지, 스크린 기반 비디오, 또는 실내 (주방, 청소 등) 작업에 집중되어 있었습니다. 실외 보행 (Outdoor Locomotion) 중의 시선 데이터를 다룬 연구는 초기 단계이며, 대규모 데이터셋이 부족했습니다.
목표: 실외 환경에서 보행자가 이동할 때 어디를 바라보는지를 예측하는 모델을 개발하고, 이를 위한 풍부한 멀티모달 데이터셋을 구축하는 것.

2. 제안된 방법론 (Methodology)

A. EgoCampus 데이터셋

수집 장비: Meta 의 Project Aria 안경 사용 (전방 RGB 카메라, 눈 추적용 양안 카메라, IMU, GPS, Wi-Fi/Bluetooth 센서 등 통합).
데이터 규모:
- 참여자: 82 명의 고유한 보행자.
- 경로: 대학 캠퍼스 내 25 개의 고유한 실외 경로 (총 6km).
- 분량: 약 32 시간의 멀티모달 비디오 (약 350 만 프레임).
- 특징: 각 프레임마다 시선 좌표 (Gaze Coordinate), IMU, GPS 등 동기화된 센서 데이터 포함. 보행자는 경로를 왕복하며 다양한 시간대와 기상 조건에서 기록됨.
개인정보 보호: 비동의한 보행자의 얼굴은 'EgoBlur' 알고리즘으로 모자이크 처리하여 프라이버시를 보호했습니다.
통계적 특징: 데이터 분석 결과, 보행자의 고속 머리 회전 시 주의 대상은 주로 구조적 랜드마크 (건물, 나무) 와 내비게이션 단서 (다른 보행자, 경로) 였습니다.

B. EgoCampusNet (ECN) 모델

아키텍처: 시공간 (Spatio-temporal) 특징을 융합하는 딥러닝 모델.
1. 비디오 백본: 사전 학습된 비디오 인코더 (X3D 등) 를 사용하여 과거 프레임들의 시공간 특징 ( $S$ ) 을 추출.
2. 쿼리 프레임 인코딩: 예측하려는 현재 프레임 (Query Frame) 을 이미지 인코더 (ResNet) 를 통해 특징 ( $I$ ) 으로 변환.
3. 융합 (Fusion): 비디오 특징과 이미지 특징을 채널 차원에서 연결 (Concatenate) 후 CNN 디코더를 통해 저해상도 특징 맵을 생성.
4. 출력: 생성된 특징 맵을 업스케일링하고, 중심 편향 (Center Prior) 을 추가 및 정규화하여 최종 시선 히트맵 (Gaze Heatmap) 을 예측.
학습: PyTorch 환경에서 MSE 손실 함수와 Adam 옵티마이저 사용.

3. 주요 기여 (Key Contributions)

EgoCampus 데이터셋 공개: 실외 보행 중의 시선, 비디오, 센서 데이터가 동기화된 최초의 대규모 데이터셋. 기존 데이터셋 (Ego4D, EPIC-Kitchens 등) 과 달리 '실외 보행'과 '시선 데이터'에 특화됨.
EgoCampusNet (ECN) 모델 제안: 비디오의 시공간 맥락과 현재 프레임의 시각적 정보를 융합하여 효율적으로 시선을 예측하는 새로운 모델.
새로운 평가 전략: 데이터셋의 강한 '중심 편향 (Center Bias)'을 고려하여, 실제 시선이 중심에서 벗어난 경우를 더 중요하게 평가하는 'Prior-Relative Weighting' 전략 도입.

4. 실험 결과 (Results)

정량적 평가:
- ECN 은 파라미터 수 (42.5M) 가 적음에도 불구하고 기존 SOTA 모델들과 경쟁력 있는 성능을 보임.
- 중심 편향 영향: 'Dataset Prior'나 'Center Prior'만으로도 높은 성능 (AUC-Judd 0.98) 을 보일 정도로 데이터에 중심 편향이 강함.
- 가중치 평가: 중심 편향을 보정한 평가 지표 (Weighted Metrics) 를 적용했을 때, 편향에만 의존하는 모델들은 성능이 급격히 하락했으나, ECN 과 GLC 모델은 상대적으로 강건한 성능을 유지하거나 오히려 개선됨 (예: GLC 의 F1 점수 9% 향상). 이는 제안된 모델들이 단순한 중심 예측을 넘어 능동적인 시선 이동을 포착함을 의미.
정성적 평가:
- 기존 모델들 (EML-Net, DeepGazeIIE 등) 은 시선 영역을 과대평가하거나 중심에 집중하는 경향이 있었음.
- ECN 은 보행 방향 (중앙) 을 잘 예측하면서도, 다른 보행자나 먼 거리 특징물에 대한 시선 분포를 더 정확하게 포착함.

5. 의의 및 결론 (Significance)

embodied AI 및 HRI: 로봇이 인간과 공유하는 공간에서 인간의 시선과 주의를 예측하여 더 자연스러운 내비게이션과 상호작용을 가능하게 함.
환경 인식 모델링: 실외 환경에서의 시선 데이터를 기반으로 한 공간적 주의 (Spatio-temporal attention) 모델링의 새로운 기준을 제시.
향후 활용: 본 데이터셋은 YOPO-Campus(로봇 시점 데이터) 와 함께 인간 - 로봇 시스템의 내비게이션 연구에 핵심 자원으로 활용될 예정이며, 코드와 데이터는 공개될 것입니다.

이 연구는 실외 보행 환경에서의 인간 시선 예측이라는 빈약한 분야에 데이터와 모델, 그리고 새로운 평가 기준을 제공함으로써, 인간 중심의 지능형 시스템 개발에 중요한 기여를 합니다.

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

1. 연구의 핵심: "눈의 나침반" 만들기

2. 새로운 도구: '에고캠퍼스' 데이터셋

3. 개발된 모델: 'EgoCampusNet' (ECN)

4. 발견한 재미있는 사실들

5. 왜 이 연구가 중요한가요?

요약

EgoCampus: 실외 보행자 시선 예측을 위한 데이터셋 및 모델

1. 문제 정의 (Problem)

2. 제안된 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics