EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

이 논문은 야외 캠퍼스 환경에서 보행자의 시선 주의를 예측하기 위해 메타의 Project Aria 안경을 활용해 수집한 대규모 시선 주석 데이터셋 'EgoCampus'와 이를 기반으로 한 새로운 시선 예측 모델 'EgoCampusNet'을 제안합니다.

Ronan John, Aditya Kesari, Vincenzo DiMatteo, Kristin Dana

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 연구의 핵심: "눈의 나침반" 만들기

우리가 길을 걸을 때, 무심코 지나치는 풍경 속에서도 뇌는 중요한 것만 골라 봅니다. 신호등, 건너오는 사람, 혹은 길거리 카페 간판 등 말이죠. 이 연구는 **"사람이 걸을 때 눈이 어디로 향하는지"**를 예측하는 인공지능을 만드는 것입니다.

마치 **보이지 않는 '눈의 나침반'**을 개발하는 것과 같습니다. 이 나침반은 사람이 어디를 보느냐에 따라 로봇이나 자율주행차가 더 자연스럽게 사람들과 어울려 움직일 수 있게 도와줍니다.

2. 새로운 도구: '에고캠퍼스' 데이터셋

기존의 연구들은 대부분 실험실 안에서 사람이 화면을 보거나, 주방에서 요리를 하는 등 제한된 상황만을 다뤘습니다. 하지만 이 연구는 실제 대학 캠퍼스를 거닐며 걷는 80 명 이상의 사람들을 관찰했습니다.

  • 비유: 기존 연구가 **'실내 수영장'**에서 헤엄치는 법을 배운다면, 이 연구는 **'실제 바다 (캠퍼스)'**에서 파도와 바람을 맞으며 헤엄치는 80 명의 수영선수를 관찰한 것입니다.
  • 데이터의 양: 6km 길이의 25 개 다른 길을 32 시간 동안 촬영했습니다.
  • 특별한 장비: 연구진은 메타 (Meta) 의 **'Project Aria'**라는 스마트 안경을 사용했습니다. 이 안경은 사람의 눈동자가 어디를 보고 있는지 (시선), 카메라로 보는 풍경 (영상), 그리고 몸의 움직임 (가속도계, GPS 등) 을 동시에 기록합니다. 마치 사람의 눈과 귀, 그리고 몸의 감각을 한꺼번에 녹음하는 '슈퍼 카메라' 같은 역할을 합니다.

3. 개발된 모델: 'EgoCampusNet' (ECN)

이제 이 방대한 데이터를 바탕으로 인공지능을 훈련시켰습니다. 이 모델은 두 가지 정보를 합쳐서 미래를 예측합니다.

  • 비유: 이 모델은 **"과거의 기억 (이전 영상)"**과 **"현재의 순간 (지금 보는 화면)"**을 동시에 고려하는 현명한 길 안내자입니다.
    • 단순히 "지금 화면 중앙에 사람이 있으니 사람을 보겠지"라고 추측하는 게 아니라, "아까 저쪽에서 소리가 났으니 고개를 돌렸을 거야"라고 과거의 맥락을 이해합니다.
    • 이 모델은 영상의 흐름을 분석하고, 현재 화면의 특징을 결합해 **"사람이 다음에 어디를 볼 확률이 가장 높은지"**를 열지도 (Heatmap) 형태로 보여줍니다.

4. 발견한 재미있는 사실들

연구를 통해 몇 가지 흥미로운 패턴을 발견했습니다.

  • 중앙 편향 (Center Bias): 사람들이 길을 걸을 때, 대부분 **화면의 정중앙 (앞으로 가는 방향)**을 봅니다. 이는 마치 자전거를 탈 때 앞을 보지 않고는 넘어질 수 없는 것과 같은 본능입니다.
  • 고개를 돌릴 때: 사람들이 갑자기 고개를 돌리는 순간 (약 12.5% 의 경우), 주로 건물, 나무, 가로등 같은 구조물이나 다른 보행자를 봅니다. 이는 "무언가 눈에 띄는 것이 있거나, 길을 잃지 않으려고 주변을 확인하는 행동"입니다.

5. 왜 이 연구가 중요한가요?

이 연구는 단순히 "누가 어디를 봤나"를 기록하는 것을 넘어, 로봇과 사람이 함께 살아가는 미래를 준비합니다.

  • 로봇의 눈: 만약 자율주행 로봇이나 서비스 로봇이 이 기술을 배우면, 사람이 어디를 보고 있는지 예측할 수 있습니다.
    • 예시: 로봇이 사람과 마주쳤을 때, 사람이 "저기 신호등이 꺼졌네"라고 보고 있다면, 로봇도 그 신호등을 확인하며 길을 비켜줄 수 있습니다.
  • 자연스러운 상호작용: 로봇이 사람의 시선을 읽을 수 있으면, 마치 인간처럼 자연스럽게 협력하거나 방해하지 않고 움직일 수 있게 됩니다.

요약

이 논문은 **"실제 세상에서 걷는 사람들의 눈을 관찰하여, 인공지능이 사람의 시선을 예측할 수 있게 한 연구"**입니다. 마치 **사람의 눈을 닮은 '디지털 나침반'**을 만들어, 앞으로 로봇이 사람들과 더 안전하고 자연스럽게 공존할 수 있는 길을 열어준 것입니다.

이 데이터와 코드는 추후 공개될 예정이며, 로봇 공학과 인공지능 연구자들에게 큰 보물이 될 것으로 기대됩니다.