GazeShift: Unsupervised Gaze Estimation and Dataset for VR

이 논문은 VR 환경의 데이터 부족 문제를 해결하기 위해 대규모 오프-축 안구 추측 데이터셋인 VRGaze 를 공개하고, 라벨 없이 학습 가능한 효율적인 어텐션 기반 프레임워크 GazeShift 를 제안하여 실시간 및 저비용 gaze 추정을 가능하게 합니다.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 연구가 필요한가요? (문제 상황)

가상현실 안경을 쓸 때, 사용자가 어디를 보고 있는지 정확히 알면 화면을 더 선명하게 보여주거나, 눈만 깜빡여도 버튼을 누를 수 있게 해줍니다. 하지만 기존에는 두 가지 큰 문제가 있었습니다.

  • 데이터가 부족해요: VR 안경의 카메라는 눈 옆에 비스듬하게 달려 있어서 (비대칭), 일반적인 카메라로 찍은 얼굴 사진과는 생김새가 완전히 다릅니다. 그런데 기존에 공개된 데이터는 대부분 정면에서 찍은 것이어서 VR 안경에 적용하기 어려웠습니다.
  • 레이블 (정답) 을 매기는 게 너무 어려워요: "이 사람이 지금 이 물체를 보고 있다"라고 정답을 알려주려면, 실험 참가자가 정말로 그 물체를 집중해서 봤는지 확인해야 하는데, 사람의 눈은 자꾸 떠돌아다니기 때문에 정답을 적는 데 시간이 너무 오래 걸리고 오류도 많습니다.

2. 해결책 1: 새로운 데이터 모음 'VRGaze'

연구팀은 210 만 장이 넘는 VR 안경용 눈 사진을 직접 찍어 모았습니다.

  • 비유: 마치 VR 안경을 쓴 68 명의 사람들이 다양한 물체를 따라가며 눈을 움직이는 모습을 30 초마다 찍어서, "VR 안경용 눈 사진"이라는 거대한 도서관을 만든 셈입니다.
  • 이 데이터는 VR 안경 특유의 비스듬한 각도를 완벽하게 반영하고 있어, 앞으로 개발될 VR 기술의 기초가 될 것입니다.

3. 해결책 2: 새로운 기술 'GazeShift'

이게 이 논문의 핵심입니다. 정답 (레이블) 없이도 눈이 어디를 보고 있는지 배우는 스스로 학습하는 기술입니다.

🎨 비유: "눈의 변신 마법"

상상해 보세요. 같은 사람의 눈 사진 두 장이 있다고 칩시다.

  1. 사진 A: 왼쪽을 보고 있는 눈.
  2. 사진 B: 오른쪽을 보고 있는 눈.

이 두 사진의 차이는 무엇일까요? 눈꺼풀이나 피부 모양은 똑같지만, **동공이 있는 위치 (시선)**만 다릅니다.

GazeShift는 이 차이를 이용해 학습합니다.

  • 학습 과정: 컴퓨터는 "사진 A(왼쪽 눈)"를 가지고, "사진 B(오른쪽 눈) 의 시선 정보"를 입력으로 주면, 사진 A 를 사진 B 처럼 변신시킬 수 있어야 한다고 배웁니다.
  • 핵심 아이디어: "시선"이라는 정보만 따로 떼어내서 (분리해서), 그 정보를 다른 눈 사진에 적용하면 그 눈도 그 방향으로 바라보게 변신할 수 있어야 한다.
  • 주의할 점: 이 과정에서 눈의 모양이나 피부색 같은 '외모' 정보는 변하지 않고 그대로 유지되어야 합니다. 마치 인형의 눈동자만 방향을 바꿔주는 것과 같습니다.

🔍 '주의 (Attention)'라는 렌즈

이 기술은 **'주의 (Attention)'**라는 렌즈를 사용합니다.

  • 컴퓨터는 "어디를 봐야 시선 방향이 바뀔까?"를 스스로 찾아냅니다.
  • 눈동자 (홍채) 주변은 시선과 관련이 깊으니 강조하고, 눈꺼풀이나 배경처럼 시선과 상관없는 부분은 무시합니다.
  • 이 덕분에 정답이 없어도, 컴퓨터는 스스로 "아, 눈동자 위치가 시선을 결정하는구나!"라고 깨닫게 됩니다.

4. 놀라운 결과

이 기술은 정말로 훌륭합니다.

  • 정확도: 정답을 알려주는 '지도 학습' 방식과 거의 비슷한 정확도 (약 1.84 도 오차) 를 냅니다.
  • 개인 맞춤: 처음에는 모든 사람에게 똑같이 작동하다가, 몇 번의 눈 움직임만 보여주면 (소량의 데이터) 그 사람 눈의 특징에 맞춰 정확도가 더 올라갑니다.
  • 빠른 속도: VR 안경 안에 들어갈 정도로 가볍고 빠릅니다. 5 밀리초 (0.005 초) 만에 처리해서, 사용자가 느끼는 지연 없이 실시간으로 작동합니다.
  • 효율성: 기존 기술보다 10 배 적은 메모리35 배 적은 계산 능력으로 똑같은 일을 해냅니다.

5. 요약: 왜 이것이 중요한가요?

이 연구는 **"정답을 알려주지 않아도, 눈이 어떻게 변하는지 관찰만 하면 시선을 알아낼 수 있다"**는 것을 증명했습니다.

  • VR 안경을 더 똑똑하고 가볍게 만들어줍니다.
  • 데이터를 직접 찍어 모으는 번거로움을 줄여줍니다.
  • 앞으로 **증강현실 (AR)**이나 다른 분야에서도 "외모는 그대로 두고, 특정 부분만 변하게 하는" 기술을 개발하는 데 큰 영감을 줄 것입니다.

결론적으로, GazeShift는 VR 안경이 사용자의 눈을 더 잘 이해하도록 돕는, 빠르고 똑똑한 '눈의 번역기'라고 할 수 있습니다.