EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

EgoGraph 는 여러 날에 걸친 초장기 일인칭 비디오의 이해를 위해 훈련이 불필요한 동적 지식 그래프 프레임워크를 제안하여, 개체 간의 장기적 의존성을 명시적으로 인코딩하고 복잡한 시간적 추론을 가능하게 함으로써 기존 방법의 한계를 극복하고 새로운 패러다임을 제시합니다.

Shitong Sun, Ke Han, Yukai Huang, Weitong Cai, Jifei Song

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "기억력 과부하"와 "산산조각 난 조각들"

우리가 하루 종일 찍은 영상을 상상해 보세요. 아침에 커피를 마시고, 점심에 친구를 만나고, 저녁에 쇼핑을 하는 등 하루 종일 영상이 계속 쌓입니다.

기존의 AI 들은 이 긴 영상을 이해할 때 두 가지 큰 실수를 저질렀습니다.

  1. 조각조각 잘라먹기 (Hierarchical): 영상을 1 시간 단위, 1 일 단위로 잘게 쪼개서 요약만 했습니다. 마치 책의 목차만 보고 내용을 추측하는 것과 같아요. "오전 10 시에 커피를 마셨다"는 기록은 있지만, "어제 마신 커피와 오늘 마신 커피가 같은 컵인지"는 연결이 안 됩니다.
  2. 기억력 과부하 (Long Context): 모든 영상을 한 번에 읽으려다 보니, AI 는 머리가 너무 복잡해져서 중요한 정보를 놓치거나, "어제"와 "오늘"을 헷갈려 합니다.

2. 해결책: EgoGraph 는 "살아있는 일기장"이자 "연결된 지도"

저자들은 이 문제를 해결하기 위해 EgoGraph를 만들었습니다. 이걸 **스마트한 '개인 일기장'이자 '연결된 지도'**라고 생각하면 쉽습니다.

🧩 비유 1: 사람, 물건, 장소를 '카드'로 정리하다

기존 방식은 영상을 텍스트로 나열하는 것이었다면, EgoGraph 는 영상을 카드로 만듭니다.

  • 사람 카드: '존'이라는 사람. (성별, 취향, 습관 등 정보 저장)
  • 물건 카드: '노란색 머그컵'. (누가 썼는지, 언제 샀는지)
  • 장소 카드: '부엌'.
  • 이벤트 카드: '회의'.

이 카드들은 단순히 나열되는 게 아니라, 시간이라는 실로 서로 꿰어져 있습니다.

🕰️ 비유 2: 시간의 흐름을 따라가는 '시간 여행'

이 시스템의 가장 큰 특징은 시간을 아주 정확하게 기억한다는 점입니다.

  • "존이 피아노를 치는 걸 봤어?"라고 물으면, EgoGraph 는 단순히 "존이 피아노를 친다"고 답하지 않습니다.
  • 대신 **"어제 오후 3 시에 존이 피아노를 쳤고, 그 다음 날 아침에도 같은 장소에서 쳤어. 그래서 존은 피아노를 좋아하는 것 같아"**라고 답합니다.
  • 마치 시간이 흐르는 대로 카드들을 쌓아두고, 과거의 기록을 뒤져서 새로운 사실을 추론하는 것처럼 작동합니다.

🔗 비유 3: 끊어진 퍼즐을 이어주다

기존 방법은 "어제 커피를 마셨다"와 "오늘 커피를 마셨다"를 별개의 이야기로 보았습니다. 하지만 EgoGraph 는 **"아! 이 두 컵이 같은 '노란색 머그컵'이구나!"**라고 연결해 줍니다.

  • 이렇게 사람, 물건, 장소, 사건을 서로 연결하면, AI 는 단순히 영상을 보는 것을 넘어 **인생의 흐름 (습관, 관계, 변화)**을 이해하게 됩니다.

3. 왜 이것이 대단한가요? (실제 효과)

이 시스템은 실제로 7 일 동안 찍힌 긴 영상을 가지고 테스트를 했습니다.

  • 기존 AI (EgoGPT 등): 영상이 길어질수록 기억력이 떨어졌습니다. 7 일 차가 되면 "어제 뭐 했지?"를 잊어버리고 엉뚱한 답을 했습니다. (정확도 약 30% 대)
  • EgoGraph: 7 일 동안 쌓인 정보 속에서도 정확한 시간과 장소를 찾아내어 질문에 답했습니다. (정확도 약 45% 이상, 가장 높은 점수)

특히 "존이 보통 어떤 시간에 커피를 마시지?" 같은 습관을 찾거나, "어제 오후에 내가 어디에 있었지?" 같은 기억 찾기에서 압도적으로 잘했습니다.

4. 한 줄 요약

EgoGraph는 우리가 하루 종일 찍은 긴 영상을 단순히 '텍스트 나열'로 보는 게 아니라, 시간이 흐르며 변하는 사람과 사물의 관계를 '연결된 카드'로 정리하는 똑똑한 비서입니다. 덕분에 우리는 아주 오래된 영상 속에서도 "어제 뭐 했지?"라는 질문에 정확하고 논리적인 답을 얻을 수 있게 되었습니다.

이 기술은 앞으로 로봇이 우리의 일상을 기억하거나, 증강현실 (AR) 안경이 우리 삶을 더 잘 이해하는 데 큰 역할을 할 것으로 기대됩니다!