Each language version is independently generated for its own context, not a direct translation.
1. 문제: "기억력 과부하"와 "산산조각 난 조각들"
우리가 하루 종일 찍은 영상을 상상해 보세요. 아침에 커피를 마시고, 점심에 친구를 만나고, 저녁에 쇼핑을 하는 등 하루 종일 영상이 계속 쌓입니다.
기존의 AI 들은 이 긴 영상을 이해할 때 두 가지 큰 실수를 저질렀습니다.
- 조각조각 잘라먹기 (Hierarchical): 영상을 1 시간 단위, 1 일 단위로 잘게 쪼개서 요약만 했습니다. 마치 책의 목차만 보고 내용을 추측하는 것과 같아요. "오전 10 시에 커피를 마셨다"는 기록은 있지만, "어제 마신 커피와 오늘 마신 커피가 같은 컵인지"는 연결이 안 됩니다.
- 기억력 과부하 (Long Context): 모든 영상을 한 번에 읽으려다 보니, AI 는 머리가 너무 복잡해져서 중요한 정보를 놓치거나, "어제"와 "오늘"을 헷갈려 합니다.
2. 해결책: EgoGraph 는 "살아있는 일기장"이자 "연결된 지도"
저자들은 이 문제를 해결하기 위해 EgoGraph를 만들었습니다. 이걸 **스마트한 '개인 일기장'이자 '연결된 지도'**라고 생각하면 쉽습니다.
🧩 비유 1: 사람, 물건, 장소를 '카드'로 정리하다
기존 방식은 영상을 텍스트로 나열하는 것이었다면, EgoGraph 는 영상을 카드로 만듭니다.
- 사람 카드: '존'이라는 사람. (성별, 취향, 습관 등 정보 저장)
- 물건 카드: '노란색 머그컵'. (누가 썼는지, 언제 샀는지)
- 장소 카드: '부엌'.
- 이벤트 카드: '회의'.
이 카드들은 단순히 나열되는 게 아니라, 시간이라는 실로 서로 꿰어져 있습니다.
🕰️ 비유 2: 시간의 흐름을 따라가는 '시간 여행'
이 시스템의 가장 큰 특징은 시간을 아주 정확하게 기억한다는 점입니다.
- "존이 피아노를 치는 걸 봤어?"라고 물으면, EgoGraph 는 단순히 "존이 피아노를 친다"고 답하지 않습니다.
- 대신 **"어제 오후 3 시에 존이 피아노를 쳤고, 그 다음 날 아침에도 같은 장소에서 쳤어. 그래서 존은 피아노를 좋아하는 것 같아"**라고 답합니다.
- 마치 시간이 흐르는 대로 카드들을 쌓아두고, 과거의 기록을 뒤져서 새로운 사실을 추론하는 것처럼 작동합니다.
🔗 비유 3: 끊어진 퍼즐을 이어주다
기존 방법은 "어제 커피를 마셨다"와 "오늘 커피를 마셨다"를 별개의 이야기로 보았습니다. 하지만 EgoGraph 는 **"아! 이 두 컵이 같은 '노란색 머그컵'이구나!"**라고 연결해 줍니다.
- 이렇게 사람, 물건, 장소, 사건을 서로 연결하면, AI 는 단순히 영상을 보는 것을 넘어 **인생의 흐름 (습관, 관계, 변화)**을 이해하게 됩니다.
3. 왜 이것이 대단한가요? (실제 효과)
이 시스템은 실제로 7 일 동안 찍힌 긴 영상을 가지고 테스트를 했습니다.
- 기존 AI (EgoGPT 등): 영상이 길어질수록 기억력이 떨어졌습니다. 7 일 차가 되면 "어제 뭐 했지?"를 잊어버리고 엉뚱한 답을 했습니다. (정확도 약 30% 대)
- EgoGraph: 7 일 동안 쌓인 정보 속에서도 정확한 시간과 장소를 찾아내어 질문에 답했습니다. (정확도 약 45% 이상, 가장 높은 점수)
특히 "존이 보통 어떤 시간에 커피를 마시지?" 같은 습관을 찾거나, "어제 오후에 내가 어디에 있었지?" 같은 기억 찾기에서 압도적으로 잘했습니다.
4. 한 줄 요약
EgoGraph는 우리가 하루 종일 찍은 긴 영상을 단순히 '텍스트 나열'로 보는 게 아니라, 시간이 흐르며 변하는 사람과 사물의 관계를 '연결된 카드'로 정리하는 똑똑한 비서입니다. 덕분에 우리는 아주 오래된 영상 속에서도 "어제 뭐 했지?"라는 질문에 정확하고 논리적인 답을 얻을 수 있게 되었습니다.
이 기술은 앞으로 로봇이 우리의 일상을 기억하거나, 증강현실 (AR) 안경이 우리 삶을 더 잘 이해하는 데 큰 역할을 할 것으로 기대됩니다!