EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "기억력 과부하"와 "산산조각 난 조각들"

우리가 하루 종일 찍은 영상을 상상해 보세요. 아침에 커피를 마시고, 점심에 친구를 만나고, 저녁에 쇼핑을 하는 등 하루 종일 영상이 계속 쌓입니다.

기존의 AI 들은 이 긴 영상을 이해할 때 두 가지 큰 실수를 저질렀습니다.

조각조각 잘라먹기 (Hierarchical): 영상을 1 시간 단위, 1 일 단위로 잘게 쪼개서 요약만 했습니다. 마치 책의 목차만 보고 내용을 추측하는 것과 같아요. "오전 10 시에 커피를 마셨다"는 기록은 있지만, "어제 마신 커피와 오늘 마신 커피가 같은 컵인지"는 연결이 안 됩니다.
기억력 과부하 (Long Context): 모든 영상을 한 번에 읽으려다 보니, AI 는 머리가 너무 복잡해져서 중요한 정보를 놓치거나, "어제"와 "오늘"을 헷갈려 합니다.

2. 해결책: EgoGraph 는 "살아있는 일기장"이자 "연결된 지도"

저자들은 이 문제를 해결하기 위해 EgoGraph를 만들었습니다. 이걸 **스마트한 '개인 일기장'이자 '연결된 지도'**라고 생각하면 쉽습니다.

🧩 비유 1: 사람, 물건, 장소를 '카드'로 정리하다

기존 방식은 영상을 텍스트로 나열하는 것이었다면, EgoGraph 는 영상을 카드로 만듭니다.

사람 카드: '존'이라는 사람. (성별, 취향, 습관 등 정보 저장)
물건 카드: '노란색 머그컵'. (누가 썼는지, 언제 샀는지)
장소 카드: '부엌'.
이벤트 카드: '회의'.

이 카드들은 단순히 나열되는 게 아니라, 시간이라는 실로 서로 꿰어져 있습니다.

🕰️ 비유 2: 시간의 흐름을 따라가는 '시간 여행'

이 시스템의 가장 큰 특징은 시간을 아주 정확하게 기억한다는 점입니다.

"존이 피아노를 치는 걸 봤어?"라고 물으면, EgoGraph 는 단순히 "존이 피아노를 친다"고 답하지 않습니다.
대신 **"어제 오후 3 시에 존이 피아노를 쳤고, 그 다음 날 아침에도 같은 장소에서 쳤어. 그래서 존은 피아노를 좋아하는 것 같아"**라고 답합니다.
마치 시간이 흐르는 대로 카드들을 쌓아두고, 과거의 기록을 뒤져서 새로운 사실을 추론하는 것처럼 작동합니다.

🔗 비유 3: 끊어진 퍼즐을 이어주다

기존 방법은 "어제 커피를 마셨다"와 "오늘 커피를 마셨다"를 별개의 이야기로 보았습니다. 하지만 EgoGraph 는 **"아! 이 두 컵이 같은 '노란색 머그컵'이구나!"**라고 연결해 줍니다.

이렇게 사람, 물건, 장소, 사건을 서로 연결하면, AI 는 단순히 영상을 보는 것을 넘어 **인생의 흐름 (습관, 관계, 변화)**을 이해하게 됩니다.

3. 왜 이것이 대단한가요? (실제 효과)

이 시스템은 실제로 7 일 동안 찍힌 긴 영상을 가지고 테스트를 했습니다.

기존 AI (EgoGPT 등): 영상이 길어질수록 기억력이 떨어졌습니다. 7 일 차가 되면 "어제 뭐 했지?"를 잊어버리고 엉뚱한 답을 했습니다. (정확도 약 30% 대)
EgoGraph: 7 일 동안 쌓인 정보 속에서도 정확한 시간과 장소를 찾아내어 질문에 답했습니다. (정확도 약 45% 이상, 가장 높은 점수)

특히 "존이 보통 어떤 시간에 커피를 마시지?" 같은 습관을 찾거나, "어제 오후에 내가 어디에 있었지?" 같은 기억 찾기에서 압도적으로 잘했습니다.

4. 한 줄 요약

EgoGraph는 우리가 하루 종일 찍은 긴 영상을 단순히 '텍스트 나열'로 보는 게 아니라, 시간이 흐르며 변하는 사람과 사물의 관계를 '연결된 카드'로 정리하는 똑똑한 비서입니다. 덕분에 우리는 아주 오래된 영상 속에서도 "어제 뭐 했지?"라는 질문에 정확하고 논리적인 답을 얻을 수 있게 되었습니다.

이 기술은 앞으로 로봇이 우리의 일상을 기억하거나, 증강현실 (AR) 안경이 우리 삶을 더 잘 이해하는 데 큰 역할을 할 것으로 기대됩니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

초장기 자전적 (Egocentric) 비디오의 이해 한계: 증강현실 (AR) 기기나 로봇 플랫폼에 탑재된 웨어러블 카메라를 통해 수집된 자전적 비디오는 수 일에서 수 주에 걸쳐 연속적으로 촬영됩니다. 이러한 초장기 (Ultra-long) 비디오는 일상 활동 기록, 에피소드적 기억 검색, 질문 답변 (QA) 등에 필수적입니다.
기존 방법의 한계:
- 단편화된 처리: 기존 방법들은 대부분 1 시간 미만의 짧은 클립에 집중하거나, 비디오를 잘게 쪼개어 텍스트 캡션으로 변환한 후 계층적 (시간별, 일별) 으로 요약하는 방식 (예: EgoGPT) 을 사용합니다.
- 시간적 의존성 부재: 이러한 방식은 클립 간의 의존성을 무시하여, 시간적으로 멀리 떨어진 사건들 간의 인과관계나 패턴 (예: 특정 사람의 습관, 사물의 위치 변화) 을 추론하기 어렵습니다.
- 비구조화된 정보: 방대하지만 파편화된 텍스트 캡션은 검색 효율성을 떨어뜨리고, 모델의 확장성을 제한합니다.

2. 방법론 (Methodology)

저자들은 EgoGraph를 제안하며, 이는 훈련이 필요 없는 (training-free) 동적 지식 그래프 구축 프레임워크입니다. 이 프레임워크는 자전적 비디오 스트림에서 장기적이고 교차 개체 (cross-entity) 의존성을 명시적으로 인코딩합니다.

2.1. 자전적 스키마 (Egocentric Schema)

인간의 기억 구조 (누가, 어디서, 무엇을 했는지) 에서 영감을 받아, 그래프의 노드와 속성을 정의합니다.

4 가지 핵심 개체 유형 (Entity Types):
1. Person (사람): 이름, 성별, 외모, 취향, 습관 등.
2. Location (장소): 이름, 설명.
3. Object (사물): 이름, 종류, 색상, 소유자, 구매 정보 등.
4. Event (사건): 이름, 설명, 시작 시간, 주체, 객체, 장소 등.
이 스키마는 의미론적 일관성을 유지하고, 장기간의 비디오 스트림에서 개체 유형의 무한한 증가를 방지하여 확장성을 보장합니다.

2.2. 시간 인식 그래프 구축 (Temporal-aware Graph Construction)

입력 처리: 비디오를 2 분 단위로 클립화하고, LLM 을 활용하여 각 클립의 캡션과 대본에서 개체와 관계를 추출합니다.
시간적 앵커링 (Temporal Anchoring): 각 텍스트 청크 (chunk) 에 타임스탬프를 부여하여, 추출된 개체가 처음 관측된 시점에 정확히 매핑되도록 합니다.
노드 병합 및 업데이트:
- 동일한 개체 (예: 'John') 가 다른 시간에 관측되더라도 별도의 노드를 생성하지 않고, 기존 노드에 새로운 타임스탬프와 설명을 추가하여 병합합니다.
- 속성은 최신 비빈 값으로 업데이트되되 기존 값은 유지하여 개체의 진화 궤적을 보존합니다.
그래프 정의: $G = (V, E)$ 로 정의되며, 각 노드와 엣지는 관측된 타임스탬프 목록 ( $T_v, T_e$ ) 을 포함합니다.

2.3. 질문 답변 및 추론 (Question Answering & Reasoning)

시간적 필터링 (Temporal Filtering): 질문 시점 ( $t_q$ ) 을 기준으로, $t \le t_q$ 인 정보만 포함하는 서브그래프를 추출합니다. 이는 미래 정보를 누락 (temporal leakage) 하는 것을 방지하고 추론 효율을 높입니다.
LLM 기반 시간 추론: 검색된 개체와 관계의 타임스탬프를 LLM 에 제공하여, "어제", "마지막으로", "2 시간 전"과 같은 자연어 시간 표현을 구체적인 타임스탬프로 변환하고 인과관계를 추론하도록 유도합니다.

3. 주요 기여 (Key Contributions)

EgoGraph 프레임워크: 훈련 없이 초장기 자전적 비디오를 이해하기 위한 동적 시간 지식 그래프를 최초로 제안했습니다.
자전적 스키마 및 시간 모델링: 사람, 사물, 장소, 사건을 통합한 구조화된 스키마와 수 일 간의 장기 의존성을 포착하는 시간 관계 모델링 전략을 개발했습니다.
성능 입증: EgoLifeQA 및 EgoR1-bench 벤치마크에서 기존 최첨단 (SOTA) 모델들을 압도하는 성능을 보여주었습니다.

4. 실험 결과 (Results)

벤치마크: EgoLifeQA (7 일간의 공유 주택 생활 기록, 500 개 QA) 와 EgoR1-Bench (6 명의 시점, 300 개 QA) 에서 평가 수행.
성능 비교:
- EgoLifeQA: EgoGraph 는 평균 정확도 **45.8%**를 기록하여, 기존 최고 성능인 LightRAG (39.2%) 보다 +6.6%p, Gemini-1.5-Pro (36.9%) 보다 +8.9%p 높은 성능을 달성했습니다. 특히 복잡한 추론 (TaskMaster) 과 사건 회상 (EventRecall) 태스크에서 압도적인 우위를 보였습니다.
- EgoR1-Bench: 평균 **41.3%**의 정확도로 Gemini-1.5-Pro (38.3%) 를 상회했습니다.
Ablation Study:
- 계층적 vs 그래프: 그래프 기반 접근법이 시간적 의존성 추론에서 계층적 요약 방법 (EgoGPT) 보다 평균 29.3% 더 높은 성능을 보였습니다.
- 시간 인식의 중요성: 시간 필터링과 추론을 제거한 베이스라인 (LightRAG 적용) 은 39.2% 였으나, 시간 인식 요소를 추가한 EgoGraph 는 45.8% 로 크게 향상되었습니다. 이는 시간적 맥락이 그래프 기반 자전적 비디오 이해에 필수적임을 증명합니다.
- 확장성: 비디오 컨텍스트가 1 일에서 7 일로 증가함에 따라 텍스트 기반 방법은 성능이 급격히 하락했으나, EgoGraph 는 45.8% 수준으로 안정적으로 유지되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

패러다임의 전환: 단순한 텍스트 요약이나 계층적 메모리 구축을 넘어, 구조화된 지식 그래프를 통해 자전적 비디오의 장기적 의존성을 명시적으로 모델링하는 새로운 패러다임을 제시했습니다.
실용성: 웨어러블 카메라 기반의 일상 기록, 개인화된 AI 비서, 로봇의 장기 기억 시스템 등 초장기 자전적 비디오 이해가 필요한 다양한 응용 분야에 핵심 기술로 활용될 수 있습니다.
핵심 통찰: "무엇이 일어났는지"뿐만 아니라 "언제 일어났는지"와 "시간적으로 어떻게 연결되는지"를 구조적으로 표현하는 것이 초장기 비디오 이해의 핵심 열쇠임을 입증했습니다.