Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

이 논문은 긴 형식의 비디오 이해를 위해 기존 프레임 기반 접근법의 한계를 극복하고, LLM 을 활용한 능동적 메모리 에이전트가 쿼리 관련 순간을 식별하고 일관된 사건으로 그룹화하여 간결하고 신뢰할 수 있는 '이벤트 타임라인'을 생성하는 훈련 없는 프레임워크인 Video-EM 을 제안합니다.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

영상 이해의 새로운 방식: 'Video-EM'이란 무엇일까요?

이 논문은 긴 영상 (영화, 다큐멘터리, 2 시간짜리 강의 등) 을 보고 질문에 답하는 인공지능 (Video-LLM) 의 문제점을 해결하는 새로운 방법을 소개합니다.

기존의 AI 는 긴 영상을 볼 때, 마치 책의 모든 페이지를 한 장씩 빠르게 넘겨보듯 프레임을 무작위로 뽑아보거나, 질문과 관련된 장면만 쏙쏙 골라냅니다. 하지만 이 방식에는 치명적인 단점이 있습니다.

🎬 비유: "긴 영화를 보는데, 스토리가 끊긴 포스터만 보는 상황"

기존 방식은 긴 영화의 핵심 내용을 이해하기 위해, 중요한 장면만 찍은 포스터 10 장을 AI 에게 보여주고 "이 영화가 무슨 내용이었지?"라고 묻는 것과 같습니다.

  • 문제점 1 (연속성 부재): 포스터만 보면 "주인공이 왜 화를 냈는지", "누가 먼저 총을 쏘았는지" 같은 시간의 흐름과 인과관계를 알 수 없습니다.
  • 문제점 2 (불필요한 정보): 같은 장면을 여러 번 찍은 포스터가 섞여 있어, AI 가 중요한 단서보다 잡다한 정보에 집중하게 됩니다.

✨ Video-EM 의 해결책: "기억력 좋은 비서"

이 논문이 제안한 Video-EM은 AI 에게 단순히 "장면을 보여라"가 아니라, **"이 영상의 줄거리를 기억해서 정리해라"**라고 지시합니다. 마치 매우 똑똑하고 기억력이 좋은 비서가 영상을 보고 질문자에게 보고서를 작성하는 과정과 같습니다.

이 과정은 크게 3 단계로 이루어집니다.

1 단계: 핵심 순간 찾기 (키 이벤트 선택)

비서는 영상을 보며 질문과 관련된 **중요한 순간 (키 이벤트)**을 찾습니다.

  • 기존 방식: "빨간 옷을 입은 사람"이라는 키워드만 보고 빨간 옷을 입은 모든 장면을 다 찾습니다.
  • Video-EM 방식: "빨간 옷을 입은 사람"뿐만 아니라, 그 사람이 어디에 있었는지 (장면), **무엇을 하고 있었는지 (사건)**까지 종합적으로 분석하여 가장 중요한 순간들을 골라냅니다.

2 단계: 이야기로 엮기 (일화적 기억 구성)

찾아낸 중요한 순간들을 단순히 나열하는 게 아니라, **시간 순서대로 이어진 하나의 이야기 (이벤트)**로 엮습니다.

  • 비유: "A 가 B 를 만났다" -> "A 와 B 가 대화했다" -> "A 가 B 에게 선물을 줬다"를 따로따로 보는 게 아니라, **"A 와 B 가 카페에서 만나서 대화를 나누고 선물을 주고받았다"**라는 하나의 완전한 에피소드로 기억합니다.
  • 이때 언제 (When), 어디서 (Where), 누가 (Who), 무엇을 (What) 했는지를 명확하게 기록합니다.

3 단계: 다듬기 (자기 성찰)

비서가 작성한 초안 (기억) 이 너무 길거나 헷갈린다면, 스스로 질문하며 다듬습니다.

  • "이 정보가 정말 질문에 필요한가?"
  • "이 두 사건이 시간적으로 모순되지 않는가?"
  • "불필요한 반복은 없나?"
    이 과정을 거쳐 **가장 짧지만 핵심만 담은 '이벤트 타임라인'**을 완성합니다.

🚀 왜 이것이 중요한가요?

  1. 더 적은 정보로 더 정확한 답: AI 가 모든 영상을 다 볼 필요 없이, 핵심 사건만 정리된 보고서를 보면 되므로 속도가 빠르고 정확도가 높습니다.
  2. 이야기 흐름을 이해: 단순히 장면을 보는 게 아니라, 사건과 사건의 연결고리를 이해하므로 "왜 그랬을까?" 같은 복잡한 질문에도 잘 답합니다.
  3. 설치 불필요: 기존에 쓰던 AI 모델의 구조를 바꿀 필요 없이, 이 '비서 (Video-EM)'만 끼워 넣으면 바로 작동합니다.

💡 결론

Video-EM은 긴 영상을 이해할 때, 단편적인 이미지 조각을 모으는 방식에서 벗어나, 인간처럼 '사건'과 '이야기' 단위로 기억하고 정리하는 방식으로 AI 를 업그레이드한 기술입니다.

마치 긴 영화를 볼 때, 전체를 다 기억할 필요 없이 '줄거리 요약본'만 보고도 영화의 핵심을 완벽하게 이해하는 것과 같습니다. 이를 통해 AI 는 훨씬 더 똑똑하고 효율적으로 긴 영상을 이해할 수 있게 되었습니다.