Each language version is independently generated for its own context, not a direct translation.

영상 이해의 새로운 방식: 'Video-EM'이란 무엇일까요?

이 논문은 긴 영상 (영화, 다큐멘터리, 2 시간짜리 강의 등) 을 보고 질문에 답하는 인공지능 (Video-LLM) 의 문제점을 해결하는 새로운 방법을 소개합니다.

기존의 AI 는 긴 영상을 볼 때, 마치 책의 모든 페이지를 한 장씩 빠르게 넘겨보듯 프레임을 무작위로 뽑아보거나, 질문과 관련된 장면만 쏙쏙 골라냅니다. 하지만 이 방식에는 치명적인 단점이 있습니다.

🎬 비유: "긴 영화를 보는데, 스토리가 끊긴 포스터만 보는 상황"

기존 방식은 긴 영화의 핵심 내용을 이해하기 위해, 중요한 장면만 찍은 포스터 10 장을 AI 에게 보여주고 "이 영화가 무슨 내용이었지?"라고 묻는 것과 같습니다.

문제점 1 (연속성 부재): 포스터만 보면 "주인공이 왜 화를 냈는지", "누가 먼저 총을 쏘았는지" 같은 시간의 흐름과 인과관계를 알 수 없습니다.
문제점 2 (불필요한 정보): 같은 장면을 여러 번 찍은 포스터가 섞여 있어, AI 가 중요한 단서보다 잡다한 정보에 집중하게 됩니다.

✨ Video-EM 의 해결책: "기억력 좋은 비서"

이 논문이 제안한 Video-EM은 AI 에게 단순히 "장면을 보여라"가 아니라, **"이 영상의 줄거리를 기억해서 정리해라"**라고 지시합니다. 마치 매우 똑똑하고 기억력이 좋은 비서가 영상을 보고 질문자에게 보고서를 작성하는 과정과 같습니다.

이 과정은 크게 3 단계로 이루어집니다.

1 단계: 핵심 순간 찾기 (키 이벤트 선택)

비서는 영상을 보며 질문과 관련된 **중요한 순간 (키 이벤트)**을 찾습니다.

기존 방식: "빨간 옷을 입은 사람"이라는 키워드만 보고 빨간 옷을 입은 모든 장면을 다 찾습니다.
Video-EM 방식: "빨간 옷을 입은 사람"뿐만 아니라, 그 사람이 어디에 있었는지 (장면), **무엇을 하고 있었는지 (사건)**까지 종합적으로 분석하여 가장 중요한 순간들을 골라냅니다.

2 단계: 이야기로 엮기 (일화적 기억 구성)

찾아낸 중요한 순간들을 단순히 나열하는 게 아니라, **시간 순서대로 이어진 하나의 이야기 (이벤트)**로 엮습니다.

비유: "A 가 B 를 만났다" -> "A 와 B 가 대화했다" -> "A 가 B 에게 선물을 줬다"를 따로따로 보는 게 아니라, **"A 와 B 가 카페에서 만나서 대화를 나누고 선물을 주고받았다"**라는 하나의 완전한 에피소드로 기억합니다.
이때 언제 (When), 어디서 (Where), 누가 (Who), 무엇을 (What) 했는지를 명확하게 기록합니다.

3 단계: 다듬기 (자기 성찰)

비서가 작성한 초안 (기억) 이 너무 길거나 헷갈린다면, 스스로 질문하며 다듬습니다.

"이 정보가 정말 질문에 필요한가?"
"이 두 사건이 시간적으로 모순되지 않는가?"
"불필요한 반복은 없나?"
이 과정을 거쳐 **가장 짧지만 핵심만 담은 '이벤트 타임라인'**을 완성합니다.

🚀 왜 이것이 중요한가요?

더 적은 정보로 더 정확한 답: AI 가 모든 영상을 다 볼 필요 없이, 핵심 사건만 정리된 보고서를 보면 되므로 속도가 빠르고 정확도가 높습니다.
이야기 흐름을 이해: 단순히 장면을 보는 게 아니라, 사건과 사건의 연결고리를 이해하므로 "왜 그랬을까?" 같은 복잡한 질문에도 잘 답합니다.
설치 불필요: 기존에 쓰던 AI 모델의 구조를 바꿀 필요 없이, 이 '비서 (Video-EM)'만 끼워 넣으면 바로 작동합니다.

💡 결론

Video-EM은 긴 영상을 이해할 때, 단편적인 이미지 조각을 모으는 방식에서 벗어나, 인간처럼 '사건'과 '이야기' 단위로 기억하고 정리하는 방식으로 AI 를 업그레이드한 기술입니다.

마치 긴 영화를 볼 때, 전체를 다 기억할 필요 없이 '줄거리 요약본'만 보고도 영화의 핵심을 완벽하게 이해하는 것과 같습니다. 이를 통해 AI 는 훨씬 더 똑똑하고 효율적으로 긴 영상을 이해할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

비디오 대형 언어 모델 (Video-LLM) 은 짧은 비디오 이해에서 뛰어난 성능을 보이지만, **긴 형식의 비디오 (Long-form Video)**를 처리할 때는 다음과 같은 근본적인 한계에 직면합니다.

제한된 컨텍스트 윈도우: Video-LLM 이 처리할 수 있는 토큰 수에는 한계가 있어, 수 시간 길이의 비디오를 모두 입력으로 주기가 어렵습니다.
기존 방법의 한계: 현재 널리 쓰이는 해결책은 검색 (Retrieval) 이나 요약 (Summarization) 을 통해 긴 비디오를 소수의 대표 프레임 (Keyframes) 으로 압축하는 것입니다. 그러나 기존 파이프라인은 **프레임 단위 (Frame-centric)**로 독립적으로 점수를 매겨 프레임을 선택합니다.
- 시간적 단절: 개별 프레임만 선택하면 장면 전환과 시간적 연속성이 끊겨 복잡한 서사적 추론 (Narrative Reasoning) 이 어렵습니다.
- 중복성: 긴 비디오는 유사한 장면이나 관점이 반복되므로, 불필요한 중복 프레임이 선택되어 귀중한 컨텍스트 예산을 낭비하고 핵심 단서를 희석시킵니다.

2. 방법론 (Methodology: Video-EM)

저자들은 긴 비디오 질문 답변 (VideoQA) 을 단순한 프레임 검색이 아닌, 사건 중심의 에피소드 기억 (Event-Centric Episodic Memory) 구축 문제로 재정의했습니다. Video-EM 은 추가 학습 없이 작동하는 (Training-free) 에이전트 기반 프레임워크로, LLM 을 능동적인 기억 에이전트로 활용하여 오프 - 더 - 쉘 (Off-the-shelf) 툴들을 조율합니다.

프로세스는 크게 3 단계로 구성됩니다:

1 단계: 핵심 사건 선택 (Key Event Selection)

다중 그레인 의미 검색 (Multi-grained Semantic Retrieval): 질문을 원본 쿼리 ( $q_o$ ), 객체 수준 의미 ( $q_s$ ), 장면 수준 맥락 ( $q_c$ ) 으로 분해하여 CLIP 기반의 유사도 검색을 수행합니다. 이를 통해 단순한 키워드 매칭을 넘어 정교하게 관련 프레임을 찾습니다.
사건 확장 및 분할 (Event Expansion & Segmentation): 검색된 핵심 프레임을 시간적 앵커로 삼아 양방향으로 확장합니다. TransNetV2 를 사용하여 장면 전환 (Shot Boundary) 을 감지하고, 이를 기준으로 시간적으로 연속적인 '사건 클립'으로 분할합니다.

2 단계: 근거 있는 에피소드 기억 구축 (Grounded Episodic Memory Construction)

각 사건 클립을 단순한 캡션이 아닌, 인간과 유사한 에피소드 기억 구조로 인코딩합니다.

동적 장면 서사 (Dynamic Scene Narratives): MLLM(Qwen2.5-VL) 을 활용하여 각 사건이 언제 (When), 어디서 (Where), 무엇을 (What) 발생했는지에 대한 계층적이고 일관된 서사를 생성합니다.
동적 장면 관계 (Dynamic Scene Relationships): 객체 간의 상호작용과 공간적 관계를 추적합니다.
- 객체 수의 변화 ( $A_{cnt}$ ): 시간 흐름에 따른 객체의 등장과 소멸을 기록.
- 위치 관계의 진화 ( $A_{loc}$ ): 객체 간의 공간적 관계 (예: A 가 B 옆에 있음) 가 시간에 따라 어떻게 변하는지 구조화.
이를 통해 시간적 순서와 공간적 맥락이 모두 포함된 풍부한 기억 데이터를 생성합니다.

3 단계: 자기 성찰적 기억 정제 (Self-reflective Memory Refinement)

CoT 기반 반복 정제: 생성된 모든 기억을 바로 입력하는 대신, Chain-of-Thought(CoT) 에이전트가 자기 성찰 (Self-reflection) 루프를 수행합니다.
증거 충분성 및 일관성 검증: 현재 기억 세트가 질문에 답하기에 충분한지, 그리고 사건 간 시간적/속성적 모순이 없는지 확인합니다.
적응적 정제: 불필요한 중복을 제거하거나, 정보가 부족할 경우 사건을 더 세분화 (Refine) 하거나 반대로 상위 수준으로 요약 (Fallback) 하여 최소적이지만 충분한 (Minimal yet Sufficient) 사건 타임라인을 완성합니다.

3. 주요 기여 (Key Contributions)

패러다임 전환: 긴 비디오 이해를 '프레임 중심'에서 '사건 중심의 에피소드 기억' 구축으로 전환하여, 시간적 연속성과 서사적 맥락을 보존하는 새로운 접근법을 제시했습니다.
Video-EM 프레임워크 개발: 학습 없이 LLM 에이전트가 기존 툴을 조율하여 관련 순간을 국소화하고, 이를 구조화된 사건으로 그룹화하며, 자기 성찰을 통해 최적의 증거 세트를 추출하는 시스템을 제안했습니다.
광범위한 검증: Video-MME, LVBench, HourVideo, Egoschema 등 주요 긴 비디오 벤치마크에서 기존 최첨단 (SOTA) 방법론들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

Video-EM 은 다양한 오픈소스 Video-LLM(Qwen2-VL, LLaVA-Video 등) 에 적용하여 평가되었으며, 주요 결과는 다음과 같습니다.

성능 향상:
- Video-MME: 기존 학습 없는 키프레임 선택 방법 (AKS, BOLT 등) 보다 일관되게 높은 정확도를 기록했습니다.
- LVBench: 프레임 수를 64 개에서 27 개로 줄이면서도 정확도를 7% 이상 향상시켰습니다.
- HourVideo: 프레임 수를 64 개에서 30 개로 줄이며 정확도를 3% 향상시켰습니다.
- Egoschema: 프레임 수를 16 개에서 9 개로 줄이면서 65.6% 의 높은 정확도를 달성했습니다.
효율성: 더 적은 프레임 수 (평균 28~56 프레임) 로 더 긴 비디오를 처리하면서도, 기존 방법들보다 뛰어난 성능을 보였습니다. 이는 불필요한 중복 정보를 제거하고 핵심 사건에 집중했기 때문입니다.
컴퓨팅 비용: 전처리 및 CoT 루프로 인한 추가 계산 비용이 존재하지만, 전체 파이프라인의 실행 시간은 합리적이며 (약 4.75 초), 정확도 대비 비용 효율이 뛰어납니다.

5. 의의 및 결론 (Significance)

플러그 앤 플레이 (Plug-and-play) 방식: Video-EM 은 기존 Video-LLM 의 아키텍처를 변경하거나 추가 학습을 요구하지 않습니다. 따라서 다양한 모델에 즉시 적용 가능합니다.
시간적 추론 능력 강화: 단순한 프레임 나열을 넘어, '언제, 어디서, 누가, 무엇을' 했는지를 명시적으로 인코딩한 에피소드 기억을 통해, 모델이 긴 시간 범위의 인과관계와 서사를 이해하는 능력을 크게 향상시켰습니다.
실용성: 긴 형식의 비디오 (예: 교육 영상, 뉴스, 다큐멘터리, 일상 기록 등) 를 효율적으로 분석해야 하는 실제 응용 분야에서 Video-LLM 의 실용성을 크게 확장시켰습니다.

결론적으로, Video-EM 은 긴 비디오 이해의 병목 현상인 '컨텍스트 제한'과 '시간적 단절' 문제를 해결하기 위해, 인간의 에피소드 기억 메커니즘을 모방한 구조화된 기억 구축 방식을 제안함으로써 Video-LLM 의 성능 한계를 획기적으로 끌어올린 연구입니다.

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding