Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능이 인간의 일생처럼 긴 시간을 기억하고 이해할 수 있을까?"**라는 질문에 답하기 위해 쓴 연구입니다.

기존의 AI 는 짧은 영상 (예: 10 분짜리 요리 영상) 을 보는 데는 능숙하지만, 몇 달 동안 이어지는 생생한 일상을 기억하고 그 안에서 숨겨진 단서를 찾아내는 데는 매우 서툴렀습니다. 이 논문은 그 문제를 해결하기 위해 **새로운 데이터셋 (MM-Lifelong)**과 **새로운 AI 방법론 (ReMA)**을 소개합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "바늘 찾기"가 아니라 "바다에서 바늘 찾기"입니다.

기존의 영상 이해 AI 들은 10 분짜리 짧은 영상을 볼 때는 잘합니다. 하지만 이 논문은 **"한 달, 한 달, 심지어 몇 달 동안 이어지는 영상"**을 다룰 때 AI 가 어떻게 망가지는지 보여줍니다.

기존 방식 (End-to-End MLLM):
- 비유: 한 번에 전체 도서관의 책을 한눈에 보려고 하는 학생입니다.
- 문제: 책이 너무 많으면 (데이터가 너무 길면) 머리가 터져서 (메모리 포화) 중요한 내용을 잊어버리거나, 엉뚱한 소리를 지어냅니다. "내가 방금 읽었던 그 장면을 기억해?"라고 물으면, "아, 그건 책장에 있었지?"라고 대충 추측만 할 뿐, 정확한 페이지를 찾아내지 못합니다.
- 논문에서 발견한 점: 영상을 길게 넣을수록 AI 는 오히려 더 못하게 됩니다. 정보를 너무 많이 먹어서 소화불량이 온 셈입니다.
기존 에이전트 방식 (기존의 검색형 AI):
- 비유: 도서관 전체를 한 번에 훑어보며 단서를 찾으려는 탐정입니다.
- 문제: 도서관이 너무 넓고 (시간이 너무 길고), 책장이 비어있는 공간 (촬영되지 않은 시간) 이 많으면, 어디를 봐야 할지 방향을 잃고 헤매게 됩니다.

2. 해결책 1: 새로운 시험지 (MM-Lifelong 데이터셋)

연구진은 AI 를 시험보기 위해 새로운 데이터셋을 만들었습니다.

이름: MM-Lifelong (다중 모달 평생 이해)
내용: 총 181 시간 분량의 영상입니다.
- 하루 단위: 게임 캐릭터의 하루 일과 (연속된 영상).
- 일주일 단위: 한 사람이 일주일 동안 찍은 일상 (집안일, 외출 등).
- 한 달 단위: 한 달 동안 이어진 라이브 방송 영상 (여행, 이벤트 등).
핵심 특징: 이 데이터는 촬영된 시간과 실제 흐른 시간이 다릅니다.
- 비유: 한 달 동안의 여행을 영상으로 찍었는데, 자는 시간이나 이동하는 시간은 찍지 않았다고 가정해 보세요. AI 는 비어있는 시간 (자고 있는 시간) 을 건너뛰고, 1 주일 전의 사건과 1 주일 후의 사건을 연결해서 "어제 그 사람이 입었던 옷이 오늘 뭐로 변했지?"라고 추론해야 합니다.
- 기존 데이터는 영상과 실제 시간이 거의 같았지만, 이 데이터는 시간의 간극을 메우는 능력을 테스트합니다.

3. 해결책 2: 새로운 AI 방법론 (ReMA - 재귀적 멀티모달 에이전트)

이 새로운 시험지를 풀기 위해 연구진은 ReMA라는 새로운 AI 를 만들었습니다.

ReMA 의 핵심 아이디어: "한 번에 다 기억하려 하지 말고, 메모장을 만들어가며 생각하자."
작동 원리 (비유):
1. 관찰 (Perception): AI 는 긴 영상을 작은 조각 (5 분 단위) 으로 잘라냅니다.
2. 정리 (Memory Management): 각 조각을 보고 **"오늘의 핵심 요약"**을 메모장에 적습니다. (예: "오늘 오후 3 시, 주연이 지하철에서 노래를 불렀다.")
3. 질문 (Control): 사용자가 "주연이 지하철에서 노래를 몇 번 불렀어?"라고 묻습니다.
4. 검색과 확인 (Recursive Reasoning):
  - AI 는 먼저 메모장을 뒤져 관련 내용을 찾습니다.
  - 메모장에 "3 번"이라고 적혀 있다면, 다시 원본 영상의 그 특정 시간대로 가서 "정말 맞나?" 확인합니다.
  - 확인하고 나면 메모장을 업데이트합니다.
- 결과: 이 방식은 AI 가 메모리 폭주를 막으면서도, 필요한 순간에 정확한 장면을 찾아낼 수 있게 해줍니다. 마치 유능한 비서가 수천 페이지의 일기를 요약해 두고, 사장님이 묻는 순간 정확한 페이지를 찾아주는 것과 같습니다.

4. 실험 결과: 누가 이겼나요?

기존 AI (한 번에 다 보는 방식): 영상을 길게 넣을수록 점수가 떨어졌습니다. "기억력 부족"으로 인해 엉뚱한 답을 내놓거나, 아예 찾을 수 없었습니다.
ReMA (메모장 방식): 점수가 가장 높았습니다. 특히 **시간이 오래 걸린 질문 (한 달 전의 사건 찾기)**에서 압도적인 성능을 보였습니다.
- 비유: 다른 친구들이 "전체 책을 외우려다" 지쳐 쓰러진 반면, ReMA 는 "목차와 요약 노트"를 만들어가며 문제를 척척 해결했습니다.

5. 결론: AI 의 미래는 "기억"입니다.

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 가 더 똑똑해지려면 단순히 '더 많은 정보'를 한 번에 넣는 게 아니라, 시간이 흐르면서 정보를 정리하고 기억하는 (메모리 관리) 능력이 필요합니다."

마치 우리가 어릴 적 일기를 매일 써서, 10 년 뒤에도 그날의 감정을 기억하듯이, AI 도 끊임없이 흐르는 삶의 기록을 이해할 수 있어야 진정한 '평생 동반자'가 될 수 있다는 것입니다.

한 줄 요약:
"AI 가 긴 영상을 볼 때 머리가 터지지 않게 하려면, **한 번에 다 보지 말고 '요약 메모장'을 만들어가며 차근차근 찾아보는 방식 (ReMA)**이 가장 효과적입니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 비디오 이해 (Video Understanding) 연구는 주로 짧은 클립이나 밀집되어 연결된 영상 (예: HowTo100M, Ego4D) 에 집중해 왔습니다. 그러나 실제 인간의 삶은 수일에서 수개월에 걸쳐 이어지며, 녹화되지 않은 시간 (Sleep, 휴식 등) 이 빈번하게 존재하는 '생애 전체 (Lifelong)' 의 연속성을 가집니다.

이 논문은 다음과 같은 핵심 문제점을 지적합니다:

관측 지속시간 (Observational Duration, $T_{dur}$ ) 과 물리적 시간 범위 (Physical Temporal Span, $T_{span}$ ) 의 괴리: 기존 데이터셋은 $T_{span} \approx T_{dur}$ 인 반면, 실제 생애 데이터는 녹화되지 않은 긴 간격이 존재하여 $T_{span} \gg T_{dur}$ 입니다.
기존 모델의 한계:
- End-to-End MLLM 의 '작업 기억 병목 (Working Memory Bottleneck)': 문맥이 포화 상태 (Context Saturation) 에 도달하면 노이즈가 누적되어 성능이 급격히 저하됩니다.
- 에이전트 기반 모델의 '전역 위치 파악 붕괴 (Global Localization Collapse)': 희소한 (Sparse) 월 단위 타임라인에서 필요한 정보를 찾아내는 데 실패합니다.

2. 제안된 방법론 (Methodology)

이 논문은 MM-Lifelong이라는 새로운 데이터셋과 이를 해결하기 위한 ReMA (Recursive Multimodal Agent) 라는 에이전트 기반 베이스라인을 제안합니다.

A. MM-Lifelong 데이터셋

규모 및 구성: 총 181.1 시간의 영상으로 구성되며, Day(게임 플레이), Week(1 인칭 일상), Month(생방송 스트리밍) 의 3 가지 시간 규모로 설계되었습니다.
특징:
- 시간적 희소성: 월 단위 데이터는 약 105.6 시간의 영상이지만, 실제 시간 범위는 약 51 일 ( $T_{span} \gg T_{dur}$ ) 에 달하여 녹화되지 않은 간격을 추론해야 합니다.
- 도메인 다양성: 게임, 일상, 생방송 등 다양한 시각적 맥락을 포함합니다.
- 주석 (Annotation): 단순한 Q&A 가 아니라, 추론에 필요한 인과적 단서 (Causal Clues) 와 시간적 증명 (Temporal Certificates) 을 명시적으로标注했습니다.
- 할당 (Splits): 도메인 일반화 (Day/Week 는 테스트 전용) 와 시간적 누수 방지를 위해 시계열 순서대로 학습/검증/테스트를 분리했습니다.

B. ReMA (Recursive Multimodal Agent) 아키텍처

단순한 문맥 확장이 아닌, 동적 메모리 관리를 통해 문제를 해결하는 에이전트 프레임워크입니다.

지각 단계 (Perception Phase):
- 입력 영상을 시간 간격 ( $\Delta t$ ) 단위로 분할합니다.
- MMInspect 도구를 통해 각 클립의 멀티모달 요약을 생성하고, 이를 메모리 뱅크 (Memory Bank) 에 점진적으로 통합합니다.
- MemManage 를 통해 중복 정보를 요약하고 메모리를 압축하여 전역적인 신념 상태 (Belief State) 를 유지합니다.
제어 단계 (Control Phase):
- 사용자 쿼리에 대해 LLM 컨트롤러가 재귀적 (Recursive) 으로 추론합니다.
- 필요한 경우 MemSearch (기억 검색) 나 MMInspect (구체적 구간 재검토) 를 호출하여 정보를 보강합니다.
- 이 과정은 정답을 도출할 때까지 반복되며, 각 단계의 결과는 메모리에 업데이트됩니다.

3. 주요 기여 (Key Contributions)

MM-Lifelong 데이터셋 출시: 생애 전체 (Lifelong) 이해를 위한 최초의 대규모 멀티모달 벤치마크로, $T_{span} \gg T_{dur}$ 인 조건을 rigorously 정의하고 평가합니다.
새로운 평가 지표 (Ref@N): 긴 시간 범위에서 미세한 시간 정렬 오차를 고려하기 위해, 시간을 이산화 (Quantization) 한 Ref@N 지표를 도입했습니다.
ReMA 아키텍처 제안: MLLM 의 문맥 포화 문제를 해결하고, 동적 메모리 관리를 통해 장기적인 추론 능력을 입증했습니다.
통찰: 단순한 컨텍스트 윈도우 확장은 한계가 있으며, '능동적인 지식 베이스'로서의 에이전트 접근법이 생애 전체 이해에 필수적임을 증명했습니다.

4. 실험 결과 (Results)

성능 비교:
- End-to-End MLLM (GPT-5, Qwen3-VL 등): 프레임 수를 늘려도 성능이 포화되거나 오히려 저하되었습니다. 특히 시간적 위치 파악 (Grounding) 점수 (Ref@300) 가 거의 0 에 수렴하여, 모델이 실제 영상 증거가 아닌 사전 지식에 의존했음을 보여줍니다.
- 기존 에이전트 (VideoMind, LongVT 등): 월 단위 데이터에서 전역 위치 파악에 실패했습니다.
- ReMA (본 논문): 모든 평가 세트 (Day, Week, Month) 에서 가장 높은 정확도 (Acc) 와 위치 파악 점수 (Ref@300) 를 기록했습니다.
  - 예: Month 검증 세트에서 정확도 18.62%, Ref@300 점수 15.46% 달성 (기존 최고 대비 압도적 우위).
Ablation Study:
- 재귀 깊이 (Recursive Depth): 3~4 회 반복 시 성능이 최적화되었습니다.
- 지각 세분도 ( $\Delta t$ ): 2 분 단위의 세밀한 관측이 전체 영상을 한 번에 보는 것보다 성능이 훨씬 우수했습니다.
- 모델 구성: 멀티모달 모델 (Qwen3-VL) 이 텍스트 전용 모델보다 컨트롤러로 사용 시 성능이 크게 향상되었습니다.

5. 의의 및 결론 (Significance)

이 논문은 멀티모달 AI 가 단순한 영상 분석을 넘어, 인간의 생애와 유사한 연속적이고 희소한 시간 흐름을 이해하는 단계로 나아가기 위한 중요한 이정표를 제시합니다.

패러다임 전환: 수동적인 문맥 확장 (Passive Context Extension) 에서 능동적이고 지속 가능한 메모리 에이전트 (Active Persistent Memory Agents) 로의 전환이 필요함을 강조합니다.
미래 연구 방향: 장기 기억 관리, 개념 변화 (Concept Drift) 대응, 그리고 녹화되지 않은 시간 간의 인과 추론을 위한 새로운 연구 방향을 제시합니다.

결론적으로, MM-Lifelong 과 ReMA 는 AI 가 사용자와 장기간 함께 '살아남아' (Live alongside) 복잡한 생애 경험을 이해하고 추론할 수 있는 기술적 토대를 마련했습니다.

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

1. 문제: "바늘 찾기"가 아니라 "바다에서 바늘 찾기"입니다.

2. 해결책 1: 새로운 시험지 (MM-Lifelong 데이터셋)

3. 해결책 2: 새로운 AI 방법론 (ReMA - 재귀적 멀티모달 에이전트)

4. 실험 결과: 누가 이겼나요?

5. 결론: AI 의 미래는 "기억"입니다.

1. 문제 정의 (Problem Definition)

2. 제안된 방법론 (Methodology)

A. MM-Lifelong 데이터셋

B. ReMA (Recursive Multimodal Agent) 아키텍처

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization