Each language version is independently generated for its own context, not a direct translation.
1. 기존 방식의 문제점: "기억력 감퇴"와 "목 막힘"
기존의 영상 인공지능들은 보통 두 가지 큰 문제를 겪었습니다.
2. 이 논문의 해결책: "보면서 생각하기 (Think While Watching)"
이 연구팀은 "비디오를 보면서 동시에 생각 (기억) 하고, 필요할 때만 대답하는" 방식을 개발했습니다.
핵심 아이디어 1: "편지함"에 메모하기 (Segment-Level Memory)
- 비유: 친구가 긴 여행 이야기를 해줄 때, 그 친구가 말을 멈추지 않고 계속 이야기하더라도, 중요한 순간마다 작은 메모지를 꺼내서 '편지함 (메모리 뱅크)'에 넣어둡니다.
- 작동 방식:
- AI 는 비디오가 흘러가면, 영상의 한 구절 (Segment) 마다 "이건 뭐였지?"라고 요약한 짧은 메모 (기억 노트) 를 작성합니다.
- 이 메모들은 계속 쌓입니다.
- 사용자가 "그때 저 사람 옷이 뭐였지?"라고 질문하면, AI 는 새로운 영상을 계속 보면서 동시에, 그 '편지함'에서 관련 메모를 찾아서 답을 합니다.
- 덕분에 처음 본 장면도 잊지 않고, 영상은 멈추지 않고 계속 흘러갑니다.
핵심 아이디어 2: "이중 작업" 훈련 (Dual KV Cache)
- 비유: 요리사가 한 손으로는 재료를 썰고 (영상 보기), 다른 손으로는 요리를 설명하는 (답변하기) 모습을 상상해 보세요.
- 작동 방식: 기존 방식은 "재료를 다 썰고 나서 설명"하거나 "설명할 때 썰기를 멈추는" 식이었습니다. 하지만 이 기술은 두 작업을 동시에 병렬로 처리할 수 있게 해줍니다. 그래서 지연 시간 (Latency) 이 획기적으로 줄어듭니다.
3. 어떻게 가르쳤을까요? (3 단계 훈련)
이 AI 를 똑똑하게 만들기 위해 3 단계로 훈련시켰습니다.
- 1 단계 (단일 질문): "영화를 보다가 한 번만 질문받으면, 어떻게 메모를 남기고 답할까?"를 배웁니다.
- 2 단계 (여러 번 질문): "영화를 보다가 여러 번 질문받으면, 앞선 질문의 답을 기억하면서 새로운 질문에도 답할까?"를 배웁니다.
- 3 단계 (긴 영상 & 헷갈리는 상황): "매우 긴 영상을 보고, 헷갈리는 장면이 끼어 있거나 (방해 요소), 아주 오래된 기억을 꺼내야 할 때 어떻게 할까?"를 배웁니다.
4. 결과는 어땠나요?
- 정확도 향상: 실시간으로 영상을 보면서 질문을 해도, 정답을 맞히는 비율이 기존 방식보다 훨씬 높아졌습니다. (예: 2.6%~3.79% 향상)
- 효율성: 불필요한 말을 줄여서 답변을 위해 필요한 데이터 양을 56% 나 줄였습니다. (더 빠르고 가볍습니다.)
- 실시간성: 영상을 보다가 질문을 하면, 대답이 나오는 속도가 훨씬 빨라졌습니다.
요약
이 논문은 "비디오를 끝까지 다 보고 나서 답하는 게 아니라, 비디오가 실시간으로 흘러가는 동안에도 '메모장'을 쓰면서 계속 생각하고, 필요할 때만 그 메모를 꺼내서 대답하는" 똑똑한 AI 를 만들었습니다.
이 기술은 실시간 뉴스 중계, 로봇이 주변을 보며 대화하는 것, 혹은 실시간으로 영상을 분석해야 하는 상황에서 매우 유용하게 쓰일 것입니다. 마치 기억력이 좋고, 동시에 여러 일을 처리할 수 있는 최고의 통역사가 된 것과 같습니다.
Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Definition)
기존의 멀티모달 대규모 언어 모델 (MLLM) 은 오프라인 비디오 이해 (전체 비디오를 미리 입력받아 추론) 에서는 뛰어난 성능을 보이지만, 실시간으로 유입되는 비디오 스트림 (Streaming Video) 에 대한 온라인 다중 턴 (Multi-turn) 상호작용에서는 다음과 같은 한계를 겪고 있습니다.
- 기억 침식 (Memory Erosion): 기존 스트리밍 방식은 '지각 (Perception)'과 '생성 (Generation)'을 번갈아 수행하는 인터리브드 (Interleaved) 방식을 사용합니다. 이 방식은 텍스트 생성이 진행될 때 비디오 입력을 멈추게 하여 (Serialization), 긴 시간 동안의 의존성을 유지하기 어렵게 만듭니다. 결과적으로 초기에 관찰된 정보가 생성 과정에서 잊히거나 (Memory Erosion), 후속 질문에서 이전 문맥을 참조하지 못하는 문제가 발생합니다.
- 직렬화 병목 현상 (Serialization Bottleneck): 오토레그레이시브 (Autoregressive) 모델은 생성 중인 토큰 길이가 불확실하기 때문에 새로운 입력을 처리하는 것을 멈추게 됩니다. 이로 인해 입력 큐가 쌓이고 지연 시간 (Latency) 이 증가하며, 실시간 응답성이 떨어집니다.
- 인과성 (Causality) 유지의 어려움: 스트리밍 환경에서는 미래의 프레임 정보를 절대 참조할 수 없어야 하지만, 기존 모델들은 이를 위반하거나 효율적으로 처리하지 못합니다.
2. 제안 방법: Think While Watching (TWW)
저자들은 "Think While Watching" 이라는 메모리 기반 스트리밍 비디오 추론 프레임워크를 제안합니다. 이 방법은 비디오를 연속적으로 관찰하면서도 실시간으로 질문을 답변할 수 있도록 지속적인 세그먼트 레벨 메모리 (Segment-Level Memory) 를 유지합니다.
핵심 아키텍처 및 기법
세그먼트 레벨 메모리 노트 (Segment-Level Memory Notes):
- 비디오를 시간 순서대로 세그먼트 (Segment) 로 나누어 처리합니다.
- 각 세그먼트가 도착할 때마다 모델은 해당 세그먼트의 핵심 정보 (주요 개체, 속성, 행동, 장면 변화 등) 를 요약한 메모리 노트를 작성하여 메모리 뱅크에 저장합니다.
- 질문이 들어오면, 현재 질문과 대화 이력, 그리고 관련된 메모리 노트들을 어텐션 (Attention) 메커니즘을 통해 암묵적으로检索하여 답변을 생성합니다. 이를 통해 장기적인 시간적 일관성을 유지합니다.
지각과 생성의 분리 (Decoupled Perception and Generation):
- 이중 KV 캐시 (Dual KV Cache): 입력 (비디오/질문) 스트림과 출력 (텍스트) 스트림의 키-밸류 (KV) 캐시를 분리합니다. 이를 통해 모델이 텍스트를 생성 (생각) 하는 동안에도 새로운 비디오 프레임을 계속 수신 (관찰) 할 수 있어, 직렬화 병목 현상을 해결하고 지연 시간을 줄입니다.
- 적응형 어텐션 백엔드: 표준 인과적 마스크 (Causal Mask) 인 경우 Flash Attention 을, 커스텀 스트리밍 마스크가 필요한 경우 메모리 효율적인 어텐션을 사용하여 처리 속도를 최적화합니다.
스트리밍 인과성 및 포지셔널 인코딩:
- 세그먼트 레벨 스트리밍 인과 마스크: 생성된 토큰이 미래의 입력 세그먼트를 참조하지 못하도록 엄격하게 제한합니다.
- 스트리밍 포지셔널 인코딩 (MRoPE 변형): 입력 스트림과 출력 스트림에 독립적인 위치 인코딩을 적용합니다. 입력은 누적 오프셋을 따르지만, 출력은 0 부터 독립적으로 시작하여 생성 길이가 불확실할 때도 새로운 입력에 올바른 위치를 부여할 수 있게 합니다.
3. 학습 전략 및 데이터셋
제안된 방법의 실용성을 위해 3 단계 학습 전략과 이를 위한 새로운 데이터셋을 구축했습니다.
4. 실험 결과 (Results)
StreamingBench와 OVO-Bench에서 Qwen3-VL (2B, 4B, 8B) 을 기반으로 실험을 수행했습니다.
단일 턴 성능 향상:
- StreamingBench 에서 2.6% (Qwen3-VL-4B 기준), OVO-Bench 에서 3.79% 의 정확도 향상을 기록했습니다.
- 기존 오프라인 모델이나 간단한 스트리밍 베이스라인보다 훨씬 우수한 성능을 보였습니다.
다중 턴 성능 및 효율성:
- 다중 턴 프로토콜에서 성능을 유지하면서 출력 토큰 수를 56% 감소시켰습니다. 이는 메모리 노트를 통해 불필요한 반복 설명을 줄이고 핵심 정보만 전달했기 때문입니다.
- 지연 시간 (Latency): 첫 번째 토큰 생성 시간 (TTFT) 을 기존 배치 방식 대비 92.6% 단축했습니다 (31,203 토큰 처리 시간 → 2,304 토큰 처리 시간).
오프라인 일반화:
- 스트리밍 훈련이 오프라인 비디오 이해 (Video-MME, LV-Bench) 성능에도 긍정적인 전이 효과를 가져와, 오프라인 벤치마크에서도 성능이 향상되었습니다.
5. 주요 기여 및 의의 (Contributions & Significance)
- 새로운 패러다임 제시: 비디오 이해와 추론을 위해 '지각과 생성의 분리'와 '지속적인 메모리 노트'를 결합한 Think While Watching 프레임워크를 제안했습니다. 이는 기존 인터리브드 방식의 한계를 극복하고 실시간 다중 턴 상호작용을 가능하게 합니다.
- 기술적 혁신:
- 이중 KV 캐시와 스트리밍 포지셔널 인코딩을 통해 입력/출력 병렬 처리를 실현하여 지연 시간을 획기적으로 줄였습니다.
- 세그먼트 레벨 메모리를 통해 장기적인 시간적 의존성을 효과적으로 모델링하고 기억 침식 문제를 해결했습니다.
- 데이터 및 평가: 스트리밍 비디오 추론을 위한 3 단계 CoT 데이터셋과 학습 전략을 구축하여, 향후 관련 연구의 기반을 마련했습니다.
- 실용성: 실시간 스트리밍 환경 (라이브 방송, 로봇 보조, 모니터링 등) 에서 요구되는 낮은 지연 시간과 높은 정확도를 동시에 만족시키는 솔루션을 제공했습니다.
결론적으로, 이 논문은 멀티모달 LLM 이 실시간 비디오 스트림에서 인간과 자연스럽게 대화하고, 과거의 시각적 증거를 기억하며 추론할 수 있는 능력을 갖추기 위한 핵심적인 기술적 진전을 이루었습니다.