Thinking in Streaming Video

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"계속해서 흘러가는 영상을 실시간으로 이해하고 대화하는 AI"**를 만드는 새로운 방법을 소개합니다.

기존의 AI 는 영상을 다 본 뒤에 "자, 이제 생각해보자"라고 한 번에 분석하는 방식 (일괄 처리) 을 썼습니다. 하지만 이는 마치 영화 전체를 다 보고 나서야 "이 영화의 결말이 뭐였지?"라고 물어보는 것과 같아, 실시간으로 대화하는 상황에서는 너무 늦고 무겁습니다.

저희가 제안한 ThinkStream은 이를 해결하기 위해 인간의 사고 방식을 모방했습니다. 이를 쉽게 설명하기 위해 세 가지 비유로 풀어보겠습니다.

1. "보고, 생각하며, 말하는" (Watch-Think-Speak)

기존 AI 는 도서관에서 책 전체를 다 읽은 뒤 요약본을 작성하는 스타일이었습니다. 하지만 ThinkStream 은 현장 취재 기자처럼 행동합니다.

보고 (Watch): 카메라가 돌아가는 대로 새로운 장면을 봅니다.
생각하며 (Think): "아, 저 사람이 칼을 들었네. 아마 요리를 하려는 건가?"라고 즉석에서 짧은 생각을 정리합니다.
말하기 (Speak): 정보가 충분하면 "요리를 하시는군요!"라고 말하고, 정보가 부족하면 **"잠시만요, 더 지켜보겠습니다"**라고 말하며 침묵합니다.

이렇게 보면서 동시에 생각하고, 필요할 때만 대답하는 방식이라 지연 시간이 거의 없습니다.

2. "기억의 압축기" (Reasoning-Compressed Streaming Memory)

영상은 계속 흘러가므로, AI 가 모든 장면을 기억하려면 머릿속이 터질 것 같습니다. ThinkStream 은 기억을 압축하는 마법을 사용합니다.

기존 방식: 지난 1 시간 동안의 모든 장면 (사람의 옷 색깔, 배경의 가구 등) 을 하나하나 다 기억하려다 보니 메모리가 꽉 찹니다.
ThinkStream 방식:
- 새로운 장면: 지금 보고 있는 장면은 선명하게 기억합니다.
- 지난 장면: 과거의 구체적인 장면은 지우지만, **"그때 무슨 일이 있었는지"에 대한 요약된 생각 (예: '요리 중이었다')**만 남깁니다.
- 비유: 마치 긴 여행의 모든 사진을 다 보관하는 대신, 여행 일기장에 '오늘은 산을 올랐고, 내일은 바다로 갔다'는 핵심 내용만 적어두는 것과 같습니다. 덕분에 오래된 영상은 지워도 중요한 맥락은 잃지 않으면서, AI 의 머릿속 공간은 항상 가볍게 유지됩니다.

3. "정답을 맞히는 훈련" (Streaming Reinforcement Learning)

이 AI 를 가르칠 때는 실시간 퀴즈 대회를 시켰습니다.

과제: 영상을 보면서 계속 생각해야 하고, 정답을 말해야 할 타이밍을 잘 맞춰야 합니다.
보상 시스템:
- 너무 일찍 말하면 (정보 부족) → 감점!
- 너무 늦게 말하면 (지연) → 감점!
- 정확한 타이밍에 정확한 답을 하면 → 점수 획득!
이 과정을 반복하며 AI 는 **"언제 말해야 하고, 언제 침묵해야 하는지"**를 스스로 배우게 됩니다.

요약: 왜 이것이 중요할까요?

이 기술은 실시간으로 도와주는 비서나 자율 주행 자동차에 필수적입니다.

기존 AI: "차량이 멈췄네... (1 초 뒤) ...사람이 뛰어넘었네... (1 초 뒤) ...아, 사고가 났구나!"라고 말하면 이미 늦었습니다.
ThinkStream: "차량이 멈췄네... (즉시) ...사람이 뛰어넘었네! (즉시) 사고 위험!"이라고 보면서 바로 반응합니다.

결론적으로, ThinkStream 은 무거운 기억을 가볍게 압축하고, 실시간으로 생각하며 대답하는 새로운 AI 의 사고 방식을 제시하여, 앞으로 우리가 영상과 대화할 때 훨씬 자연스럽고 빠른 경험을 가능하게 합니다.

Each language version is independently generated for its own context, not a direct translation.

, , ` 등 지정된 구조를 준수하는지 여부.
* 시간 보상 ( $R_{time}$ ): 정답이 필요한 시점과 모델이 응답한 시점의 차이 (지연 또는 조기 응답) 를 기반으로 한 보상.

훈련 데이터: 시간 기반 (Time-grounded) CoT 가 포함된 대규모 데이터셋을 구축하여 콜드 스타트 (Cold Start) 및 RLVR 훈련에 활용했습니다.

라. 고효율 스트리밍 추론 엔진

CUDA Graph 기반의 커스텀 백엔드를 개발하여, 동적 컨텍스트 업데이트와 KV 캐시 제거 (Pruning) 를 효율적으로 처리합니다.
Eager Prefill 모드와 재사용 가능한 CUDA Graph 를 결합하여 높은 처리량 (Throughput) 과 낮은 지연 시간을 달성했습니다.

3. 주요 기여 (Key Contributions)

Watch–Think–Speak 패러다임 제안: 비디오 이해를 일괄 처리가 아닌 점진적 추론 및 상호작용 과정으로 재정의하여, 모델이 실시간으로 해석을 업데이트하고 응답 시기를 결정하도록 함.
ThinkStream 프레임워크 및 RCSM: 추론 흔적을 압축된 의미적 메모리로 활용하여 시각 토큰을 대체함으로써, 긴 비디오 스트림에서도 메모리 사용량과 추론 비용을 일정하게 유지하는 기술 제시.
RLVR 훈련 체계: 자동 검증 가능한 보상을 통해 점진적 추론과 응답 타이밍을 정렬하는 강화 학습 방법론 개발.
대규모 데이터셋 및 오픈소스: 시간 기반 추론 흔적이 포함된 대규모 데이터셋과 코드, 모델을 공개하여 향후 연구의 기반 마련.

4. 실험 결과 (Results)

ThinkStream 은 다양한 스트리밍 및 오프라인 벤치마크에서 기존 모델을 압도하는 성능을 보였습니다.

스트리밍 벤치마크 (Streaming Benchmarks):
- OVO-Bench: ThinkStream-3B(30 억 파라미터) 는 평균 점수 59.66을 기록하여, 기반 모델인 Qwen2.5-VL-3B(51.00) 보다 크게 우세했으며, 다른 오픈소스 온라인 모델 (Streamo-3B: 51.64) 보다도 뛰어났습니다.
- StreamingBench Real-Time: 평균 점수 75.00을 기록하여, GPT-4o(73.28) 와 같은 독점 모델과 경쟁할 수 있는 수준이며, 다른 오픈소스 모델 (Dispider-7B: 67.63) 보다 월등히 높았습니다.
오프라인 벤치마크 (Offline Benchmarks):
- 비디오 토큰을 적극적으로 제거함에도 불구하고, VideoMME(61.9) 및 Long VideoBench(56.4) 에서 기반 모델보다 높은 성능을 유지하여 오프라인 작업에서도 이해 능력을 보존함을 입증했습니다.
효율성 및 실시간성:
- 지연 시간: 비디오 길이가 길어짐에 따라 기존 모델의 지연 시간이 급증하는 반면, ThinkStream 은 0.5 초 이하의 일정한 지연 시간을 유지하며 실시간 처리 (2 FPS 입력 기준) 를 성공적으로 수행했습니다.
- 처리 속도: 커스텀 CUDA Graph 엔진을 통해 배치 크기 1 기준 기존 모델 대비 5 배 이상의 토큰 디코딩 속도 향상을 달성했습니다.

5. 의의 및 결론 (Significance)

이 논문은 실시간 비디오 이해 분야에서 다음과 같은 중요한 전환점을 제시합니다:

실시간성 확보: 비디오 길이에 비례하여 증가하던 메모리 및 계산 비용을 RCSM 을 통해 상수 수준으로 제한함으로써, 실제 환경에서의 실시간 멀티모달 에이전트 구현을 가능하게 했습니다.
능동적 상호작용: 단순히 입력을 받아 출력을 내는 것을 넘어, "언제 말해야 하는가"를 스스로 판단하는 능동적인 상호작용 메커니즘을 도입했습니다.
효율적인 추론: 추론 과정 자체를 메모리 압축 수단으로 활용함으로써, 대규모 언어 모델 (LLM) 의 추론 능력을 유지하면서도 하드웨어 제약을 극복하는 새로운 아키텍처를 제시했습니다.

결론적으로 ThinkStream 은 동적 환경에서 작동하는 지능형 에이전트에게 필수적인 지속적이고 실시간인 추론 능력을 제공하며, 멀티모달 AI 의 실용적 적용 가능성을 크게 확장했습니다.

Thinking in Streaming Video

1. "보고, 생각하며, 말하는" (Watch-Think-Speak)

2. "기억의 압축기" (Reasoning-Compressed Streaming Memory)

3. "정답을 맞히는 훈련" (Streaming Reinforcement Learning)

요약: 왜 이것이 중요할까요?

라. 고효율 스트리밍 추론 엔진

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks