Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

이 논문은 실시간 응답성과 논리적 추론을 동시에 달성하기 위해 입력되는 비디오 클립에 대한 추론을 활성화하는 'Video Streaming Thinking(VST)' 패러다임을 제안하고, 이를 위한 포스트 트레이닝 파이프라인과 자동 데이터 생성 방법을 통해 기존 오프라인 모델 대비 응답 속도를 획기적으로 단축하면서도 다양한 비디오 이해 작업에서 뛰어난 성능을 입증했습니다.

Yiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 "보면서 동시에 생각하기": 비디오 스트리밍 사고 (VST) 란 무엇일까요?

이 논문은 **"비디오를 보면서도 동시에 생각할 수 있는 AI"**를 개발한 이야기입니다. 기존 AI 들이 가진 불편함을 해결하고, 훨씬 더 똑똑하고 빠른 새로운 방식을 제안했죠.

이해하기 쉽게 세 가지 핵심 비유로 설명해 드릴게요.


1. 기존 방식의 문제점: "기다림 vs. 뒤늦은 후회"

기존의 비디오 AI 들은 크게 두 가지 방식 중 하나를 선택해야 했습니다.

  • 방식 A (빠르지만 멍청한 AI):
    • 비유: 영화를 보다가 질문이 나오면 **"그냥 대충 대답"**하는 친구입니다.
    • 현실: 반응은 빠르지만, 중요한 디테일을 놓치거나 헛소리를 할 때가 많습니다. (실시간성은 좋으나 추론 능력이 부족함)
  • 방식 B (똑똑하지만 느린 AI):
    • 비유: 영화를 다 본 뒤에 "자, 이제 이 영화가 무슨 뜻이었지?"라고 한참 동안 곰곰이 생각하다가 대답하는 친구입니다.
    • 현실: 아주 정확한 답을 내지만, 사용자가 "왜 이렇게 오래 걸려?"라고 기다리는 동안 답답해집니다. (정답률은 높지만 응답 지연이 심함)

핵심 문제: "정답을 빨리 내고 싶으면"과 "정답을 정확히 내고 싶으면"이 서로 충돌한다는 것이었습니다.


2. 이 논문의 해결책: "보면서 생각하기 (VST)"

이 논문이 제안한 **VST(Video Streaming Thinking)**는 바로 이 딜레마를 해결합니다.

  • 비유: 영화를 보면서 동시에 옆에서 작은 메모장을 챙기는 친구입니다.
    • 영화가 흘러가듯 장면이 바뀔 때마다, 이 친구는 **"아, 저기서 시계가 9 시 50 분을 가리켰네", "저기 고양이 인형이 있었지"**라고 실시간으로 메모를 남깁니다.
    • 사용자가 나중에 "이 영화에서 남자가 나타난 규칙이 뭐야?"라고 질문하면, 이 친구는 이미 메모장에 다 적어둔 내용을 바로 꺼내서 순간적으로 정답을 말합니다.

왜 이것이 혁신적인가요?

  • 생각을 미리 해둡니다: 질문이 들어오기 전에, 비디오가 재생되는 동안 이미 "생각 (추론)"을 해두기 때문에, 질문이 들어오자마자 바로 답을 낼 수 있습니다.
  • 기억을 쌓아갑니다: 비디오가 끝날 때까지 중요한 정보들을 계속 메모장에 적어두므로, 영화가 길어도 잊어버리지 않습니다.

3. 어떻게 훈련시켰을까요? (데이터와 학습법)

AI 가 이런 능력을 갖추게 하려면 특별한 훈련이 필요했습니다.

  • 자동 데이터 공장:
    • 기존에는 "보면서 생각"하는 데이터가 없어서, AI 가 스스로 배우기 어려웠습니다.
    • 그래서 연구팀은 **지식 그래프 (Knowledge Graph)**라는 지도를 그리는 방식을 썼습니다. 비디오 속 등장인물과 사건들을 연결해서 스토리 지도를 만들고, AI 가 이 지도를 따라가며 **"왜 그런 일이 일어났을까?"**라고 스스로 질문하고 답하는 10 만 개의 연습 문제를 자동으로 만들었습니다.
  • 두 단계 훈련:
    1. SFT (지도 학습): 인간이 만든 정답 예시를 보고 "어떻게 메모를 남기면 좋은지"를 배웁니다.
    2. RL (강화 학습): 스스로 문제를 풀고 정답을 맞췄을 때 보상을 주어, **"더 좋은 메모를 남기는 법"**을 스스로 터득하게 합니다.

4. 실제 성과: "빠르면서도 똑똑한" AI

실험 결과, 이 새로운 방식 (VST) 은 놀라운 성과를 보였습니다.

  • 속도: 기존에 "다 보고 생각"하는 방식 (Video-R1) 보다 약 15 배 더 빠릅니다. (질문 후 0.5 초 만에 답변 vs 9 초 이상)
  • 정확도: 실시간 비디오 이해 능력에서 기존 최고 수준을 뛰어넘었고, 긴 영화나 복잡한 추론이 필요한 문제에서도 매우 뛰어난 성적을 냈습니다.
  • 확장성: 작은 모델 (30 억 개 파라미터) 에서부터 거대 모델 (320 억 개) 까지 모두 이 방식을 적용하면 성능이 좋아졌습니다.

🌟 한 줄 요약

"기존 AI 는 영화를 다 보고 나서 뒤늦게 생각하거나, 생각 없이 대충 대답했지만, 이 새로운 AI 는 영화를 보면서도 메모를 하며 미리 생각해 두기 때문에, 질문이 들어오자마자 '정답'을 '순간'에 뿜어냅니다."

이 기술은 앞으로 실시간 번역, 자율주행차의 상황 판단, 실시간 게임 AI 등 즉각적인 반응이 필요한 모든 분야에서 큰 역할을 할 것으로 기대됩니다.