Thinking in Streaming Video

이 논문은 실시간 비디오 스트리밍 환경에서 지연 시간과 계산 비용을 줄이면서 점진적인 추론이 가능하도록 '시청 - 사고 - 발화' 패러다임과 Reasoning-Compressed Streaming Memory(RCSM) 를 도입한 ThinkStream 프레임워크를 제안합니다.

Zikang Liu, Longteng Guo, Handong Li, Ru Zhen, Xingjian He, Ruyi Ji, Xiaoming Ren, Yanhao Zhang, Haonan Lu, Jing Liu

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"계속해서 흘러가는 영상을 실시간으로 이해하고 대화하는 AI"**를 만드는 새로운 방법을 소개합니다.

기존의 AI 는 영상을 다 본 뒤에 "자, 이제 생각해보자"라고 한 번에 분석하는 방식 (일괄 처리) 을 썼습니다. 하지만 이는 마치 영화 전체를 다 보고 나서야 "이 영화의 결말이 뭐였지?"라고 물어보는 것과 같아, 실시간으로 대화하는 상황에서는 너무 늦고 무겁습니다.

저희가 제안한 ThinkStream은 이를 해결하기 위해 인간의 사고 방식을 모방했습니다. 이를 쉽게 설명하기 위해 세 가지 비유로 풀어보겠습니다.


1. "보고, 생각하며, 말하는" (Watch-Think-Speak)

기존 AI 는 도서관에서 책 전체를 다 읽은 뒤 요약본을 작성하는 스타일이었습니다. 하지만 ThinkStream 은 현장 취재 기자처럼 행동합니다.

  • 보고 (Watch): 카메라가 돌아가는 대로 새로운 장면을 봅니다.
  • 생각하며 (Think): "아, 저 사람이 칼을 들었네. 아마 요리를 하려는 건가?"라고 즉석에서 짧은 생각을 정리합니다.
  • 말하기 (Speak): 정보가 충분하면 "요리를 하시는군요!"라고 말하고, 정보가 부족하면 **"잠시만요, 더 지켜보겠습니다"**라고 말하며 침묵합니다.

이렇게 보면서 동시에 생각하고, 필요할 때만 대답하는 방식이라 지연 시간이 거의 없습니다.

2. "기억의 압축기" (Reasoning-Compressed Streaming Memory)

영상은 계속 흘러가므로, AI 가 모든 장면을 기억하려면 머릿속이 터질 것 같습니다. ThinkStream 은 기억을 압축하는 마법을 사용합니다.

  • 기존 방식: 지난 1 시간 동안의 모든 장면 (사람의 옷 색깔, 배경의 가구 등) 을 하나하나 다 기억하려다 보니 메모리가 꽉 찹니다.
  • ThinkStream 방식:
    • 새로운 장면: 지금 보고 있는 장면은 선명하게 기억합니다.
    • 지난 장면: 과거의 구체적인 장면은 지우지만, **"그때 무슨 일이 있었는지"에 대한 요약된 생각 (예: '요리 중이었다')**만 남깁니다.
    • 비유: 마치 긴 여행의 모든 사진을 다 보관하는 대신, 여행 일기장에 '오늘은 산을 올랐고, 내일은 바다로 갔다'는 핵심 내용만 적어두는 것과 같습니다. 덕분에 오래된 영상은 지워도 중요한 맥락은 잃지 않으면서, AI 의 머릿속 공간은 항상 가볍게 유지됩니다.

3. "정답을 맞히는 훈련" (Streaming Reinforcement Learning)

이 AI 를 가르칠 때는 실시간 퀴즈 대회를 시켰습니다.

  • 과제: 영상을 보면서 계속 생각해야 하고, 정답을 말해야 할 타이밍을 잘 맞춰야 합니다.
  • 보상 시스템:
    • 너무 일찍 말하면 (정보 부족) → 감점!
    • 너무 늦게 말하면 (지연) → 감점!
    • 정확한 타이밍에 정확한 답을 하면 → 점수 획득!
  • 이 과정을 반복하며 AI 는 **"언제 말해야 하고, 언제 침묵해야 하는지"**를 스스로 배우게 됩니다.

요약: 왜 이것이 중요할까요?

이 기술은 실시간으로 도와주는 비서자율 주행 자동차에 필수적입니다.

  • 기존 AI: "차량이 멈췄네... (1 초 뒤) ...사람이 뛰어넘었네... (1 초 뒤) ...아, 사고가 났구나!"라고 말하면 이미 늦었습니다.
  • ThinkStream: "차량이 멈췄네... (즉시) ...사람이 뛰어넘었네! (즉시) 사고 위험!"이라고 보면서 바로 반응합니다.

결론적으로, ThinkStream 은 무거운 기억을 가볍게 압축하고, 실시간으로 생각하며 대답하는 새로운 AI 의 사고 방식을 제시하여, 앞으로 우리가 영상과 대화할 때 훨씬 자연스럽고 빠른 경험을 가능하게 합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →