Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

이 논문은 연속적으로 들어오는 비디오 스트림에서 멀티턴 상호작용을 위한 지속적인 세그먼트 수준의 기억을 보존하고, '보면서 동시에 생각하기' 방식을 통해 온라인 추론 성능을 획기적으로 개선하는 'Think While Watching' 프레임워크를 제안합니다.

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "기억력 감퇴"와 "목 막힘"

기존의 영상 인공지능들은 보통 두 가지 큰 문제를 겪었습니다.

  • 기억력 감퇴 (Memory Erosion):

    • 비유: 긴 영화를 보다가 중간중간 "지금 주인공이 입은 옷이 뭐였지?"라고 물어보면, 나중에 "아, 처음에 입었던 검은색 재킷이었지!"라고 기억해내야 합니다.
    • 문제: 기존 AI 는 비디오를 보면서 대답을 할 때, 말을 하는 동안에는 영상을 멈추고 보기만 합니다. (말하고, 멈추고, 다시 보고, 멈추고...) 이렇게 반복하다 보면, 처음에 본 장면의 기억이 흐릿해지거나 사라져버립니다. 마치 긴 이야기를 들으면서 중간중간 말을 하느라 앞부분을 잊어버리는 것과 같습니다.
  • 목 막힘 (Serialization Bottleneck):

    • 비유: 한 사람이 동시에 '듣기'와 '말하기'를 할 수 없어서, 말을 할 때는 귀를 막고 있어야 한다면 어떨까요?
    • 문제: AI 가 대답을 생성하는 동안에는 새로운 영상 데이터를 받아들일 수 없습니다. 그래서 영상이 계속 쌓여가는데 AI 는 대답만 하고 있어서, 결국 답변이 늦어지는 (지연) 현상이 발생합니다.

2. 이 논문의 해결책: "보면서 생각하기 (Think While Watching)"

이 연구팀은 "비디오를 보면서 동시에 생각 (기억) 하고, 필요할 때만 대답하는" 방식을 개발했습니다.

핵심 아이디어 1: "편지함"에 메모하기 (Segment-Level Memory)

  • 비유: 친구가 긴 여행 이야기를 해줄 때, 그 친구가 말을 멈추지 않고 계속 이야기하더라도, 중요한 순간마다 작은 메모지를 꺼내서 '편지함 (메모리 뱅크)'에 넣어둡니다.
  • 작동 방식:
    1. AI 는 비디오가 흘러가면, 영상의 한 구절 (Segment) 마다 "이건 뭐였지?"라고 요약한 짧은 메모 (기억 노트) 를 작성합니다.
    2. 이 메모들은 계속 쌓입니다.
    3. 사용자가 "그때 저 사람 옷이 뭐였지?"라고 질문하면, AI 는 새로운 영상을 계속 보면서 동시에, 그 '편지함'에서 관련 메모를 찾아서 답을 합니다.
    4. 덕분에 처음 본 장면도 잊지 않고, 영상은 멈추지 않고 계속 흘러갑니다.

핵심 아이디어 2: "이중 작업" 훈련 (Dual KV Cache)

  • 비유: 요리사가 한 손으로는 재료를 썰고 (영상 보기), 다른 손으로는 요리를 설명하는 (답변하기) 모습을 상상해 보세요.
  • 작동 방식: 기존 방식은 "재료를 다 썰고 나서 설명"하거나 "설명할 때 썰기를 멈추는" 식이었습니다. 하지만 이 기술은 두 작업을 동시에 병렬로 처리할 수 있게 해줍니다. 그래서 지연 시간 (Latency) 이 획기적으로 줄어듭니다.

3. 어떻게 가르쳤을까요? (3 단계 훈련)

이 AI 를 똑똑하게 만들기 위해 3 단계로 훈련시켰습니다.

  1. 1 단계 (단일 질문): "영화를 보다가 한 번만 질문받으면, 어떻게 메모를 남기고 답할까?"를 배웁니다.
  2. 2 단계 (여러 번 질문): "영화를 보다가 여러 번 질문받으면, 앞선 질문의 답을 기억하면서 새로운 질문에도 답할까?"를 배웁니다.
  3. 3 단계 (긴 영상 & 헷갈리는 상황): "매우 긴 영상을 보고, 헷갈리는 장면이 끼어 있거나 (방해 요소), 아주 오래된 기억을 꺼내야 할 때 어떻게 할까?"를 배웁니다.

4. 결과는 어땠나요?

  • 정확도 향상: 실시간으로 영상을 보면서 질문을 해도, 정답을 맞히는 비율이 기존 방식보다 훨씬 높아졌습니다. (예: 2.6%~3.79% 향상)
  • 효율성: 불필요한 말을 줄여서 답변을 위해 필요한 데이터 양을 56% 나 줄였습니다. (더 빠르고 가볍습니다.)
  • 실시간성: 영상을 보다가 질문을 하면, 대답이 나오는 속도가 훨씬 빨라졌습니다.

요약

이 논문은 "비디오를 끝까지 다 보고 나서 답하는 게 아니라, 비디오가 실시간으로 흘러가는 동안에도 '메모장'을 쓰면서 계속 생각하고, 필요할 때만 그 메모를 꺼내서 대답하는" 똑똑한 AI 를 만들었습니다.

이 기술은 실시간 뉴스 중계, 로봇이 주변을 보며 대화하는 것, 혹은 실시간으로 영상을 분석해야 하는 상황에서 매우 유용하게 쓰일 것입니다. 마치 기억력이 좋고, 동시에 여러 일을 처리할 수 있는 최고의 통역사가 된 것과 같습니다.