Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

이 논문은 실시간 스트리밍 입력에서 저지연 추론과 자발적 응답 결정, 콘텐츠 품질 및 양 제어를 해결하여 인간과 같은 AI 동반자를 구현하는 프로액티브 비디오 LLM 프레임워크 'Proact-VL'과 이를 평가하는 'Live Gaming Benchmark'를 제안합니다.

Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

프로액트-VL (Proact-VL): 게임 방송을 보는 것보다 더 생생한 'AI 해설가'

이 논문은 **"실시간으로 게임 방송을 보며, 사람처럼 자연스럽게 해설해 주는 AI"**를 만드는 기술을 소개합니다. 기존 AI 들은 영상을 보고 "무슨 일이 일어났니?"라고 물어야만 대답했지만, 이 새로운 AI 는 스스로 "지금 이 순간이 중요하니까 내가 말해야겠다!"라고 판단해서 먼저 말을 겁니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.


1. 문제점: "침묵의 AI"와 "지껄이는 AI"의 딜레마

지금까지의 실시간 영상 AI 는 두 가지 극단적인 문제를 겪고 있었습니다.

  • 극단 1 (침묵의 AI): 영상을 계속 보고만 있다가, 사용자가 "이거 뭐야?"라고 물어보아야만 대답합니다. 마치 옆에 앉아 있는데 입을 안 뜨는 친구 같습니다.
  • 극단 2 (지껄이는 AI): "지금! 지금! 지금!" 하고 1 초도 쉬지 않고 떠들고 있습니다. 마치 귀찮게 하는 친구처럼, 중요한 순간에 오히려 소리가 섞여서 들리지 않게 만듭니다.

핵심 질문: "언제 입을 열어야 하고, 언제 조용히 있어야 할까?"를 스스로 판단하는 AI 가 없었습니다.

2. 해결책: 프로액트-VL (Proact-VL) 의 등장

이 논문에서 만든 프로액트-VL은 마치 실력 있는 스포츠 해설가처럼 행동합니다.

  • 상황 파악 (프로액티브): 해설가가 경기 중 "오! 골이 날 것 같다!"라고 미리 감을 잡듯이, AI 도 게임 화면을 보며 "이제 내가 말해야 할 타이밍이야!"라고 스스로 판단합니다.
  • 적절한 말하기: 중요한 순간에는 짧고 강렬하게, 지루할 때는 조용히 있습니다. 마치 사람처럼 리듬감을 가지고 대화합니다.
  • 실시간성: 게임이 진행되는 동안 멈추지 않고, 1 초 단위로 영상을 보고 바로 반응합니다.

3. 어떻게 만들었을까? (세 가지 핵심 기술)

이 AI 를 만들기 위해 연구자들은 세 가지 중요한 장치를 달았습니다.

① "조각 내기" (Chunk-wise Processing)

  • 비유: 긴 영화를 한 번에 다 보지 않고, 1 초짜리 짧은 조각으로 잘게 나누어 봅니다.
  • 효과: AI 가 매 1 초마다 "지금 무슨 일이 일어나고 있지?"를 빠르게 체크합니다. 이렇게 하면 지연 없이 실시간으로 반응할 수 있습니다.

② "스스로 판단하는 스위치" (Proactive Mechanism)

  • 비유: AI 의 뇌속에 **'스위치'**가 있습니다. 이 스위치는 "지금 말해야 할까?"를 계산합니다.
    • 스위치 ON: "오! 적군이 나타났네! 해설해야지!" → 말을 겁니다.
    • 스위치 OFF: "아, 그냥 평범한 이동이네." → 조용히 있습니다.
  • 효과: 불필요하게 떠들지 않고, 정말 중요한 순간에만 목소리를 냅니다.

③ "게임 해설가 훈련" (Live Gaming Dataset)

  • 비유: AI 를 가르치기 위해 실제 프로게이머 해설자들의 방송 561 시간 분량을 공부시켰습니다.
  • 효과: AI 는 게임 용어도 잘 알고, 언제 열광하고 언제 진지하게 설명해야 하는지 '감'을 익혔습니다. (마치 해설가 학교를 졸업한 셈입니다.)

4. 어떤 일을 해낼 수 있나요?

이 AI 는 크게 두 가지 역할을 잘해냅니다.

  1. 해설가 (Commentator):
    • 게임이 진행되는 동안, 사람처럼 "와, 저기 저거 재밌네!", "아까운 실수야!"라고 실시간으로 반응합니다.
    • 여러 해설가가 함께 일할 때도 서로 말을 잘 듣고, 겹치지 않게 자연스럽게 대화합니다.
  2. 가이드 (Guide):
    • 게임이 막혀서 "어떻게 해야 해?"라고 사용자가 물어보면, 화면을 보며 "저기 물이 있으니 그쪽으로 가세요"라고 즉시 조언해 줍니다.

5. 결론: 왜 이것이 중요한가요?

기존의 AI 는 "질문 - 답변" 방식이라서 게임처럼 빠르게 변하는 상황에서는 답답했습니다. 하지만 프로액트-VL사람처럼 '눈치'를 보고 '리듬'을 타며 함께 게임을 즐길 수 있게 해줍니다.

  • 게임 방송을 볼 때: AI 해설가가 옆에 앉아 생생하게 설명해 주면, 혼자 보는 것보다 훨씬 재미있고 몰입감이 높아집니다.
  • 교육이나 고객 서비스: 실시간으로 상황을 파악하고 필요한 조언을 해주는 '가상 비서'로 쓸 수 있습니다.

한 줄 요약:

"이제 AI 는 우리가 말하기 전에 먼저 알아서 "지금 이거 중요해!"라고 말하며, 게임 방송을 함께 즐기는 진짜 친구가 되었습니다."