Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

이 논문은 미세조정 없이도 멀티모달 LLM 의 프롬프팅 기반 디코딩 전략, 특히 이전 발화 지속 시간을 고려한 동적 간격 방식을 통해 실시간 비디오 해설의 내용과 타이밍을 인간 수준에 가깝게 생성하는 방법을 제안하고 검증합니다.

Anum Afzal, Yuki Saito, Hiroya Takamura, Katsuhito Sudoh, Shinnosuke Takamichi, Graham Neubig, Florian Matthes, Tatsuya Ishigaki

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"화장실 청소 로봇이 청소할 때, 언제 말해야 하고 언제 입을 다물어야 할지 스스로 알아내는 방법"**을 연구한 이야기라고 생각하면 쉽습니다.

기존의 기술은 비디오 게임이나 스포츠 경기를 실시간으로 해설해 주는 AI 를 만들 때, **"무엇을 말할지 (내용)"**는 잘 찾아냈지만, **"언제 말해야 할지 (타이밍)"**는 잘 못 알아냈습니다. 마치 경기가 한창 치열할 때는 침묵하다가, 아무 일도 안 일어날 때 갑자기 "이제부터 시작입니다!"라고 외치는 해설자처럼 보였죠.

이 연구는 최신 AI(멀티모달 LLM) 가 수정 없이 (Fine-tuning 없이) 바로 쓸 수 있는 두 가지 새로운 '해설 규칙'을 제안합니다.

1. 문제: "왜 AI 해설자는 말이 너무 많거나, 타이밍이 엉망일까?"

기존 방식은 마치 매 2 초마다 강제로 종을 울리는 것과 같았습니다.

  • 고정된 간격 (Fixed Interval): "2 초 지났으니 무조건 해설을 해!"라고 명령합니다.
    • 문제점: 경기가 한참 진행 중인데 2 초마다 해설이 쏟아지면 시청자는 따라갈 수 없습니다. 반대로 중요한 순간이 왔는데 2 초를 기다려야 한다면, "아직 안 왔네?"라고 생각하게 됩니다.

2. 해결책: "해설자가 스스로 '잠시 멈춤 (Pause)'을 아는 법"

연구팀은 AI 에게 두 가지 다른 '스마트한 규칙'을 적용해 보았습니다.

🅰️ 규칙 1: "시간표대로만 말하기" (고정 간격 방식)

기존 방식을 그대로 가져온 것입니다. 정해진 시간 (예: 2 초) 이 지나면 AI 가 "지금 뭐가 일어났지?"를 확인하고 해설을 합니다.

  • 비유: 정해진 시간마다 알람이 울리면 무조건 일어나서 말을 하는 것. 하지만 알람이 울렸을 때 아무 일도 안 일어났다면, 그냥 "아, 아무 일도 없네"라고 말하고 다시 잠들어야 합니다.

🅱️ 규칙 2: "말하는 속도에 맞춰서 멈추기" (동적 간격 방식 - 이게 핵심입니다!)

이 방식은 이전 해설이 얼마나 길었는지를 계산합니다.

  • 원리:
    1. AI 가 해설을 했다면, "이 말을 다 하려면 몇 초가 걸릴까?"를 계산합니다. (예: "경기가 시작되었습니다!"는 2 초, "승자가 결정되었습니다!"는 5 초)
    2. 그 계산된 시간만큼 **대기 (WAIT)**합니다.
    3. 대기 시간이 끝나면, "자, 이제 새로운 일이 일어났나?"를 확인하고 다음 해설을 합니다.
  • 비유: **스피커가 마이크를 잡고 말을 할 때, "이제 다 말했으니, 다음 말을 하려면 잠시 숨을 고르고 기다려야지"**라고 스스로 생각하는 것과 같습니다.
    • 긴 해설을 했으면 -> 더 오래 기다림.
    • 짧은 해설을 했으면 -> 빨리 다음 상황을 확인함.
    • 결과: 해설이 끊기지 않고 자연스럽게 이어지며, 중요한 순간에 맞춰서 딱딱 들어갑니다.

3. 실험 결과: 어떤 게 더 좋았을까?

연구팀은 레이싱 게임과 격투기 게임 데이터를 이용해 실험했습니다.

  • 자동 점수 (컴퓨터가 평가): "고정 간격" 방식이 조금 더 낫다고 했습니다. (하지만 컴퓨터는 인간의 '느낌'을 다 못 잡습니다.)
  • 사람의 평가 (실제 시청자): "동적 간격 (규칙 2)" 방식이 압도적으로 좋았습니다!
    • 타이밍: 사람이 말하는 것처럼 자연스럽게 멈추고 시작했습니다.
    • 중요한 순간: 경기가 바뀌는 중요한 순간에 딱 맞춰서 해설을 했습니다.
    • 불필요한 말: 아무 일도 안 일어날 때 불필요하게 말을 늘어놓지 않았습니다.

4. 왜 이 연구가 중요한가요?

  • 교육 없이도 가능: 이 AI 는 별도의 복잡한 학습 (Fine-tuning) 없이도, 명령어 (프롬프트) 만 잘 짜면 바로 쓸 수 있습니다.
  • 모든 언어 가능: 영어와 일본어 모두에서 잘 작동했습니다.
  • 실시간 활용: 앞으로 스포츠 중계나 게임 스트리밍에서, 전문 해설자가 없어도 AI 가 자연스럽게 "지금 저기서 넘어졌습니다!"라고 실시간으로 알려줄 수 있게 됩니다.

📝 한 줄 요약

"이 연구는 AI 해설자에게 '시간표'를 주지 않고, '말하는 속도에 맞춰 스스로 숨을 고르는 법'을 가르쳐서, 마치 인간 해설자처럼 자연스럽고 정확한 타이밍으로 경기를 설명하게 만든 것입니다."

이 기술이 발전하면, 앞으로 우리가 게임을 하거나 스포츠를 볼 때 AI 가 옆에서 "오! 저기서 넘어졌네!"라고 딱 맞춰서 말해주고, 아무 일 없을 때는 조용히 지켜보는 그런 경험을 할 수 있게 될 것입니다.