Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"화장실 청소 로봇이 청소할 때, 언제 말해야 하고 언제 입을 다물어야 할지 스스로 알아내는 방법"**을 연구한 이야기라고 생각하면 쉽습니다.

기존의 기술은 비디오 게임이나 스포츠 경기를 실시간으로 해설해 주는 AI 를 만들 때, **"무엇을 말할지 (내용)"**는 잘 찾아냈지만, **"언제 말해야 할지 (타이밍)"**는 잘 못 알아냈습니다. 마치 경기가 한창 치열할 때는 침묵하다가, 아무 일도 안 일어날 때 갑자기 "이제부터 시작입니다!"라고 외치는 해설자처럼 보였죠.

이 연구는 최신 AI(멀티모달 LLM) 가 수정 없이 (Fine-tuning 없이) 바로 쓸 수 있는 두 가지 새로운 '해설 규칙'을 제안합니다.

1. 문제: "왜 AI 해설자는 말이 너무 많거나, 타이밍이 엉망일까?"

기존 방식은 마치 매 2 초마다 강제로 종을 울리는 것과 같았습니다.

고정된 간격 (Fixed Interval): "2 초 지났으니 무조건 해설을 해!"라고 명령합니다.
- 문제점: 경기가 한참 진행 중인데 2 초마다 해설이 쏟아지면 시청자는 따라갈 수 없습니다. 반대로 중요한 순간이 왔는데 2 초를 기다려야 한다면, "아직 안 왔네?"라고 생각하게 됩니다.

2. 해결책: "해설자가 스스로 '잠시 멈춤 (Pause)'을 아는 법"

연구팀은 AI 에게 두 가지 다른 '스마트한 규칙'을 적용해 보았습니다.

🅰️ 규칙 1: "시간표대로만 말하기" (고정 간격 방식)

기존 방식을 그대로 가져온 것입니다. 정해진 시간 (예: 2 초) 이 지나면 AI 가 "지금 뭐가 일어났지?"를 확인하고 해설을 합니다.

비유: 정해진 시간마다 알람이 울리면 무조건 일어나서 말을 하는 것. 하지만 알람이 울렸을 때 아무 일도 안 일어났다면, 그냥 "아, 아무 일도 없네"라고 말하고 다시 잠들어야 합니다.

🅱️ 규칙 2: "말하는 속도에 맞춰서 멈추기" (동적 간격 방식 - 이게 핵심입니다!)

이 방식은 이전 해설이 얼마나 길었는지를 계산합니다.

원리:
1. AI 가 해설을 했다면, "이 말을 다 하려면 몇 초가 걸릴까?"를 계산합니다. (예: "경기가 시작되었습니다!"는 2 초, "승자가 결정되었습니다!"는 5 초)
2. 그 계산된 시간만큼 **대기 (WAIT)**합니다.
3. 대기 시간이 끝나면, "자, 이제 새로운 일이 일어났나?"를 확인하고 다음 해설을 합니다.
비유: **스피커가 마이크를 잡고 말을 할 때, "이제 다 말했으니, 다음 말을 하려면 잠시 숨을 고르고 기다려야지"**라고 스스로 생각하는 것과 같습니다.
- 긴 해설을 했으면 -> 더 오래 기다림.
- 짧은 해설을 했으면 -> 빨리 다음 상황을 확인함.
- 결과: 해설이 끊기지 않고 자연스럽게 이어지며, 중요한 순간에 맞춰서 딱딱 들어갑니다.

3. 실험 결과: 어떤 게 더 좋았을까?

연구팀은 레이싱 게임과 격투기 게임 데이터를 이용해 실험했습니다.

자동 점수 (컴퓨터가 평가): "고정 간격" 방식이 조금 더 낫다고 했습니다. (하지만 컴퓨터는 인간의 '느낌'을 다 못 잡습니다.)
사람의 평가 (실제 시청자): "동적 간격 (규칙 2)" 방식이 압도적으로 좋았습니다!
- 타이밍: 사람이 말하는 것처럼 자연스럽게 멈추고 시작했습니다.
- 중요한 순간: 경기가 바뀌는 중요한 순간에 딱 맞춰서 해설을 했습니다.
- 불필요한 말: 아무 일도 안 일어날 때 불필요하게 말을 늘어놓지 않았습니다.

4. 왜 이 연구가 중요한가요?

교육 없이도 가능: 이 AI 는 별도의 복잡한 학습 (Fine-tuning) 없이도, 명령어 (프롬프트) 만 잘 짜면 바로 쓸 수 있습니다.
모든 언어 가능: 영어와 일본어 모두에서 잘 작동했습니다.
실시간 활용: 앞으로 스포츠 중계나 게임 스트리밍에서, 전문 해설자가 없어도 AI 가 자연스럽게 "지금 저기서 넘어졌습니다!"라고 실시간으로 알려줄 수 있게 됩니다.

📝 한 줄 요약

"이 연구는 AI 해설자에게 '시간표'를 주지 않고, '말하는 속도에 맞춰 스스로 숨을 고르는 법'을 가르쳐서, 마치 인간 해설자처럼 자연스럽고 정확한 타이밍으로 경기를 설명하게 만든 것입니다."

이 기술이 발전하면, 앞으로 우리가 게임을 하거나 스포츠를 볼 때 AI 가 옆에서 "오! 저기서 넘어졌네!"라고 딱 맞춰서 말해주고, 아무 일 없을 때는 조용히 지켜보는 그런 경험을 할 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

실시간 비디오 코멘터리 생성은 비디오의 진행 상황을 텍스트로 설명하여 시청자의 접근성과 몰입도를 높이는 기술입니다. 기존 연구들은 주로 MLLM(멀티모달 대형 언어 모델) 을 활용하여 "무엇을 말할지 (What to say)"에 집중했으나, "언제 말할지 (When to say it)" 라는 타이밍 문제를 간과했습니다.

기존의 고정된 클립 기반 접근법이나 파인튜닝 (fine-tuning) 을 필요로 하는 스트리밍 방식은 다음과 같은 한계가 있습니다:

타이밍 불일치: 고정된 간격으로 입력을 받으면, 생성된 코멘터리의 길이에 관계없이 다음 예측이 너무 일찍 또는 너무 늦게 발생하여 자연스러운 휴지 (pause) 를 유지하기 어렵습니다.
과도한 파인튜닝: 실시간 스트리밍에 특화된 모델 (LiveCC, VideoLLM-online 등) 은 방대한 레이블 데이터와 파인튜닝이 필요하여 일반화 및 적용 비용이 높습니다.

이 논문은 파인튜닝 없이 인-컨텍스트 프롬프팅 (in-context prompting) 만으로 MLLM 이 의미 있는 내용과 적절한 타이밍을 모두 갖춘 실시간 코멘터리를 생성할 수 있는지, 그리고 이를 위해 휴지 인식 (Pause-Aware) 디코딩 전략이 필요한지를 탐구합니다.

2. 방법론 (Methodology)

저자들은 MLLM 의 아키텍처 변경이나 파인튜닝 없이, 디코딩 전략 (Decoding Strategies) 만을 변경하여 실시간 생성을 제어하는 두 가지 접근법을 제안합니다.

A. 고정 간격 디코딩 (Fixed-Interval Decoding)

원리: 기존 클립 기반 생성 방식을 실시간 환경으로 확장한 것으로, 매 $N$ 초마다 모델에게 비디오 클립을 입력하고 코멘터리 생성 또는 <WAIT> 토큰 출력을 요청합니다.
변형:
- Stateless: 이전 문맥 없이 현재 클립만 입력.
- Feedback: 이전에 생성된 문장들을 프롬프트에 포함하여 문맥 제공.
- Feedback (ICL): 프롬프트에 예시 (demonstrations) 를 포함하여 Few-shot 학습 유도.
한계: 생성된 문장의 길이가 길더라도 다음 쿼리가 고정된 간격으로 오면, 사용자가 따라가기 힘든 빠른 연속 업데이트가 발생할 수 있습니다.

B. 동적 간격 디코딩 (Dynamic Interval-based Decoding) - 주요 제안

원리: 동시 번역 (Simultaneous Translation) 의 WAIT/WRITE 전략에서 영감을 얻었습니다.
메커니즘:
1. 모델이 문장 $y_k$ 를 생성하면, 해당 문장의 단어 수 ( $w$ ) 와 고정된 발화 속도 ( $r$ ) 를 기반으로 예상 발화 시간 ( $\hat{d} = w/r$ ) 을 계산합니다.
2. 다음 예측 시간 ( $t_{k+1}$ ) 은 현재 시간 + $\hat{d}$ 로 동적으로 조정됩니다.
3. 즉, 긴 문장이 생성되면 다음 쿼리는 늦게, 짧은 문장이면 빠르게 수행됩니다.
효과: 이 방식은 모델이 이전 문장이 끝날 때까지 기다리게 하여, 자연스러운 발화 리듬과 인간이 읽는 속도에 맞춰 비디오 프레임을 동적으로 조절합니다. 또한, 이전 코멘터리와 현재 비디오의 차이를 파악할 수 있는 충분한 시각적 컨텍스트를 제공합니다.

3. 주요 기여 (Key Contributions)

휴지 인식 디코딩 전략 제안: MLLM 을 활용한 실시간 비디오 코멘터리 생성을 위해 고정 간격과 동적 간격 두 가지 프롬프팅 기반 디코딩 전략을 제안했습니다. 특히, 이전 발화 길이를 기반으로 다음 예측 시점을 동적으로 조절하는 피드백 기반의 동적 스케줄링이 핵심입니다.
파인튜닝 없는 효과 입증: 추가적인 학습 없이 프롬프팅과 디코딩 전략만 변경하여, 인간의 발화 타이밍과 내용 정합성을 크게 향상시킬 수 있음을 실험을 통해 증명했습니다.
멀티링구얼 벤치마크 구축: 일본어와 영어의 레이싱 (Car Racing) 및 격투 게임 (Fighting Game) 데이터를 포함한 다국어 벤치마크를 공개하여, 휴지 인식 언어 생성 연구의 표준 평가를 가능하게 했습니다.

4. 실험 결과 (Results)

레이싱 및 격투 게임 데이터셋 (일본어/영어) 을 대상으로 GPT-4.1, LLaVA-NeXT, Qwen2.5-VL 등 다양한 MLLM 을 평가했습니다.

자동 평가 (Automatic Metrics):
- 정렬 (Alignment): 고정 간격 + ICL(인-컨텍스트 학습) 방식이 시간 정렬 측면에서 높은 점수를 기록했으나, 이는 모델이 빈번하게 쿼리되어 생성된 결과물과 참조 데이터의 시간적 겹침이 많기 때문일 수 있습니다.
- 내용 유사성 (ROUGE-L, BERTScore): 생성된 코멘터리가 인간 참조 데이터보다 훨씬 장황 (verbose) 하여 점수가 낮게 나타났습니다. 자동 지표가 인간의 미묘한 타이밍 판단을 제대로 반영하지 못함을 시사합니다.
인간 평가 (Human Evaluation):
- 휴지 인식 (Pause-awareness): 제안한 동적 간격 (Realtime) 방식이 모든 모델에서 고정 간격 방식보다 압도적으로 높은 점수를 받았습니다. 특히 GPT-4.1 의 경우 일본어 레이싱 데이터에서 휴지 인식 점수가 3.50 (5 점 만점) 으로 크게 향상되었습니다.
- 자연스러움 (Naturalness): 동적 간격 방식은 불필요한 반복을 줄이고 자연스러운 템포를 유지하여, 인간 평가자로부터 더 자연스러운 코멘터리로 평가받았습니다.
- 핵심 사건 식별 (KEI): 동적 간격 방식이 게임의 중요한 전환점을 더 정확하게 포착하고 적시에 설명하는 경향을 보였습니다.
결론: 자동 지표는 고정 간격 방식을 선호하는 경향이 있었으나, 인간 평가에서는 동적 간격 방식이 타이밍 적절성과 자연스러움 면에서 압도적으로 우세했습니다. 이는 자동 평가 지표가 실시간 코멘터리의 '타이밍' 품질을 측정하는 데 한계가 있음을 보여줍니다.

5. 의의 및 결론 (Significance & Conclusion)

가벼운 실시간 솔루션: 방대한 데이터와 파인튜닝 없이도, MLLM 의 프롬프팅 능력과 지능적인 디코딩 스케줄링만으로 고품질의 실시간 비디오 코멘터리가 가능함을 입증했습니다.
적용 가능성: 이 프레임워크는 특정 MLLM 에 종속되지 않으며 (LLM-agnostic), 자막 생성이나 TTS(음성 합성) 와 같은 다운스트림 시스템과 원활하게 통합될 수 있습니다.
향후 과제: 자동 평가 지표의 신뢰성 문제 해결, 더 다양한 도메인으로의 확장, 그리고 발화 시간 추정 정확도 향상이 향후 연구 과제로 제시되었습니다.

요약하자면, 이 논문은 "무엇을 말할지"뿐만 아니라 "언제 말할지"를 제어하는 동적 디코딩 전략이 실시간 비디오 코멘터리 생성의 핵심 요소임을 증명하고, 이를 통해 파인튜닝 없이도 인간과 유사한 자연스러운 코멘터리 생성이 가능함을 보여준 중요한 연구입니다.