TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

이 논문은 시각, 텍스트, 오디오 세 가지 모달리티를 프레임 수준에서 적응적으로 융합하는 'TripleSumm' 아키텍처와 대규모 멀티모달 벤치마크 'MoSu'를 제안하여 기존 비디오 요약 방법의 한계를 극복하고 최첨단 성능을 달성했다고 요약할 수 있습니다.

Sumin Kim, Hyemin Jeong, Mingu Kang, Yejin Kim, Yoori Oh, Joonseok Lee

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 'TripleSumm'과 'MoSu': 긴 동영상을 한눈에 보는 마법 같은 요약기

이 논문은 매우 긴 동영상 (예: 유튜브 영상, 강의, 게임 플레이 등) 을 짧고 핵심적인 하이라이트로 만들어주는 인공지능에 대한 연구입니다. 연구팀은 서울대학교 소속이며, ICLR 2026 컨퍼런스에서 발표할 예정입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 이런 연구가 필요할까요? (문제점)

상상해 보세요. 1 시간짜리 긴 유튜브 영상을 5 분짜리 요약본으로 만들어야 한다면 어떻게 하겠습니까?
기존의 인공지능들은 주로 **화면 (시각)**만 보고 "어디가 중요한가?"를 판단했습니다. 마치 눈을 가리고 귀만 막은 채 그림만 보고 이야기를 추측하는 사람과 비슷합니다.

하지만 실제 인간은 영상을 볼 때 세 가지를 동시에 사용합니다:

  1. 눈 (시각): 화면에 무슨 일이 일어나는지.
  2. 귀 (청각): 배경음악, 효과음, 목소리 톤.
  3. 입/자막 (텍스트): 대본이나 자막의 내용.

예를 들어:

  • 심사위원이 말하는 장면: 이때는 '시각'보다 **목소리 (텍스트/오디오)**가 훨씬 중요합니다.
  • 로봇이 춤추는 장면: 이때는 **화면 (시각) 과 음악 (오디오)**이 중요하고, 대사는 필요 없습니다.
  • 기타 연주 장면: 처음에는 로고가 나오니 화면이 중요하고, 설명이 나오면 자막, 연주가 시작되면 소리가 중요해집니다.

기존 기술은 이 변화를 잘 따라가지 못해, "무조건 화면이 움직이는 게 중요해!"라고 고정관념을 가지고 요약하는 실수를 저지릅니다.


2. TripleSumm: 상황 파악이 빠른 '스마트 요약 비서'

연구팀이 만든 TripleSumm은 이 문제를 해결한 새로운 모델입니다. 이 모델의 특징은 **'적응형 (Adaptive)'**이라는 점입니다.

  • 비유: TripleSumm 은 마치 현명한 영화 평론가와 같습니다.
    • 영화의 한 장면이 대사가 중요한 드라마라면, 평론가는 **대본 (텍스트)**에 집중합니다.
    • 액션 장면이라면 **화면 (시각)**과 **효과음 (오디오)**에 집중합니다.
    • 이 비서는 매 프레임 (화면) 마다 "지금 이 순간에는 어떤 정보가 가장 중요한가?"를 실시간으로 판단하여, 세 가지 감각 (눈, 귀, 입) 의 비중을 유동적으로 조절합니다.

핵심 기술 2 가지:

  1. 멀티스케일 시간 블록 (MST): 영화의 '세부적인 장면'과 '전체적인 줄거리'를 동시에 파악합니다. 마치 현미경과 망원경을 동시에 사용하는 것처럼, 가까운 장면의 디테일과 먼 장면의 흐름을 모두 잡습니다.
  2. 크로스 모달 퓨전 블록 (CMF): 세 가지 정보 (시각, 텍스트, 오디오) 가 서로 대화하게 합니다. 이때 **중립적인 '퓨전 토큰 (Fusion Token)'**이라는 중재자가 나서서, "지금 이 순간엔 오디오가 80%, 시각이 20% 중요해!"라고 가중치를 매겨 정보를 합칩니다.

3. MoSu: 새로운 '거대한 도서관' (데이터셋)

인공지능을 잘 가르치려면 좋은 교재 (데이터) 가 필요합니다. 기존에는 긴 동영상을 분석할 수 있는 데이터가 너무 적거나, 소리나 자막 정보가 빠져있었습니다.

연구팀은 **MoSu (Most Replayed Multimodal Video Summarization)**라는 새로운 데이터를 만들었습니다.

  • 규모:5 만 2 천 개의 실제 유튜브 영상 (총 4,000 시간 분량).
  • 특징: 모든 영상에 화면, 자막, 소리가 완벽하게 갖춰져 있습니다.
  • 신뢰도: 단순히 "좋아요" 수만 보는 게 아니라, **수만 명의 시청자가 실제로 영상을 되감고 다시 본 부분 (Most Replayed)**을 분석하여 "사람들이 진짜로 중요하게 생각하는 부분"을 학습시켰습니다.

비유: 기존 데이터가 작은 도서관이었다면, MoSu 는 전 세계의 모든 책, 오디오북, 영화가 정리된 거대한 도서관입니다.


4. 결과는 어떨까요? (성과)

이 새로운 비서 (TripleSumm) 와 도서관 (MoSu) 을 테스트해 본 결과:

  • 압도적인 승리: 기존에 있던 다른 요약 프로그램들보다 훨씬 더 정확하고 자연스러운 요약을 만들어냈습니다.
  • 효율성: 성능은 최고인데, 모델 크기는 매우 작습니다. (다른 모델들이 거대한 트럭이라면, TripleSumm 은 스마트한 전기 자전거처럼 가볍고 빠릅니다.)
  • 유연성: 만약 자막이 없거나 소리가 끊겨도, 나머지 정보로 충분히 잘 요약해냅니다. (눈이 가려져도 귀로, 귀가 막혀도 눈으로 상황을 파악하는 능력)

📝 한 줄 요약

이 논문은 **"동영상의 중요한 순간을 찾아낼 때, 화면만 보는 게 아니라 소리와 자막까지 상황에 따라 똑똑하게 조합하는 새로운 AI (TripleSumm)"**를 개발하고, 이를 가르칠 수 있는 **"거대하고 완벽한 데이터 (MoSu)"**를 공개했다는 이야기입니다.

이 기술이 발전하면, 앞으로 우리는 1 시간짜리 긴 강의를 5 분짜리 핵심 요약본으로, 혹은 긴 게임 하이라이트를 순식간에 만들어볼 수 있게 될 것입니다! 🚀