Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

이 논문은 학습 데이터 없이 자연어 프롬프트만으로 비디오를 요약할 수 있는 'Prompts-to-Summaries' 프레임워크를 제안하며, 기존 비지도 및 지도 학습 기반 방법들을 능가하는 성능과 새로운 데이터셋 'VidSum-Reason'을 통해 범용 텍스트 기반 비디오 요약의 가능성을 입증했습니다.

Mario Barbara, Alaa Maalouf

게시일 2026-02-18
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"Prompts-to-Summaries (프롬프트로 요약하기)"**라는 새로운 비디오 요약 기술을 소개합니다. 쉽게 말해, **"어떤 영상도 학습 없이, 그냥 말로 지시만 하면 원하는 대로 요약해 주는 똑똑한 비서"**를 개발한 것입니다.

기존의 요약 프로그램들은 수만 개의 영상을 사람이 직접 보고 "이건 중요해, 이건 중요하지 않아"라고 가르쳐야 (학습) 했지만, 이 새로운 방법은 그런 귀찮은 과정이 전혀 필요 없습니다.

이 기술이 어떻게 작동하는지, 그리고 왜 특별한지 일상적인 비유로 설명해 드릴게요.


🎬 1. 문제: "영상은 너무 많고, 시간은 너무 짧아!"

우리는 매일 수많은 영상을 봅니다. 하지만 모든 영상을 다 볼 시간은 없죠.

  • 기존 방식의 한계: 예전 요약 프로그램들은 특정 주제 (예: 스포츠, 뉴스) 에만 특화되어 있었습니다. 마치 "축구만 잘 보는 해설자"에게 "요즘 유행하는 요리 영상 요약해 줘"라고 하면 당황하는 것과 비슷합니다. 또한, 사용자가 "폭력적인 장면 빼고 요약해 줘"라고 말하면 못 알아듣는 경우가 많았습니다.

🚀 2. 해결책: "두 명의 천재 팀" (VideoLM + LLM)

이 연구는 두 가지 거대 인공지능 (AI) 을 팀으로 꾸려서 문제를 해결했습니다.

  1. 비디오 해설자 (VideoLM): 이 AI 는 영상을 보고 "이 장면에서는 두 사람이 악수를 하고, 다음엔 차가 지나가네"라고 **자세한 설명 (캡션)**을 써줍니다. 마치 영화의 대본을 읽어주는 역할입니다.
  2. 편집 감독 (LLM): 이 AI 는 해설자가 쓴 대본을 읽고, 사용자의 지시 (예: "감동적인 장면만 골라줘") 를 바탕으로 **"이 장면은 10 점 만점에 몇 점일까?"**라고 점수를 매깁니다. 마치 영화 편집자가 "이 장면은 꼭 넣어야 해 (10 점), 저건 잘라내도 돼 (1 점)"라고 결정하는 역할입니다.

핵심: 이 두 AI 는 처음부터 훈련된 상태 (Pre-trained) 이기 때문에, 새로운 영상을 볼 때마다 다시 공부할 필요가 없습니다. 바로 "제대로 된 지시 (프롬프트)"만 주면 됩니다.


🛠️ 3. 작동 원리: 4 단계 요리 과정

이 기술이 영상을 요약하는 과정은 마치 거대한 요리를 요리하는 과정과 같습니다.

1 단계: 장면을 나누기 (Scene Detection)

  • 비유: 긴 영화 필름을 잘라내어 '장면 (Scene)' 단위로 나누는 작업입니다.
  • 작동: 화면이 갑자기 바뀌거나 (예: 배경이 바뀜) 소리가 끊기는 지점을 찾아서 자연스럽게 장면을 쪼갭니다.

2 단계: 장면 설명하기 (Description Generation)

  • 비유: 각 장면마다 '요약 카드'를 만들어 붙이는 작업입니다.
  • 작동: AI 가 각 장면의 내용을 텍스트로 설명합니다. "여기서는 주인공이 친구를 만나고, 여기서 웃음을 터뜨립니다" 같은 식입니다. 긴 영상이라도 메모리 문제를 해결하기 위해 작은 덩어리로 나누어 설명합니다.

3 단계: 점수 매기기 (Scene Scoring)

  • 비유: 편집 감독이 설명 카드를 보며 **"이 장면이 내 요구사항 (예: '웃음') 에 맞을까?"**라고 점수를 매기는 순간입니다.
  • 작동: 사용자가 "웃음 장면만 골라줘"라고 입력하면, AI 는 설명 카드를 읽으며 웃음이 나오는 장면에 높은 점수 (100 점) 를, 그렇지 않은 장면에는 낮은 점수 (10 점) 를 줍니다. 이때 AI 는 "전체 이야기 흐름"도 고려해서 점수를 매깁니다.

4 단계: 프레임 정교화 (Frame Leveling)

  • 비유: 장면 전체가 '중요'하다고 해서 그 안의 모든 순간이 중요한 건 아닙니다. "웃음" 장면 중에서도 가장 웃긴 순간 (클라이맥스) 을 골라내야 합니다.
  • 작동: 장면의 점수를 바탕으로, 그 장면 속의 **각 프레임 (화면)**까지 점수를 세분화합니다.
    • 일관성 (Consistency): 장면이 너무 흔들리거나 혼란스럽지 않은지 확인합니다.
    • 독창성 (Uniqueness): 그 장면에서 가장 특별하고 눈에 띄는 순간은 어디인지 찾습니다.
    • 최종적으로 점수가 높은 프레임들만 모아서 짧은 요약 영상을 만듭니다.

🌟 4. 이 기술의 놀라운 점 (기존과 다른 점)

  1. 학습 불필요 (Zero-Shot): "이걸 가르쳐야 한다"는 개념이 없습니다. 새로운 영상 하나를 주면 바로 요약해 줍니다. 마치 새로운 요리를 처음 보는 요리사에게 "이 재료를 섞어줘"라고 하면 바로 만들어내는 것과 같습니다.
  2. 사용자 맞춤 (Text-Queryable): 사용자가 "폭력적인 장면 빼고", "아이들이 나오는 장면만", "감동적인 부분만"이라고 말로 지시하면, AI 가 그 지시에 맞춰 요약합니다.
  3. 압도적인 성능: 실험 결과, 이 방법은 수많은 데이터를 학습한 기존 '전문가' AI 들과 맞먹거나, 오히려 더 좋은 성능을 보여주었습니다. 특히 사용자가 원하는 내용을 찾는 능력 (질문 기반 요약) 에서 기존 방법들을 크게 앞섰습니다.

📝 5. 결론: 왜 이것이 중요한가요?

이 연구는 **"인공지능이 인간의 언어를 이해하고, 영상을 보고, 인간의 의도를 파악하여 요약해 줄 수 있다"**는 것을 증명했습니다.

앞으로는 유튜브나 교육 영상, 감시 카메라 영상 등 어떤 영상이라도 **"나에게 필요한 부분만 딱 잘라줘"**라고 말하면, AI 가 바로 그 영상을 만들어줄 시대가 온 것입니다. 더 이상 복잡한 설정이나 학습 데이터 없이, 우리 모두의 '개인 비서'가 되어줄 기술입니다.

한 줄 요약:

"학습 없이, 말로 지시만 하면 원하는 대로 영상을 요약해 주는 똑똑한 AI 비서"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →