Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

이 논문은 기계적 해석 기법을 활용하여 비디오-대규모 언어 모델 (VideoLLM) 이 시공간적 정보를 처리하고 답변을 생성하는 내부 정보 흐름과 시간적 추론의 핵심 경로를 규명하고, 불필요한 주의를 억제하여 성능을 유지하는 방식을 제시합니다.

Minji Kim, Taekyung Kim, Bohyung Han

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 보고 질문에 답하는 AI(VideoLLM) 가 실제로 어떻게 생각하고 답을 내는지 그 내부 작동 원리를 파헤친 연구"**입니다.

기존에는 AI 가 비디오를 어떻게 처리하는지 '외부'에서 관찰만 했지만, 이 연구는 AI 의 '뇌' 속을 들여다보고 정보의 흐름이 어떻게 이루어지는지를 마치 지도를 그리듯 (Map the Flow) 상세하게 설명합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.


🎬 비유: AI 는 '비디오 감식관'이자 '수사관'입니다

이 AI 모델은 길고 긴 비디오를 보고 "이 비디오에서 검은 고양이가 언제 나타났나요?" 같은 질문에 답해야 합니다. 이 과정에서 AI 는 다음과 같은 4 단계의 수사 과정을 거칩니다.

1 단계: 장면들을 연결하는 '초능력' (초~중반 레이어)

  • 상황: AI 는 비디오를 한 장 한 장 끊어진 사진처럼 받아들이지만, 답을 내기 위해서는 장면과 장면 사이의 연속성을 알아야 합니다.
  • 비유: 마치 추리 소설을 읽는 것과 같습니다. 1 장의 내용만으로는 범인을 알 수 없지만, 1 장과 2 장, 3 장을 이어보며 "아, 이 사람이 저기서 도망친 모양이네!"라고 시간의 흐름을 파악해야 합니다.
  • 발견: AI 는 비디오의 초반부와 중반부에서 이 '장면 연결 작업'을 가장 활발하게 합니다. 이 과정을 방해하면 AI 는 "시간이 흐르는 것"을 전혀 이해하지 못하게 됩니다.

2 단계: 질문의 '핵심 키워드'와 만남 (중반 레이어)

  • 상황: 이제 AI 는 비디오에서 얻은 정보 (예: "고양이가 처음에 나타났다") 를 질문의 단어와 연결해야 합니다.
  • 비유: 수사관이 **수첩에 적힌 단서 (비디오 정보)**를 **수사 질문 (질문 텍스트)**에 있는 핵심 단어와 대조하는 순간입니다.
    • 질문이 "시작할 때 (at the beginning)"라면, AI 는 비디오의 시작 부분 정보만 골라냅니다.
    • 질문이 "끝날 때 (at the end)"라면, 마지막 부분 정보만 골라냅니다.
  • 발견: AI 는 비디오의 모든 정보를 다 가져오는 게 아니라, 질문의 **핵심 단어 (시간 관련 단어)**와 딱 맞는 정보만 선택적으로 연결합니다.

3 단계: 최종 답안 작성 (후반 레이어)

  • 상황: 모든 정보가 연결되면, 이제 AI 는 최종 답을 말해야 합니다.
  • 비유: 수사관이 모든 단서를 모아서 최종 보고서를 작성하는 순간입니다.
  • 발견: AI 는 중반까지 정보를 다 모으고 나면, 후반부 레이어에서 "아, 이제 답이 확실해!"라고 확신을 가지고 정답을 생성합니다.

4 단계: 불필요한 정보는 버리기 (효율성)

  • 핵심 발견: 가장 놀라운 점은, AI 가 정답을 내기 위해 전체 정보의 절반 이상 (약 58%) 을 실제로는 쓰지 않는다는 것입니다.
  • 비유: 마치 최고의 요리사가 100 가지 재료를 사 왔지만, 정작 요리에 필요한 건 그중 40 가지만 쓰고 나머지는 버리는 것과 같습니다.
  • 의미: AI 는 중요한 정보 경로 (Effective Pathways) 만 남기고 나머지는 차단해도 똑같이 잘 답합니다. 이는 AI 가 생각보다 훨씬 간결하고 효율적으로 작동한다는 뜻입니다.

💡 이 연구가 왜 중요한가요?

  1. AI 의 '두뇌'를 이해하게 되었습니다: 이제 우리는 AI 가 비디오를 볼 때 단순히 그림을 보는 게 아니라, 시간의 흐름을 어떻게 이해하고 질문과 어떻게 연결하는지 그 '지도'를 가지고 있습니다.
  2. 더 똑똑하고 빠른 AI 를 만들 수 있습니다: 불필요한 정보 처리를 줄이고 중요한 정보 경로만 강화하면, AI 는 더 빠르고 정확하게 비디오를 이해할 수 있게 됩니다.
  3. 실수 원인을 파악할 수 있습니다: AI 가 틀린 답을 낼 때, 왜 틀렸는지 (시간 흐름을 못 잡았나? 아니면 질문을 잘못 이해했나?) 를 정확히 진단할 수 있게 되었습니다.

📝 한 줄 요약

이 논문은 **"AI 가 비디오를 보고 답을 낼 때, 시간의 흐름을 연결하고 질문의 핵심 단어와 만나는 '비밀 통로'를 찾아냈으며, 사실 AI 는 이 통로만으로도 충분히 똑똑하게 일할 수 있다"**는 것을 증명했습니다.