FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

이 논문은 긴 시점 중심 비디오의 질문 응답을 위해 저해상도 프레임 순서 대신 장면 캡션 기반 그래프 구조를 활용해 관련 클립을 선택하고, 이를 통해 추론 시간을 단축하면서 FindingDory 및 HourVideo 벤치마크에서 최첨단 성능을 달성하는 'FocusGraph' 프레임워크를 제안합니다.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov, Viktoriia Khoruzhaia, Ekaterina Eroshenko, Ekaterina Derevyanka, Dmitry Yudin

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

포커스그래프 (FocusGraph): 긴 영상을 한눈에 파악하는 '스마트 요약자'

이 논문은 로봇이나 AI 에이전트가 **매우 긴 영상 **(예: 몇 시간 동안의 일상 기록)을 보고 질문에 답할 때 겪는 문제를 해결하는 새로운 방법, **'포커스그래프 (FocusGraph)'**를 소개합니다.

기존의 AI 는 긴 영상을 볼 때 모든 프레임을 하나하나 분석하려다 지쳐버리거나 (계산 비용 폭증), 중요한 내용을 놓치고 엉뚱한 답을 내놓는 경우가 많았습니다. 이 논문은 **"모든 것을 다 보지 않아도, 정말 중요한 부분만 골라내면 훨씬 똑똑하고 빠르게 답할 수 있다"**는 아이디어를 제시합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


🎬 비유: "수백 장의 사진이 담긴 앨범을 보는 상황"

상상해 보세요. 당신이 3 시간 동안 찍은 여행 영상을 보고 "내가 커피를 마신 건 언제였지?"라고 묻는 상황입니다.

  1. **기존 방식 **(비효율적인 방법)

    • AI 는 3 시간 분량의 영상을 초단위로 끊어 10 만 장 이상의 사진을 모두 펼쳐놓고 하나하나 봅니다.
    • 문제점: 머리가 터질 것 같고 (계산 비용), 너무 많은 정보에 압도되어 정작 커피 컵이 있는 1 장의 사진을 놓쳐버립니다.
  2. **포커스그래프 방식 **(스마트한 방법)

    • AI 는 10 만 장을 다 보지 않습니다. 대신 두 단계로 나누어 접근합니다.

🚀 포커스그래프의 두 단계 전략

1 단계: "내용 요약본"으로 핵심 장면 찾기 (Scene-Caption LLM Selector)

  • 비유: 영상 전체를 다 보지 않고, **각 장면마다 "이건 뭐가 나왔는지" 적힌 짧은 메모 **(요약문)를 먼저 읽는 것과 같습니다.
    • 예: "08:25~08:32 - 테이블 위에 새가 있고, 옆에 촛불이 켜져 있음."
  • 작동 원리:
    • AI 는 영상의 긴 흐름을 작은 조각 (클립) 으로 나누고, 각 조각의 내용을 텍스트로 요약합니다.
    • 사용자가 "커피를 마신 때를 찾아줘"라고 질문하면, AI 는 수천 장의 영상 대신 이 짧은 메모들만 빠르게 훑어봅니다.
    • "아, 커피 관련 메모는 3 번째 조각에 있네!"라고 정답이 있을 만한 장면만 골라냅니다.
    • 장점: 영상을 다 보지 않아도 되므로 속도가 매우 빠르고, 중요한 정보를 놓치지 않습니다.

2 단계: "가장 중요한 순간"만 골라내기 (PSFR 알고리즘)

  • 비유: 1 단계에서 골라낸 3 번째 조각 (약 10 초 분량) 을 다시 자세히 보는데, 이중적인 사진은 다 버리고 정말 변화가 있는 순간만 남기는 것입니다.
    • 만약 10 초 동안 카메라가 흔들리지 않고 아무 일도 일어나지 않는다면, 그 10 초는 다 같은 사진입니다.
    • AI 는 **화면의 움직임 **(광학 흐름)을 분석하여, "새가 날개를 퍼덕인 순간"이나 "손이 컵을 잡은 순간"처럼 변화가 있는 핵심 프레임만 1~2 장 골라냅니다.
  • 작동 원리:
    • 이 과정은 별도의 학습 없이 (Training-free) 이루어져 매우 가볍고 빠릅니다.
    • 이렇게 가장 중요한 사진 몇 장만 최종 AI 에게 보여줍니다.

🏆 왜 이 방법이 특별한가요?

  1. 속도와 정확도의 완벽한 조화:

    • 기존 방식은 "많이 볼수록 좋다"고 생각했지만, 오히려 정보가 너무 많아져서 엉뚱한 답을 내놓았습니다.
    • 포커스그래프는 **"적게 보되, 꼭 필요한 것만 정확히 본다"**는 철학으로, **정답률 **(SOTA)을 유지하면서 처리 속도는 획기적으로 줄였습니다.
  2. 로봇에게 딱 맞는 기술:

    • 로봇이 직접 세상을 돌아다니며 찍는 영상 (1 인칭 시점) 은 흔들리고 가려지는 경우가 많습니다.
    • 이 방법은 영상의 **흐름과 사물 간의 관계 **(그래프 구조)를 텍스트로 이해하기 때문에, 흔들리는 영상에서도 "어디서 무엇을 했는지"를 논리적으로 추론할 수 있습니다.
  3. 실제 테스트 결과:

    • 'FindingDory'와 'HourVideo'라는 어려운 벤치마크에서 기존 최고 성능 모델들을 능가했습니다.
    • 특히 **추론 시간 **(Inference time)이 기존 방법보다 훨씬 짧아, 실시간으로 로봇이 판단해야 하는 상황에 적합합니다.

💡 한 줄 요약

"긴 영상을 다 보느라 지칠 필요 없이, '내용 요약 메모'로 핵심 장면을 찾고, 그중에서도 '가장 중요한 순간'만 골라내어 AI 가 빠르고 정확하게 답하게 하는 똑똑한 시스템"입니다.

이 기술은 앞으로 집안일을 돕는 로봇이나, 긴 교육 영상을 분석하는 AI 가 더 똑똑하고 빠르게 일할 수 있는 기반이 될 것입니다.