ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

이 논문은 복잡한 다중 모달 쿼리를 가진 비디오 감시 데이터에 대한 체계적인 평가를 위해 'ForeSeaQA' 벤치마크를 제안하고, 3 단계 파이프라인을 통해 기존 모델보다 정밀한 검색 및 시간적 위치 추정이 가능한 'ForeSea'라는 AI 포렌식 검색 시스템을 개발했습니다.

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli

게시일 2026-03-25
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ '포시 (ForeSea)': CCTV 영상 속의 '명탐정'을 찾아주는 AI

이 논문은 수많은 CCTV 카메라에서 찍힌 긴 영상 속에서, 경찰이나 수사관이 특정 사람이나 사건을 찾아야 할 때 겪는 고충을 해결해 주는 새로운 AI 시스템인 **'포시 (ForeSea)'**와 이를 평가하기 위한 새로운 시험지 **'포시 QA (ForeSeaQA)'**를 소개합니다.

기존의 기술로는 "저기 흰 셔츠 입은 남자가 언제 도망갔지?" 같은 복잡한 질문을 답하기가 매우 어려웠습니다. 이 논문은 그 문제를 어떻게 해결했는지 일상적인 비유로 설명해 드리겠습니다.


1. 왜 새로운 기술이 필요했을까요? (기존의 문제점)

상상해 보세요. 수천 시간 분량의 CCTV 영상이 쌓여 있는 방이 있습니다. 수사관이 "어제 오후 3 시에 이 사람 (사진) 이 도둑질을 했을 때, 그 옆에 있던 검은 모자 쓴 사람은 누구였나요?"라고 물어봅니다.

  • 기존 방식 1 (단순 검색): "검은 모자"라는 글자만 검색하면, 검은 모자를 쓴 수많은 사람들이 나옵니다. 하지만 그중 진짜 범인은 어디일까요? 사람이 일일이 영상을 돌려봐야 합니다.
  • 기존 방식 2 (기존 AI): AI 가 영상을 다 보게 하면, "아, 검은 모자가 있네요!"라고 말하지만, **"언제?"**나 **"어디서?"**에 대한 정확한 답을 못 합니다. 마치 책 전체를 빠르게 훑어보긴 했지만, 정답을 찾지 못하고 엉뚱한 장면을 말하는 것 같습니다.

핵심 문제: 기존 기술은 사진 (이미지) 과 질문 (텍스트) 을 동시에 이해하지 못했고, **정확한 시간 (언제 일어났는지)**을 찾아내는 데 서툴렀습니다.


2. '포시 (ForeSea)'는 어떻게 작동할까요? (3 단계 명탐정 프로세스)

이 시스템은 마치 능숙한 형사 팀이 사건을 해결하는 것처럼 3 단계로 작동합니다.

1 단계: 🕵️‍♂️ '수색대' (추적 모듈) - 쓸모없는 영상은 버려라!

  • 비유: 방 안에 있는 수천 시간의 영상 전체를 보는 게 아니라, "사람"이 등장하는 장면만 골라냅니다.
  • 작동: AI 가 CCTV 영상 속 사람 (피사체) 을 쫓아다니며, 사람만 나오는 짧은 클립으로 잘라냅니다. "사람이 안 나오는 빈 거리 영상"은 아예 무시합니다. 이렇게 하면 검색할 범위가 100 배 이상 줄어들어 속도가 빨라집니다.

2 단계: 📚 '도서관 사서' (멀티모달 인덱싱) - 모든 것을 한곳에 정리하다

  • 비유: 잘라낸 영상 클립들을 사진과 설명이 달린 카드로 만들어 거대한 도서관에 정리합니다.
  • 작동: "흰 셔츠를 입은 남자"라는 영상도, "검은 모자를 쓴 여자"라는 영상도 모두 텍스트와 이미지가 섞인 형태로 저장됩니다. 그래서 수사관이 "이 사람 (사진) + '도망간 시간 알려줘'"라고 물어보면, 도서관 사서가 즉시 관련 카드를 찾아냅니다.

3 단계: 🧠 '수사관' (Video LLM) - 증거를 분석하고 답을 내다

  • 비유: 도서관에서 찾아낸 가장 유력한 3~5 개의 영상 클립만 수사관 (AI) 에게 보여줍니다.
  • 작동: 수사관은 이 짧은 클립들을 보고 "아, 이 사람이 10 시 35 분에 자전거를 타고 도망갔네!"라고 정확한 시간과 함께 답을 합니다. 전체 영상을 다 보지 않아도, 핵심만 보기에 빠르고 정확합니다.

3. '포시 QA (ForeSeaQA)': 새로운 시험지

이 시스템이 정말 잘하는지 확인하기 위해, 연구팀은 **전 세계 최초의 'CCTV 수사 시험지'**를 만들었습니다.

  • 기존 시험지: "영상에서 사고가 있었나요?" (O/X) 같은 단순한 질문만 있었습니다.
  • 포시 QA 시험지:
    • 복합 질문: "이 사진의 사람이 언제 건물을 들어갔나요?" (사진 + 텍스트 + 시간)
    • 정밀한 시간: "정답은 10 시 35 분이지만, 10 시 30 분~40 분 사이를 말하면 감점!"처럼 정확한 시간을 찾아내야 합니다.
    • 다양한 상황: "누가 싸움을 시작했나요?", "누가 몇 번이나 나타났나요?" 등 다양한 수사 상황을 포함합니다.

이 시험지를 통해 기존 AI 들은 평균 60% 만 맞췄지만, 포시는 66% 를 맞췄고, 시간 정확도 (IoU) 는 11% 나 더 높았습니다.


4. 왜 이것이 중요한가요? (결론)

이 연구는 CCTV 수사의 미래를 바꿀 수 있는 두 가지 큰 기여를 했습니다.

  1. 실제 수사관처럼 생각하게 만들었습니다: 단순히 "무엇이" 있는지 찾는 게 아니라, **"누가, 언제, 어디서"**를 사진과 함께 찾아내는 능력을 갖췄습니다.
  2. 빠르고 정확합니다: 전체 영상을 다 보지 않고, 사람 중심의 핵심 장면만 골라 분석하므로 속도는 2 배 이상 빨라지고 정확도도 올라갔습니다.

한 줄 요약:

**"수천 시간의 CCTV 영상 속에서, 수사관이 원하는 사람과 사건을 '사진'과 '질문'으로 찾아내어 정확한 '시간'까지 알려주는 초고속 AI 명탐정"**이 탄생했습니다.

이 기술이 상용화되면, 실종자 찾기나 범죄 수사 시 수사가 걸리는 시간이 몇 주에서 몇 시간으로 단축될 수 있을 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →