Each language version is independently generated for its own context, not a direct translation.
🕵️♂️ '포시 (ForeSea)': CCTV 영상 속의 '명탐정'을 찾아주는 AI
이 논문은 수많은 CCTV 카메라에서 찍힌 긴 영상 속에서, 경찰이나 수사관이 특정 사람이나 사건을 찾아야 할 때 겪는 고충을 해결해 주는 새로운 AI 시스템인 **'포시 (ForeSea)'**와 이를 평가하기 위한 새로운 시험지 **'포시 QA (ForeSeaQA)'**를 소개합니다.
기존의 기술로는 "저기 흰 셔츠 입은 남자가 언제 도망갔지?" 같은 복잡한 질문을 답하기가 매우 어려웠습니다. 이 논문은 그 문제를 어떻게 해결했는지 일상적인 비유로 설명해 드리겠습니다.
1. 왜 새로운 기술이 필요했을까요? (기존의 문제점)
상상해 보세요. 수천 시간 분량의 CCTV 영상이 쌓여 있는 방이 있습니다. 수사관이 "어제 오후 3 시에 이 사람 (사진) 이 도둑질을 했을 때, 그 옆에 있던 검은 모자 쓴 사람은 누구였나요?"라고 물어봅니다.
- 기존 방식 1 (단순 검색): "검은 모자"라는 글자만 검색하면, 검은 모자를 쓴 수많은 사람들이 나옵니다. 하지만 그중 진짜 범인은 어디일까요? 사람이 일일이 영상을 돌려봐야 합니다.
- 기존 방식 2 (기존 AI): AI 가 영상을 다 보게 하면, "아, 검은 모자가 있네요!"라고 말하지만, **"언제?"**나 **"어디서?"**에 대한 정확한 답을 못 합니다. 마치 책 전체를 빠르게 훑어보긴 했지만, 정답을 찾지 못하고 엉뚱한 장면을 말하는 것 같습니다.
핵심 문제: 기존 기술은 사진 (이미지) 과 질문 (텍스트) 을 동시에 이해하지 못했고, **정확한 시간 (언제 일어났는지)**을 찾아내는 데 서툴렀습니다.
2. '포시 (ForeSea)'는 어떻게 작동할까요? (3 단계 명탐정 프로세스)
이 시스템은 마치 능숙한 형사 팀이 사건을 해결하는 것처럼 3 단계로 작동합니다.
1 단계: 🕵️♂️ '수색대' (추적 모듈) - 쓸모없는 영상은 버려라!
- 비유: 방 안에 있는 수천 시간의 영상 전체를 보는 게 아니라, "사람"이 등장하는 장면만 골라냅니다.
- 작동: AI 가 CCTV 영상 속 사람 (피사체) 을 쫓아다니며, 사람만 나오는 짧은 클립으로 잘라냅니다. "사람이 안 나오는 빈 거리 영상"은 아예 무시합니다. 이렇게 하면 검색할 범위가 100 배 이상 줄어들어 속도가 빨라집니다.
2 단계: 📚 '도서관 사서' (멀티모달 인덱싱) - 모든 것을 한곳에 정리하다
- 비유: 잘라낸 영상 클립들을 사진과 설명이 달린 카드로 만들어 거대한 도서관에 정리합니다.
- 작동: "흰 셔츠를 입은 남자"라는 영상도, "검은 모자를 쓴 여자"라는 영상도 모두 텍스트와 이미지가 섞인 형태로 저장됩니다. 그래서 수사관이 "이 사람 (사진) + '도망간 시간 알려줘'"라고 물어보면, 도서관 사서가 즉시 관련 카드를 찾아냅니다.
3 단계: 🧠 '수사관' (Video LLM) - 증거를 분석하고 답을 내다
- 비유: 도서관에서 찾아낸 가장 유력한 3~5 개의 영상 클립만 수사관 (AI) 에게 보여줍니다.
- 작동: 수사관은 이 짧은 클립들을 보고 "아, 이 사람이 10 시 35 분에 자전거를 타고 도망갔네!"라고 정확한 시간과 함께 답을 합니다. 전체 영상을 다 보지 않아도, 핵심만 보기에 빠르고 정확합니다.
3. '포시 QA (ForeSeaQA)': 새로운 시험지
이 시스템이 정말 잘하는지 확인하기 위해, 연구팀은 **전 세계 최초의 'CCTV 수사 시험지'**를 만들었습니다.
- 기존 시험지: "영상에서 사고가 있었나요?" (O/X) 같은 단순한 질문만 있었습니다.
- 포시 QA 시험지:
- 복합 질문: "이 사진의 사람이 언제 건물을 들어갔나요?" (사진 + 텍스트 + 시간)
- 정밀한 시간: "정답은 10 시 35 분이지만, 10 시 30 분~40 분 사이를 말하면 감점!"처럼 정확한 시간을 찾아내야 합니다.
- 다양한 상황: "누가 싸움을 시작했나요?", "누가 몇 번이나 나타났나요?" 등 다양한 수사 상황을 포함합니다.
이 시험지를 통해 기존 AI 들은 평균 60% 만 맞췄지만, 포시는 66% 를 맞췄고, 시간 정확도 (IoU) 는 11% 나 더 높았습니다.
4. 왜 이것이 중요한가요? (결론)
이 연구는 CCTV 수사의 미래를 바꿀 수 있는 두 가지 큰 기여를 했습니다.
- 실제 수사관처럼 생각하게 만들었습니다: 단순히 "무엇이" 있는지 찾는 게 아니라, **"누가, 언제, 어디서"**를 사진과 함께 찾아내는 능력을 갖췄습니다.
- 빠르고 정확합니다: 전체 영상을 다 보지 않고, 사람 중심의 핵심 장면만 골라 분석하므로 속도는 2 배 이상 빨라지고 정확도도 올라갔습니다.
한 줄 요약:
**"수천 시간의 CCTV 영상 속에서, 수사관이 원하는 사람과 사건을 '사진'과 '질문'으로 찾아내어 정확한 '시간'까지 알려주는 초고속 AI 명탐정"**이 탄생했습니다.
이 기술이 상용화되면, 실종자 찾기나 범죄 수사 시 수사가 걸리는 시간이 몇 주에서 몇 시간으로 단축될 수 있을 것입니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.