ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

O artigo apresenta o ForeSea, um sistema de busca forense com IA baseado em um pipeline de três estágios, e o ForeSeaQA, um novo benchmark multimodal, para superar as limitações atuais na localização temporal e recuperação de eventos específicos em longas gravações de vigilância.

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli

Publicado 2026-03-25
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando resolver um crime. Você tem uma câmera de segurança que gravou 100 horas de vídeo de uma cidade inteira, 24 horas por dia. Seu chefe chega e diz: "Encontre o homem de camisa vermelha que roubou o banco às 14h30 e me mostre exatamente o momento em que ele entrou e saiu".

Fazer isso manualmente seria impossível. Você teria que assistir a tudo, pausar, avançar e tentar lembrar de cada rosto. É como tentar achar uma agulha num palheiro, mas o palheiro é um oceano de vídeo.

É aqui que entra o ForeSea, o novo "super-detetive de IA" criado pelos pesquisadores deste artigo.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: A "Cegueira" das Ferramentas Atuais

Antes, os sistemas de vigilância eram como bibliotecários desorganizados.

  • Eles conseguiam contar quantas pessoas entraram (como um contador de pessoas), mas não sabiam quem eram.
  • Se você perguntasse "Onde está o homem de vermelho?", eles só conseguiam buscar por texto (ex: "homem", "vermelho"). Se você mostrasse uma foto do suspeito, eles ficavam confusos.
  • Eles também eram péssimos em dizer quando algo aconteceu. Davam uma resposta genérica: "Aconteceu no vídeo", sem dizer a hora exata.

2. A Solução: O ForeSea (O Detetive Inteligente)

Os autores criaram um sistema chamado ForeSea que funciona em três etapas, como um time de detetives especializado:

  • Etapa 1: O Filtro (O "Guarda de Segurança")
    Em vez de assistir a todo o vídeo, o sistema primeiro usa um rastreador para identificar todas as pessoas. Ele corta o vídeo gigante em pequenos pedaços, focando apenas nas pessoas. É como se ele dissesse: "Esqueça o céu, os carros e as árvores. Vamos focar apenas nas pessoas que aparecem". Isso reduz o trabalho de 100 horas para apenas alguns minutos de vídeo relevante.

  • Etapa 2: O Arquivo (A "Biblioteca Multimodal")
    O sistema organiza esses pedaços de vídeo em uma biblioteca inteligente. Aqui está a mágica: ele não guarda apenas o vídeo, ele cria um "resumo" que entende tanto texto quanto imagens.

    • Analogia: Imagine que cada clipe de vídeo tem um "rótulo mágico". Se você perguntar "Onde está o homem de vermelho?", o rótulo entende. Se você mostrar uma foto do homem e perguntar "Onde está ele?", o rótulo também entende, comparando a foto com o vídeo.
  • Etapa 3: O Detetive Final (O "Especialista em Raciocínio")
    Quando você faz uma pergunta, o sistema busca os 3 ou 4 melhores pedaços de vídeo na biblioteca e entrega para uma Inteligência Artificial superinteligente (um modelo de linguagem de vídeo). Essa IA analisa apenas esses poucos segundos, responde à pergunta e diz: "Ele entrou às 14h32 e saiu às 14h35".

3. O Novo Teste: O "ForeSeaQA"

Para provar que seu sistema funciona, eles precisavam de um exame de prova que ninguém mais tinha criado. Eles inventaram o ForeSeaQA.

Pense nisso como um teste de "Caça ao Tesouro" para IAs.

  • O Desafio: A IA recebe uma foto de uma pessoa e uma pergunta como: "Esta pessoa está brigando com alguém? Se sim, quando?".
  • A Diferença: Antes, os testes só permitiam perguntas de texto. O ForeSeaQA exige que a IA entenda a imagem (quem é a pessoa) e o vídeo (o que ela fez) ao mesmo tempo, e ainda diga a hora exata.

4. Os Resultados: Por que isso é incrível?

  • Precisão: O ForeSea foi muito melhor do que os sistemas anteriores. Enquanto os antigos erravam a hora do evento (dizendo "aconteceu no meio do vídeo"), o ForeSea acertou o horário com precisão de segundos.
  • Velocidade: Como ele não precisa assistir a tudo, é muito mais rápido. É como usar um "Ctrl+F" (buscar no texto) em vez de ler todo o livro.
  • Versatilidade: Ele funciona não só em vigilância, mas em qualquer vídeo longo (como filmes ou documentários), provando que é uma ferramenta poderosa para entender o mundo visual.

Resumo em uma Frase

O ForeSea é como transformar uma pilha de fitas de vídeo de 100 horas em um índice inteligente que permite que você diga: "Mostre-me o momento exato em que esta pessoa (apontando para uma foto) fez aquela coisa", e a IA te entrega o vídeo pronto, com a hora marcada, em segundos.

Eles criaram tanto o sistema (ForeSea) quanto o teste (ForeSeaQA) para garantir que, no futuro, a vigilância por vídeo seja realmente útil para resolver crimes e entender o que aconteceu, em vez de apenas gravar tudo e nunca mais olhar.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →