ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando resolver um crime. Você tem uma câmera de segurança que gravou 100 horas de vídeo de uma cidade inteira, 24 horas por dia. Seu chefe chega e diz: "Encontre o homem de camisa vermelha que roubou o banco às 14h30 e me mostre exatamente o momento em que ele entrou e saiu".

Fazer isso manualmente seria impossível. Você teria que assistir a tudo, pausar, avançar e tentar lembrar de cada rosto. É como tentar achar uma agulha num palheiro, mas o palheiro é um oceano de vídeo.

É aqui que entra o ForeSea, o novo "super-detetive de IA" criado pelos pesquisadores deste artigo.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: A "Cegueira" das Ferramentas Atuais

Antes, os sistemas de vigilância eram como bibliotecários desorganizados.

Eles conseguiam contar quantas pessoas entraram (como um contador de pessoas), mas não sabiam quem eram.
Se você perguntasse "Onde está o homem de vermelho?", eles só conseguiam buscar por texto (ex: "homem", "vermelho"). Se você mostrasse uma foto do suspeito, eles ficavam confusos.
Eles também eram péssimos em dizer quando algo aconteceu. Davam uma resposta genérica: "Aconteceu no vídeo", sem dizer a hora exata.

2. A Solução: O ForeSea (O Detetive Inteligente)

Os autores criaram um sistema chamado ForeSea que funciona em três etapas, como um time de detetives especializado:

Etapa 1: O Filtro (O "Guarda de Segurança")
Em vez de assistir a todo o vídeo, o sistema primeiro usa um rastreador para identificar todas as pessoas. Ele corta o vídeo gigante em pequenos pedaços, focando apenas nas pessoas. É como se ele dissesse: "Esqueça o céu, os carros e as árvores. Vamos focar apenas nas pessoas que aparecem". Isso reduz o trabalho de 100 horas para apenas alguns minutos de vídeo relevante.
Etapa 2: O Arquivo (A "Biblioteca Multimodal")
O sistema organiza esses pedaços de vídeo em uma biblioteca inteligente. Aqui está a mágica: ele não guarda apenas o vídeo, ele cria um "resumo" que entende tanto texto quanto imagens.
- Analogia: Imagine que cada clipe de vídeo tem um "rótulo mágico". Se você perguntar "Onde está o homem de vermelho?", o rótulo entende. Se você mostrar uma foto do homem e perguntar "Onde está ele?", o rótulo também entende, comparando a foto com o vídeo.
Etapa 3: O Detetive Final (O "Especialista em Raciocínio")
Quando você faz uma pergunta, o sistema busca os 3 ou 4 melhores pedaços de vídeo na biblioteca e entrega para uma Inteligência Artificial superinteligente (um modelo de linguagem de vídeo). Essa IA analisa apenas esses poucos segundos, responde à pergunta e diz: "Ele entrou às 14h32 e saiu às 14h35".

3. O Novo Teste: O "ForeSeaQA"

Para provar que seu sistema funciona, eles precisavam de um exame de prova que ninguém mais tinha criado. Eles inventaram o ForeSeaQA.

Pense nisso como um teste de "Caça ao Tesouro" para IAs.

O Desafio: A IA recebe uma foto de uma pessoa e uma pergunta como: "Esta pessoa está brigando com alguém? Se sim, quando?".
A Diferença: Antes, os testes só permitiam perguntas de texto. O ForeSeaQA exige que a IA entenda a imagem (quem é a pessoa) e o vídeo (o que ela fez) ao mesmo tempo, e ainda diga a hora exata.

4. Os Resultados: Por que isso é incrível?

Precisão: O ForeSea foi muito melhor do que os sistemas anteriores. Enquanto os antigos erravam a hora do evento (dizendo "aconteceu no meio do vídeo"), o ForeSea acertou o horário com precisão de segundos.
Velocidade: Como ele não precisa assistir a tudo, é muito mais rápido. É como usar um "Ctrl+F" (buscar no texto) em vez de ler todo o livro.
Versatilidade: Ele funciona não só em vigilância, mas em qualquer vídeo longo (como filmes ou documentários), provando que é uma ferramenta poderosa para entender o mundo visual.

Resumo em uma Frase

O ForeSea é como transformar uma pilha de fitas de vídeo de 100 horas em um índice inteligente que permite que você diga: "Mostre-me o momento exato em que esta pessoa (apontando para uma foto) fez aquela coisa", e a IA te entrega o vídeo pronto, com a hora marcada, em segundos.

Eles criaram tanto o sistema (ForeSea) quanto o teste (ForeSeaQA) para garantir que, no futuro, a vigilância por vídeo seja realmente útil para resolver crimes e entender o que aconteceu, em vez de apenas gravar tudo e nunca mais olhar.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: ForeSea

1. O Problema

A análise de vídeo de vigilância enfrenta desafios significativos ao tentar localizar alvos específicos (pessoas, objetos ou eventos) em longas durações de vídeo capturados por múltiplas câmeras.

Limitações dos Métodos Atuais:
- Pipelines de Rastreamento Tradicionais: São eficientes computacionalmente, mas falham em buscas semânticas complexas, na compreensão de intenções e na detecção de anomalias não previstas.
- Modelos Baseados em CLIP e RAG (Retrieval-Augmented Generation): Embora permitam buscas por texto natural, eles geralmente capturam apenas atributos superficiais, não suportam consultas multimodais nativas (imagem + texto) e falham no raciocínio temporal.
- Falta de Benchmarks: Não existiam benchmarks adequados para avaliar sistemas que respondem a perguntas de vídeo utilizando consultas multimodais com ancoragem temporal precisa.
Necessidade Real: Analistas forenses precisam de sistemas que aceitem consultas como "Quando esta pessoa (imagem de referência) entrou no prédio?" e forneçam a resposta com evidências temporais precisas (timestamps e clipes de vídeo).

2. Metodologia

O trabalho propõe duas inovações principais: um novo benchmark (ForeSeaQA) e um novo sistema de busca forense (ForeSea).

A. ForeSeaQA (Benchmark)

Objetivo: Avaliar a capacidade de modelos de Linguagem Multimodal (LMMs) de entender vídeos longos, ancorar pessoas e momentos de interesse, e responder perguntas com evidências temporais.
Construção: Derivado do conjunto de dados UCF-Crime, utilizando um motor de dados semi-automatizado que extrai entidades humanas de legendas densas, as ancora visualmente e gera pares de Pergunta-Resposta (QA).
Características Únicas:
- Consultas Multimodais: Inclui imagens de referência junto com o texto da pergunta (ex: foto da pessoa + "O que ela estava fazendo?").
- Ancoragem Temporal: Cada resposta vem com intervalos de tempo precisos ( $T_s, T_e$ ) que contêm a evidência.
- Tarefas: Abrange 6 sub-tarefas: Busca (Search), Atividade, Evento, Temporal, Contagem e Anomalia.
- Escala: 1.041 perguntas curadas com verificação humana.

B. ForeSea (Sistema)
O ForeSea é um framework VideoRAG (Retrieval-Augmented Generation) de 3 estágios, projetado para ser "plug-and-play":

Módulo de Rastreamento (Filtragem): Utiliza um rastreador de pessoas (ex: ByteTrack + YOLO) para segmentar vídeos longos em clipes centrados em pessoas. Isso reduz drasticamente o espaço de busca, removendo fundos irrelevantes.
Módulo de Embedding Multimodal (Indexação):
- Utiliza um codificador multimodal (baseado em VISTA/GCL) para criar vetores de embedding unificados para clipes de vídeo.
- Suporta consultas puramente textuais e consultas multimodais (imagem + texto) no mesmo espaço vetorial, evitando perda de informação por projeção unimodal.
Geração de Resposta (Raciocínio):
- Recupera os $K$ clipes mais relevantes (top-K) com base na consulta.
- Envia esses clipes, juntamente com a consulta original e metadados espaciais (coordenadas da caixa delimitadora), para um VideoLLM (ex: VideoLLaMA3).
- O LLM gera uma resposta concisa, localiza temporalmente o evento e fornece evidências visuais.

3. Principais Contribuições

ForeSeaQA: O primeiro benchmark para QA de vídeo com ancoragem temporal e consultas multimodais no domínio de vigilância. Ele avalia simultaneamente a precisão da escolha múltipla e a localização temporal.
ForeSea System: O primeiro sistema VideoRAG projetado especificamente para consultas forenses complexas (imagem+texto), demonstrando que a recuperação centrada na pessoa é um viés indutivo poderoso para a compreensão de vigilância.
Eficiência e Generalização: Demonstração de que o sistema supera modelos que processam o vídeo inteiro, operando com menos quadros de entrada e menor latência, mantendo alta precisão.

4. Resultados

Os experimentos foram conduzidos no benchmark ForeSeaQA e em benchmarks de vídeo aberto (VideoMME, MLVU).

Desempenho no ForeSeaQA:
- Precisão: O ForeSea alcançou 66,0% de precisão geral (média de texto e multimodal), superando todos os modelos base e o VideoRAG anterior.
- Localização Temporal (IoU): Alcançou um IoU de 13,6%, uma melhoria significativa de 11,0% sobre os modelos VideoRAG anteriores (que ficaram em ~2,8-4,3%). Isso indica que o ForeSea localiza os eventos com muito mais precisão.
- Robustez Multimodal: Enquanto outros modelos caíram em precisão ao usar consultas multimodais (imagem+texto), o ForeSea manteve consistência (>65% em ambos os modos).
- Tarefa de Busca: O sistema mostrou ganhos massivos na tarefa de "Busca" (identificar se uma pessoa aparece), onde a recuperação centrada na pessoa é crítica.
Eficiência:
- Latência: O ForeSea tem uma latência total de 2,6s (incluindo recuperação e geração), sendo mais rápido que o VideoLLaMA3 (3,8s) e significativamente mais rápido que outros RAGs (5,2s - 7,6s).
- Uso de Recursos: Alcança desempenho superior usando apenas metade dos quadros de entrada em comparação com métodos que processam o vídeo completo.
Generalização:
- O sistema também se generalizou bem para benchmarks de domínio aberto (LongVideoBench), superando modelos de última geração (SOTA) com 7B de parâmetros, provando que a abordagem não é limitada apenas à vigilância.

5. Significado e Impacto

O trabalho ForeSea representa um avanço crucial na interseção entre inteligência artificial forense e modelos de linguagem multimodal.

Mudança de Paradigma: Demonstra que a recuperação baseada em texto puro é insuficiente para cenários forenses reais, onde a referência visual (foto de um suspeito) é essencial.
Solução Prática: Oferece um pipeline eficiente que reduz a carga de trabalho humano na revisão de horas de vídeo, automatizando a busca por indivíduos e eventos específicos com alta precisão temporal.
Padrão Futuro: Estabelece o ForeSeaQA como um novo padrão para avaliar a capacidade de raciocínio temporal e multimodal em vídeos longos, incentivando o desenvolvimento de sistemas que não apenas "veem" o vídeo, mas "entendem" a narrativa temporal e contextual dos eventos.

Em resumo, o ForeSea resolve o problema da "agulha no palheiro" em vídeos de vigilância, combinando recuperação eficiente centrada em pessoas com o poder de raciocínio de LLMs modernos, superando as limitações de sistemas anteriores tanto em precisão quanto em velocidade.