ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Il paper introduce ForeSea, un sistema di ricerca forense AI basato su un pipeline a tre stadi, e ForeSeaQA, il primo benchmark per la valutazione di query multimodali (immagine e testo) con grounding temporale preciso in video di sorveglianza, dimostrando miglioramenti significativi rispetto ai modelli VideoRAG esistenti.

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli

Pubblicato 2026-03-25
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover cercare un ago in un pagliaio, ma il "pagliaio" è un video di sorveglianza di 10 ore girato da 50 telecamere diverse, e l'"ago" è una persona specifica che sta facendo qualcosa di sospetto.

Fino a oggi, i sistemi di sicurezza erano come guardie del corpo stanche: dovevano guardare tutto il video, minuto per minuto, o affidarsi a descrizioni scritte molto generiche ("cerca un uomo con la giacca rossa"). Se la descrizione era sbagliata o se l'uomo cambiava giacca, la ricerca falliva.

ForeSea è come un investigatore privato super-intelligente che ha appena ricevuto un aggiornamento miracoloso. Ecco come funziona, passo dopo passo:

1. Il Problema: La "Caccia all'Ago" Impossibile

Oggi, se un investigatore deve rispondere a una domanda complessa come "Quando questa persona (mostrando una foto) ha iniziato a litigare con l'altro?", i computer attuali si perdono.

  • Non capiscono bene le foto insieme alle domande scritte.
  • Si perdono nel tempo (non sanno quando esattamente è successo).
  • Spesso inventano cose che non sono mai accadute (allucinazioni).

2. La Soluzione: ForeSea (Il Detective AI)

Gli autori hanno creato due cose fondamentali: un nuovo gioco di addestramento (chiamato ForeSeaQA) e un nuovo sistema di ricerca (chiamato ForeSea).

Immagina il sistema ForeSea come un processo in tre atti:

Attore 1: Il "Filtro Magico" (Tracking)

Invece di guardare l'intero video (la folla, i palazzi, le auto), il sistema usa un "occhio" intelligente che segue solo le persone.

  • L'analogia: È come se avessi un filtro su Instagram che cancella tutto tranne la persona che stai cercando. Il sistema taglia via tutto il video inutile e ti dà solo piccoli spezzone dove appare quella persona specifica. Questo riduce il "pagliaio" a un solo "fagotto di paglia".

Attore 2: L'Archivista Multilingue (Embedding)

Ora che abbiamo solo i pezzi con la persona, il sistema li archivia. Ma non li archivia solo per "testo" (es. "uomo rosso").

  • L'analogia: Immagina un archivista che capisce sia le parole che le immagini. Se gli chiedi "Cerca la foto di questo tizio che beve caffè", lui capisce che la foto e la parola "caffè" sono la stessa cosa. Mette in ordine i video in base a ciò che vedi e a ciò che dici, non solo a ciò che è scritto.

Attore 3: Il Detective Finale (VideoLLM)

Infine, prende i pochi spezzone più promettenti (i "Top-K") e li passa a un'intelligenza artificiale molto potente (un "cervello" che vede i video).

  • L'analogia: Invece di far leggere al detective 10 ore di filmato, gli dai solo i 3 minuti più importanti. Il detective legge questi 3 minuti, guarda la foto che gli hai dato, e ti risponde: "Sì, l'ho visto alle 10:35 mentre beveva il caffè, ecco il video".

3. Il Nuovo "Campo di Addestramento": ForeSeaQA

Per insegnare a questi detective a essere bravi, gli autori hanno creato un nuovo banco di prova (un benchmark) chiamato ForeSeaQA.

  • Prima, i test chiedevano solo: "C'è una persona che corre?".
  • Ora, il test chiede: "Ecco una foto di Maria. Quando ha iniziato a correre e con chi?".
    È come passare da un quiz a risposta multipla semplice a un'interrogazione orale complessa dove devi collegare un'immagine a un momento preciso della storia.

Perché è una grande novità?

  1. Parla sia con le immagini che con le parole: Puoi mostrare una foto e fare una domanda. Il sistema capisce il contesto completo.
  2. È preciso nel tempo: Non dice solo "è successo", ma "è successo esattamente tra le 10:30 e le 10:35".
  3. È veloce: Poiché filtra prima il video, non deve analizzare tutto. È come cercare un libro in una biblioteca: invece di leggere ogni libro, vai direttamente allo scaffale giusto grazie al filtro intelligente.

In sintesi

ForeSea trasforma la ricerca video da un compito noioso e impreciso (guardare ore di filmati a caso) in un'operazione chirurgica. È come avere un assistente che, invece di dirti "c'è qualcuno nella stanza", ti dice: "Ecco la persona che cerchi, è entrata alle 14:00, ha parlato con il signor Rossi alle 14:05 ed è uscita alle 14:10. Ecco il video di quel momento esatto".

È un passo enorme verso un'IA forense che funziona davvero nella vita reale, aiutando gli investigatori a trovare la verità in mezzo a montagne di dati video.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →