ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective privé. Vous avez reçu une mission : trouver une personne précise dans une montagne de vidéos de surveillance qui s'étend sur plusieurs jours, provenant de dizaines de caméras différentes.

Dans le monde réel, c'est un cauchemar. Regarder chaque seconde de chaque vidéo prendrait des mois. Les systèmes actuels sont comme des stagiaires très rapides mais un peu bêtes : ils peuvent compter combien de personnes passent devant une caméra, mais ils ne comprennent pas qui c'est, ce qu'ils font, ou quand exactement cela s'est produit, surtout si on leur donne une photo de la personne en plus d'une question.

Voici comment ForeSea et ForeSeaQA changent la donne, expliqués simplement :

1. Le Problème : Chercher une aiguille dans une botte de foin (mais la botte de foin est une vidéo de 10 heures)

Avant, pour trouver quelqu'un, il fallait soit :

Regarder tout le film (trop long).
Demander à un humain de chercher (trop fatiguant).
Utiliser des robots qui ne comprennent que le texte (ex: "Trouve l'homme en rouge"). Si l'homme est en rouge mais que la question est "Trouve l'homme qui a volé le sac", le robot est perdu.

2. La Solution : ForeSea (Le Détective Super-Intelligent)

Les auteurs ont créé un nouveau système appelé ForeSea. Imaginez-le comme un assistant de police ultra-efficace qui fonctionne en trois étapes magiques :

Étape 1 : Le Tri (Le Filtre)
Au lieu de regarder toute la vidéo, le système utilise un détecteur de mouvement pour repérer uniquement les personnes. C'est comme si vous preniez une vidéo de 10 heures et que vous ne gardiez que les 5 minutes où la personne d'intérêt apparaît. Vous éliminez tout le reste (le ciel, les voitures, les arbres).
- Analogie : C'est comme si vous aviez un livre de 1000 pages, mais votre assistant ne vous montre que les 3 pages où le personnage principal parle.
Étape 2 : L'Indexation (La Carte au Trésor)
Le système prend ces petits clips vidéo et les "traduit" dans un langage que l'ordinateur comprend parfaitement, en mélangeant l'image et le texte. Il crée une carte mentale.
- Analogie : Imaginez que chaque clip vidéo est un livre dans une bibliothèque. ForeSea écrit un résumé précis sur la couverture de chaque livre, indiquant non seulement "homme en rouge", mais aussi "homme en rouge qui court vers la porte à 14h05".
Étape 3 : La Réponse (Le Grand Détective)
Quand vous posez une question complexe avec une photo (ex: "Est-ce que cette personne (photo) a monté à vélo ?"), le système cherche dans sa carte les 3 meilleurs clips correspondants. Il les donne ensuite à un "Grand Cerveau" (une intelligence artificielle avancée) qui regarde seulement ces 3 clips pour vous donner la réponse exacte avec l'heure précise.
- Analogie : Au lieu de vous faire lire tout le livre, l'assistant vous donne les 3 paragraphes clés et vous dit : "Voici la réponse, et c'est arrivé à 14h05".

3. Le Nouveau Terrain de Jeu : ForeSeaQA

Pour s'assurer que leur système est vraiment le meilleur, les chercheurs ont créé un nouvel examen, ForeSeaQA.

C'est comme un test de conduite pour les voitures autonomes, mais pour les détectives vidéo.
Ce test est spécial car il demande de répondre à des questions en montrant une photo (ex: "C'est cette personne ?") et de dire exactement à quelle heure cela s'est passé.
Avant, aucun test n'existait pour vérifier si une IA pouvait faire ça avec précision.

Pourquoi c'est révolutionnaire ?

Précision Temporelle : Les anciens systèmes pouvaient dire "Oui, il y a un vélo", mais pas "Il y a un vélo entre 14h05 et 14h10". ForeSea donne l'heure exacte.
Multimodal : Il comprend à la fois la photo (le visage) et la question (le texte).
Rapidité : Parce qu'il ne regarde que les petits clips pertinents (et non toute la vidéo), il est beaucoup plus rapide et consomme moins d'énergie que ses concurrents.

En résumé :
ForeSea est comme un assistant de police qui ne perd jamais de temps. Il sait ignorer le bruit, se concentrer uniquement sur la personne que vous cherchez, et vous dire exactement ce qu'elle a fait et à quel moment, même si vous lui montrez juste une photo floue et une question simple. C'est un pas de géant pour rendre la surveillance vidéo intelligente et utile, au lieu de juste être une accumulation de données inutiles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les systèmes de surveillance vidéo actuels peinent à identifier des cibles spécifiques au sein de vidéos longues et multi-caméras. Les approches existantes souffrent de plusieurs limitations majeures :

Limites des pipelines de suivi : Bien que efficaces pour le comptage ou le délimitage virtuel, ils échouent à rechercher des personnes ou des objets à grande échelle, à analyser des activités complexes ou à détecter des anomalies imprévues.
Insuffisance des modèles CLIP + RAG : Les méthodes récentes combinant CLIP et la génération augmentée par récupération (RAG) se limitent souvent aux requêtes textuelles. Elles ne gèrent pas nativement les requêtes multimodales (image + texte), ne comprennent pas les relations temporelles des images récupérées et manquent de capacités de raisonnement, ce qui entraîne des erreurs de localisation temporelle et des réponses fausses positives.
Absence de benchmarks adaptés : Il n'existe pas de benchmark capable d'évaluer la recherche vidéo avec des requêtes multimodales complexes et une localisation temporelle précise dans un contexte de surveillance.

2. Méthodologie : Le Framework ForeSea

Les auteurs proposent ForeSea, un système de recherche forensique basé sur une architecture RAG (Retrieval-Augmented Generation) en trois étapes, conçue pour être "plug-and-play" et centrée sur les personnes.

A. Architecture du Pipeline

Le système fonctionne en deux phases principales : la construction de la base de données et la réponse aux requêtes.

Construction de la base de données (Indexation) :
- Module de suivi : Un module de suivi de personnes (utilisant ByteTrack et YOLO) filtre les vidéos brutes pour extraire uniquement les clips pertinents centrés sur les individus. Cela réduit considérablement l'espace de recherche.
- Encodage Multimodal : Chaque clip centré sur une personne est encodé par un encodeur multimodal (basé sur VISTA/GCL) dans un espace d'embedding unifié. Ce module permet de représenter à la fois le contenu visuel et textuel, facilitant la recherche par texte seul ou par image + texte.
- Stockage : Les vecteurs d'embedding sont stockés dans une base de données multimodale avec des métadonnées (ID caméra, timestamps, coordonnées de la boîte englobante).
Réponse aux requêtes (Inférence) :
- Recherche : Pour une requête utilisateur (texte ou image+texte), le système génère un vecteur de requête et récupère les $K$ meilleurs clips candidats (Top-K) via une recherche par similarité.
- Raisonnement (VideoLLM) : Les clips récupérés sont concaténés et fournis à un Grand Modèle Multimodal Vidéo (VideoLLM, ici VideoLLaMA3). Le modèle reçoit également les coordonnées des boîtes englobantes sous forme de texte pour guider son attention.
- Sortie : Le modèle génère une réponse textuelle (résumé des événements) et une localisation temporelle précise (timestamps de début et de fin) liée aux preuves visuelles.

B. Le Benchmark ForeSeaQA

Pour évaluer ce domaine, les auteurs introduisent ForeSeaQA, le premier benchmark dédié à la question-réponse vidéo (Video QA) avec localisation temporelle et requêtes multimodales dans le contexte de la surveillance.

Données : Construit à partir de vidéos UCF-Crime, le dataset contient 1 041 questions annotées manuellement.
Types de requêtes : Il supporte les requêtes textuelles pures et les requêtes multimodales (une image de référence de la personne + une question textuelle).
Tâches : Six sous-tâches couvrent la recherche (Search), l'activité (Activity), l'événement (Event), le temporel (Temporal), le comptage (Counting) et l'anomalie (Anomaly).
Annotations : Chaque question est associée à des intervalles de temps précis (localisation temporelle) et des images de référence.

3. Contributions Clés

ForeSeaQA : Le premier benchmark évaluant simultanément la précision du choix multiple et la localisation temporelle sous des conditions de requêtes textuelles et multimodales dans le domaine de la surveillance.
ForeSea (Système) : Un framework RAG vidéo simple mais puissant qui combine le suivi de personnes, l'encodage multimodal et un VideoLLM. Il introduit un biais inductif fort en se concentrant sur les clips centrés sur les personnes plutôt que sur la vidéo complète.
Preuve de concept : Démonstration que la recherche centrée sur l'identité permet de surmonter les limites des modèles actuels en matière de raisonnement temporel et de gestion des requêtes multimodales.

4. Résultats Expérimentaux

Les expériences ont été menées sur ForeSeaQA et des benchmarks génériques (VideoMME, MLVU).

Performance sur ForeSeaQA :
- ForeSea atteint une précision globale de 66,0 % et un IoU temporel de 13,6 %, surpassant tous les modèles de base (Video LMMs natifs et autres méthodes RAG).
- Sur la tâche de recherche (Search), ForeSea améliore la précision de manière significative par rapport aux modèles natifs, prouvant l'efficacité de l'indexation centrée sur la personne.
- Robustesse Multimodale : Contrairement aux autres modèles dont la précision chute lors du passage du texte seul à l'image+texte, ForeSea maintient une performance stable (>65 %) dans les deux conditions.
- Localisation Temporelle : ForeSea obtient un IoU nettement supérieur (13,6 %) comparé aux modèles RAG existants (2,8 % - 4,9 %), indiquant une meilleure capacité à localiser les événements dans le temps.
Efficacité et Latence :
- ForeSea est plus rapide que les approches RAG précédentes (2,6 s de latence totale contre 5,2 à 7,6 s) car il ne traite qu'un sous-ensemble de clips pertinents plutôt que la vidéo entière.
- Il utilise moins de trames d'entrée (budget de trames réduit) tout en maintenant ou dépassant les performances des modèles state-of-the-art.
Généralisation :
- Le modèle se généralise bien aux benchmarks de vidéos longues hors surveillance (LongVideoBench, VideoMME), surpassant des modèles natifs et RAG avec seulement la moitié des trames d'entrée.

5. Signification et Impact

Ce travail marque une avancée significative dans l'analyse forensique vidéo par IA :

Pratique : Il répond à un besoin réel des analystes de sécurité qui doivent souvent rechercher une personne spécifique (avec une photo de référence) et déterminer quand et où elle a effectué une action.
Technique : Il démontre que l'intégration de la récupération d'information (RAG) avec des modèles de langage vidéo (VideoLLM), couplée à un prétraitement centré sur l'identité, est une voie plus efficace que le traitement end-to-end de vidéos longues.
Écosystème : L'introduction de ForeSeaQA comble un vide critique dans l'évaluation des capacités de raisonnement temporel et multimodal des modèles d'IA, offrant une base solide pour les recherches futures en surveillance intelligente.

En résumé, ForeSea établit un nouvel état de l'art pour la recherche forensique vidéo, prouvant que des systèmes spécialisés, combinant récupération ciblée et raisonnement multimodal, peuvent surpasser les modèles génériques massifs en termes de précision, de localisation temporelle et d'efficacité.