LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Ce papier présente LLandMark, un cadre multi-agents modulaire conçu pour la recherche interactive de vidéos multimodales axée sur les repères, qui intègre une analyse sémantique avancée, une reconnaissance de texte et une génération autonome de requêtes visuelles pour améliorer la précision des recherches dans des contextes vietnamiens complexes.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous cherchez une aiguille dans une botte de foin, mais que cette botte de foin est en réalité un océan de vidéos de 250 Go, rempli de millions de secondes d'images et de sons. C'est le défi que relève LLandMark, un nouveau système intelligent présenté dans cet article.

Voici une explication simple de comment cela fonctionne, en utilisant des analogies du quotidien.

1. Le Problème : Chercher sans carte

Dans le passé, pour trouver une vidéo spécifique (par exemple, "Montrez-moi la scène où le maire parle devant la cathédrale Saint-Joseph à Hanoï"), les ordinateurs étaient comme des bibliothécaires un peu perdus. Ils ne comprenaient pas bien le contexte culturel, ils lisaient mal les textes écrits à l'écran (surtout en vietnamien avec ses accents complexes), et ils ne savaient pas que "Saint-Joseph" n'est pas juste un mot, mais un bâtiment avec deux tours spécifiques.

2. La Solution : Une équipe de détectives (LLandMark)

Au lieu d'avoir un seul robot qui essaie de tout faire, LLandMark fonctionne comme une équipe de détectives spécialisés qui travaillent ensemble. C'est un système "multi-agent". Voici les membres de l'équipe :

  • Le Chef d'Orchestre (Planificateur) : C'est lui qui reçoit votre demande. Si vous dites "Je veux voir le marché Ben Thanh", il ne cherche pas juste le mot "marché". Il dit : "Attends, c'est un lieu célèbre ! Il faut qu'on cherche des images de ce marché précis, qu'on vérifie les sous-titres, et qu'on écoute la bande-son." Il crée un plan de recherche sur mesure.
  • L'Expert Culturel (Agent des Lieux) : C'est le super-héros du système. Si vous mentionnez un monument vietnamien, il ne se contente pas du nom. Il le transforme en une description visuelle détaillée pour l'ordinateur.
    • Analogie : Au lieu de dire "Cherche Saint-Joseph", il dit au système : "Cherche un bâtiment avec deux tours carrées, en pierre grise, style gothique, avec une façade néo-gothique." Cela aide l'ordinateur à reconnaître le bâtiment même s'il ne connaît pas le nom par cœur.
  • Le Traducteur et Correcteur (Module OCR) : Les vidéos ont souvent du texte écrit dessus. Les vieux systèmes lisaient mal le vietnamien (ils confondaient les accents, transformant "Hà Nội" en "Ha Noi" ou pire). Ce module utilise une intelligence artificielle très puissante (Gemini) pour "nettoyer" le texte, remettre les accents manquants et corriger les erreurs, comme un professeur de langue qui relit votre devoir avant de le rendre.
  • Le Détective Visuel (Recherche Image-à-Image) : C'est la partie la plus magique. Si vous cherchez un lieu, le système va d'abord chercher sur Internet de belles photos de ce lieu. Ensuite, il utilise ces photos comme "modèles" pour fouiller dans la base de données vidéo.
    • Analogie : C'est comme si vous montriez une photo de votre ami à un policier pour qu'il le retrouve dans une foule, au lieu de lui donner juste son nom.

3. Comment tout s'assemble ?

Quand vous posez une question, voici ce qui se passe en quelques secondes :

  1. Analyse : L'équipe décortique votre demande.
  2. Recherche Parallèle : Tous les détectives travaillent en même temps. L'un cherche le texte, l'autre le son, un autre compare les images de monuments, et un autre cherche des objets spécifiques (comme "une voiture rouge").
  3. Synthèse : Un dernier agent rassemble toutes ces preuves. Il ne se contente pas de donner une liste de vidéos ; il vous dit : "Voici la vidéo, voici le moment exact, et voici pourquoi c'est la bonne réponse (regardez, on voit bien les tours de la cathédrale et on entend le mot 'Hanoï' dans le son)."

4. Pourquoi c'est génial ?

Ce système a été testé lors d'un grand concours (HCMAIC 2025) et s'est classé parmi les meilleurs.

  • Il comprend la culture : Il sait que les lieux vietnamiens ont une apparence spécifique.
  • Il est précis : Il ne se trompe pas sur les accents vietnamiens.
  • Il est transparent : Vous pouvez voir comment le système a raisonné, comme si vous regardiez par-dessus l'épaule du détective.

En résumé : LLandMark est comme un guide touristique ultra-intelligent et infatigable qui possède une carte détaillée de tout le Vietnam, sait lire parfaitement les panneaux de rue, et peut vous montrer exactement le moment où vous avez besoin de voir, même si vous ne vous souvenez que d'une vague idée de ce que vous cherchez.