ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search

Ce papier présente ShotFinder, un benchmark et une méthode de pipeline à trois étapes pour la recherche de plans vidéo en domaine ouvert, qui révèlent les limites actuelles des modèles multimodaux face à des contraintes complexes telles que la couleur et le style visuel.

Tao Yu, Haopeng Jin, Hao Wang, Shenghua Chai, Yujia Yang, Junhao Gong, Jiaming Guo, Minghui Zhang, Xinlong Chen, Zhenghao Zhang, Yuxuan Zhou, Yufei Xiong, Shanbin Zhang, Jiabing Yang, Hongzhu Yi, Xinming Wang, Cheng Zhong, Xiao Ma, Zhang Zhang, Yan Huang, Liang Wang

Publié 2026-02-17
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 ShotFinder : Le "Chercheur de Scènes" qui rêve avant de chercher

Imaginez que vous êtes un monteur vidéo. Vous avez une idée précise en tête : "Je veux cette scène où une femme aux longs cheveux, penchée sur une table, sourit doucement, avec une lumière dorée et une musique de jazz en fond."

Aujourd'hui, si vous cherchez cette scène sur YouTube ou Google, c'est comme essayer de trouver une aiguille dans une botte de foin... mais la botte de foin est un océan, et l'aiguille est cachée dans un autre océan. Les moteurs de recherche actuels sont très forts pour trouver des mots, mais ils sont souvent perdus quand il s'agit de comprendre une ambiance, un style ou un moment précis dans une vidéo.

C'est là que l'équipe de recherche (du CASIA, de l'UCAS, de Lenovo, etc.) a créé ShotFinder.

1. Le Problème : Le "Trou" dans la Mémoire

Les chercheurs ont réalisé que les intelligences artificielles (les modèles de langage) sont excellentes pour lire des textes ou regarder des photos fixes. Mais dès qu'il faut naviguer dans le temps d'une vidéo (trouver exactement à quelle seconde commence la scène), c'est le chaos.

C'est comme si vous demandiez à un ami de vous trouver une vidéo, mais que vous ne lui donniez que le titre du film, sans lui dire à quel moment précis se passe l'action. Il risque de vous envoyer le film entier, ou pire, un film qui ressemble un peu mais qui n'est pas le bon.

2. La Solution : Un Nouveau Terrain de Jeu (Le Benchmark)

Pour résoudre ce problème, ils ont créé ShotFinder, qui est en réalité deux choses :

  • Un test de niveau (Benchmark) : C'est un examen de 1 210 questions. Chaque question est une description précise d'une scène (un "plan") avec des contraintes (ex: "il faut que ce soit en 4K", "il faut que la couleur soit chaude", "il faut que ce soit après une scène de pluie").
  • Une méthode intelligente : Une façon nouvelle pour l'IA de chercher.

L'analogie du "Rêveur" :
Au lieu de chercher bêtement des mots-clés, ShotFinder demande à l'IA de faire un petit "rêve" (Imagination).

  • Question : "Trouve-moi une femme qui rit à une table."
  • IA classique : Cherche "femme table rire". (Résultat : Des milliers de vidéos de dîners, de pubs, de films, mais pas forcément la bonne ambiance).
  • IA ShotFinder : Se dit : "Attends, si une femme rit à une table comme ça, c'est probablement dans une scène de comédie romantique, ou peut-être une vidéo de voyage en Italie. Je vais imaginer le contexte du film entier avant de chercher."
    Ensuite, elle cherche le film (la vidéo complète) et, une fois le film trouvé, elle scanne minutieusement chaque seconde pour trouver exactement le moment où la femme rit.

3. Les 5 Défis (Les "Contraintes")

Pour tester si l'IA est vraiment douée, ShotFinder lui lance 5 types de défis, comme des niveaux dans un jeu vidéo :

  1. Le Temps : "Trouve la scène qui arrive juste après un gros plan sur un visage." (Comme trouver la suite d'une histoire).
  2. La Couleur : "Trouve une scène où tout est baigné dans une lumière orange et chaleureuse." (L'IA doit "sentir" la couleur, pas juste lire le mot).
  3. Le Style : "Trouve une scène qui ressemble à un dessin animé 2D, pas à un vrai film."
  4. Le Son : "Trouve une scène où l'on entend un rire d'enfant en fond."
  5. La Qualité : "Trouve une scène en haute définition (1080p), pas floue."

4. Les Résultats : L'IA est encore un "Élève"

Les chercheurs ont fait passer l'examen à plusieurs IA célèbres (comme GPT-4, Gemini, Claude, etc.) et les ont comparées à des humains.

  • Le verdict : Les humains gagnent haut la main (environ 88% de réussite). Les meilleures IA actuelles ne réussissent qu'environ 25 à 27% des cas.
  • Ce qui est facile : Trouver le bon moment dans le temps (le "quand") est relativement simple pour les IA.
  • Ce qui est dur : Reconnaître une couleur spécifique ou un style artistique (comme "style anime") reste un cauchemar pour elles. C'est comme si l'IA savait lire le scénario, mais ne voyait pas les couleurs du décor.

5. Pourquoi c'est important ?

Aujourd'hui, si vous voulez monter une vidéo, vous devez regarder des heures de rushs pour trouver la bonne image. Avec ShotFinder, l'objectif est de créer un "assistant de montage" magique. Vous lui dites : "Je veux cette scène de lion qui regarde l'horizon avec une lumière dorée", et il vous sort le lien exact de la vidéo et la seconde précise, tout de suite.

En résumé :
ShotFinder est un nouveau défi lancé aux intelligences artificielles pour leur apprendre à comprendre le cinéma comme un humain, et pas juste à lire des étiquettes. C'est un pas de géant vers un futur où vous pourrez dire à votre ordinateur : "Monte-moi un film sur l'été, avec des couleurs chaudes et de la musique joyeuse", et il le fera tout seul en cherchant les meilleurs plans sur internet.

Pour l'instant, l'IA est encore un peu comme un étudiant brillant mais distrait : elle comprend le texte, mais elle a encore du mal à "voir" et à "ressentir" la vidéo.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →