Spatial Causal Prediction in Video

Cet article introduit la prédiction causale spatiale (SCP) et le benchmark SCP-Bench pour évaluer la capacité des modèles à inférer des états spatiaux non observés, révélant ainsi d'importantes lacunes par rapport aux performances humaines et proposant des stratégies pour améliorer l'intelligence causale spatiale.

Yanguang Zhao, Jie Yang, Shengqiong Wu, Shutong Hu, Hongbo Qiu, Yu Wang, Guijia Zhang, Tan Kai Ze, Hao Fei, Chia-Wen Lin, Mong-Li Lee, Wynne Hsu

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 SCP : Le Grand Test de "Prédiction de l'Invisible" pour les IA

Imaginez que vous regardez un film. Soudain, l'écran se fige au moment où un joueur de basket saute pour tirer.

  • La question classique pour une IA : "Que tient-il dans sa main ?" (Réponse facile : un ballon).
  • La question du nouveau test SCP : "Où va atterrir le ballon une fois qu'il aura touché le panier, et comment va rebondir le joueur ?"

C'est exactement ce que les chercheurs de l'Université Nationale de Singapour (et d'autres) ont voulu tester. Ils ont créé un nouveau défi pour les intelligences artificielles (IA) qui regardent des vidéos : ne pas seulement voir ce qui est là, mais comprendre ce qui va arriver.

🧠 Le Concept : La Différence entre "Regarder" et "Comprendre"

Pensez à deux types de spectateurs :

  1. Le Spectateur "Caméra" (Les IA actuelles) : Il voit tout ce qui est devant lui. S'il voit une pomme tomber, il dit "La pomme est en l'air". Mais si on lui demande "Où va-t-elle atterrir ?", il panique. Il ne comprend pas la gravité, ni la vitesse.
  2. Le Spectateur "Humain" (Nous) : Nous avons une "boîte à outils" mentale. Nous savons que si on lâche une pomme, elle tombe. Si on pousse une voiture, elle avance. Nous pouvons imaginer le futur ou reconstituer le passé même si nous n'avons pas vu la scène en entier.

Les chercheurs appellent cela le raisonnement spatial causal. C'est la capacité de dire : "À cause de ce que je vois maintenant, je sais ce qui va se passer plus tard."

🏗️ Le Nouveau Terrain de Jeu : SCP-Bench

Pour tester cette capacité, ils ont construit un immense gymnase virtuel appelé SCP-Bench.

  • Le contenu : 1 181 vidéos (de la cuisine aux voitures, en passant par le sport).
  • Le défi : 2 500 questions.
  • La règle d'or : L'IA ne voit qu'une partie de la vidéo (le "présent"). Elle doit deviner ce qui se passe dans la partie cachée (le "futur" ou le "passé").

C'est comme si on donnait à l'IA une photo d'un gâteau en train de cuire, et qu'on lui demandait : "À quoi va ressembler le gâteau une fois sorti du four ?"

📉 Les Résultats : Les IA sont encore des "Nouveaux-Nés"

Les chercheurs ont mis 23 des meilleures IA du monde (comme GPT-5, Gemini, etc.) à l'épreuve. Le verdict est sans appel : elles sont loin d'être prêtes.

  1. L'écart est énorme : Les humains réussissent environ 90% des questions. Les meilleures IA tournent autour de 60%. C'est comme si un enfant de 5 ans essayait de battre un champion d'échecs.
  2. Elles sont "myopes" : Les IA excellent quand on leur demande de décrire ce qu'elles voient (ex: "Combien de joueurs ?"). Mais dès qu'il faut prédire un mouvement futur (ex: "Qui va attraper le ballon ?"), elles échouent.
  3. Le problème de la physique : Les IA n'ont pas de "sens commun" physique. Elles peuvent voir une balle rouler, mais elles ne comprennent pas toujours pourquoi elle s'arrête ou comment elle va rebondir. Elles devinent souvent au hasard.

🔍 Pourquoi échouent-elles ? (L'Autopsie)

Les chercheurs ont fait des expériences pour comprendre pourquoi :

  • Elles ne "pensent" pas vraiment : Même si on leur demande de "réfléchir étape par étape" (comme un humain), elles ne font souvent que répéter ce qu'elles ont vu, sans vraiment simuler la suite.
  • Elles oublient le temps : Une IA regarde souvent une vidéo comme une suite de photos déconnectées. Elle ne sent pas le flux du temps ni la continuité du mouvement.
  • Le texte ne suffit pas : Si on enlève la vidéo et qu'on ne donne que le texte ("Un homme court"), l'IA perd encore plus. Elle a besoin de voir pour comprendre la dynamique, mais elle ne sait pas encore bien l'interpréter.

🚀 Comment les aider à progresser ?

Alors, comment rendre ces IA plus intelligentes ? Les chercheurs ont testé plusieurs recettes :

  • Les faire grandir (Plus de paramètres) : Comme un enfant qui grandit, plus l'IA est grosse, mieux elle se débrouille. Mais ce n'est pas une solution magique.
  • Donner des indices (Les "échafaudages") : C'est la découverte la plus intéressante. Si on donne à l'IA une description textuelle de ce qui va se passer (ex: "Le ballon va toucher le panier et rebondir à gauche"), elle réussit beaucoup mieux !
    • Analogie : C'est comme si on donnait à un élève la réponse d'un exercice de maths, mais en lui demandant de trouver la méthode pour y arriver. L'IA comprend mieux le "pourquoi" quand on lui donne le "quoi" à l'avance.

💡 En Résumé

Cette étude nous dit une chose importante : Nos IA sont de très bons dessinateurs, mais de mauvais physiciens.

Elles peuvent décrire une scène avec précision, mais elles ne comprennent pas encore les lois de l'univers (la gravité, l'inertie, la cause et l'effet) qui régissent les mouvements. Pour qu'une voiture autonome ou un robot puisse vraiment naviguer dans notre monde, il ne suffit pas qu'il "voie" ; il doit pouvoir prédire l'avenir. Le test SCP-Bench est la première boussole pour nous montrer combien de chemin il reste à parcourir avant d'atteindre cet objectif.