PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Ce papier présente PerceptionComp, un nouveau benchmark entièrement annoté à la main composé de 1 114 questions complexes sur 279 vidéos, conçu pour évaluer et révéler les limites actuelles des modèles multimodaux dans le raisonnement visuel à long terme nécessitant une intégration temporelle et spatiale de multiples indices perceptifs.

Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna

Publié 2026-03-30
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎬 PerceptionComp : Le "Grand Oral" de la Vision par Ordinateur

Imaginez que vous êtes un détective privé. On vous donne une vidéo de 10 minutes d'une rue très animée. On vous pose une question piège :

"Quelle était la couleur du gilet du cycliste qui passait juste à côté du camion de nourriture jaune, au moment précis où la personne avec les clés d'appartement les a fait tomber, juste après avoir croisé le magasin avec le cube de verre géant ?"

Pour répondre, vous ne pouvez pas juste regarder la vidéo une fois en vitesse. Vous devez :

  1. Trouver le cube de verre.
  2. Repérer les deux camions de nourriture.
  3. Repérer le moment où les clés tombent.
  4. Relier tous ces événements dans le temps et l'espace.
  5. Enfin, trouver le cycliste et sa couleur de gilet.

C'est exactement ce que PerceptionComp teste. C'est un nouveau "terrain de jeu" (un benchmark) créé par des chercheurs pour voir si les intelligences artificielles (IA) sont capables de faire ce genre de déduction complexe, ou si elles se contentent de deviner.

🧩 Le Problème : Les IA sont de bonnes "éponges", mais de mauvaises "détectives"

Jusqu'à présent, les tests pour les IA vidéo étaient un peu comme des quiz de culture générale faciles :

  • Les anciens tests : On montrait une vidéo simple (un chat qui saute) et on demandait "Quel animal est-ce ?". L'IA répondait "Chat" en 1 seconde. C'était trop facile.
  • Les autres tests : Ils demandaient de la logique pure (résoudre un labyrinthe), mais les images étaient trop simples, comme des dessins animés.

Le vrai monde, c'est comme une foule dans un métro : il y a du mouvement, des objets qui se cachent, des changements de lieu. Les IA actuelles ont du mal à re-regarder la vidéo pour trouver des indices cachés. Elles essaient souvent de répondre d'un coup, sans revenir en arrière.

🛠️ La Solution : PerceptionComp

Les chercheurs ont créé PerceptionComp pour forcer les IA à faire un vrai travail de détective.

  • C'est un manuel : Chaque question a été écrite à la main par des humains experts.
  • C'est complexe : Les vidéos sont choisies pour être "encombrées" (beaucoup de gens, beaucoup de mouvements).
  • La règle d'or : Pour répondre, l'IA doit revenir en arrière dans la vidéo. Une seule vue ne suffit jamais. C'est comme chercher une aiguille dans une botte de foin, mais l'aiguille change de place toutes les 30 secondes.

📊 Les Résultats : Les Humains gagnent, les IA s'essoufflent

Les chercheurs ont mis les IA et des humains au défi. Voici ce qu'ils ont découvert :

  1. Les Humains (avec le droit de revoir la vidéo) : Ils obtiennent 100 % de réussite. S'ils ont le temps de revenir en arrière, ils trouvent toujours la réponse.
  2. Les Humains (une seule vue) : Si on leur interdit de revoir la vidéo, leur score chute à 19 %. Cela prouve que la question est vraiment difficile et qu'on ne peut pas la deviner.
  3. Les IA (les plus puissantes du monde) : Même les modèles les plus avancés (comme Gemini ou GPT-o3) ne réussissent qu'environ 45 % des cas.
    • C'est comme si un élève brillant ratait la moitié des questions d'un examen de logique visuelle, même s'il a le droit de réfléchir longtemps.

🔍 Pourquoi les IA échouent-elles ?

L'article explique que les IA ont deux faiblesses majeures ici :

  • La perte de fil : Imaginez que vous essayez de retenir une liste de 5 ingrédients en cuisinant, mais que vous devez aller chercher chaque ingrédient dans une pièce différente de la maison. Les IA oublient souvent le premier ingrédient avant d'arriver au cinquième. Elles perdent le fil de l'histoire.
  • La confusion spatiale : Elles ont du mal à dire "à gauche de", "derrière", ou "au moment où". Elles voient les objets, mais ne comprennent pas bien comment ils se relaient dans le temps et l'espace.

💡 La Conclusion : Il faut plus de "réflexion" et de "regard"

Le papier montre que pour que les IA deviennent vraiment intelligentes avec les vidéos, il ne suffit pas de leur donner plus de puissance de calcul. Il faut qu'elles apprennent à :

  1. Re-regarder la vidéo (comme un humain qui relit un texte pour comprendre).
  2. Relier les points entre différents moments de la vidéo.

En résumé : PerceptionComp est comme un examen de conduite très difficile. Jusqu'à présent, les IA savaient juste conduire tout droit sur une route vide. Maintenant, on leur demande de conduire dans une ville bondée, de se souvenir d'un panneau vu il y a 2 minutes, et de prédire où va passer un piéton. C'est là que ça coince, et ce test va aider les chercheurs à améliorer les IA pour qu'elles deviennent de véritables "yeux" intelligents pour le futur.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →