TrajTok: Learning Trajectory Tokens enables better Video Understanding

Le papier présente TrajTok, un module de tokenisation vidéo intégré et entraîné de bout en bout qui remplace les pipelines de suivi complexes par un regroupement implicite spatio-temporel pour générer des trajectoires adaptatives, améliorant ainsi l'efficacité et les performances des modèles de compréhension vidéo à long terme.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang, Weikai Huang, Ashutosh Kumar, Quan Kong, Oncel Tuzel, Chun-Liang Li, Ranjay Krishna

Publié 2026-02-27
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de décrire un film à un ami, mais au lieu de lui raconter l'histoire, vous lui donnez une liste de millions de petits carrés de pixels, un par un, en disant : « Voici un pixel rouge, voici un pixel bleu, voici un pixel vert... ». C'est fastidieux, inefficace et cela perd l'essentiel de l'histoire.

C'est exactement le problème que rencontrent les intelligences artificielles (IA) actuelles lorsqu'elles regardent des vidéos. Elles découpent l'image en une grille rigide de millions de petits morceaux (des "patchs"), ce qui crée une énorme quantité de données redondantes.

Voici comment TrajTok change la donne, expliqué simplement :

1. Le Problème : La Grille Rigide

Pensez à une vidéo comme à une boîte de Lego. Les méthodes actuelles prennent la vidéo et la découpent en milliers de petits cubes de Lego de taille fixe, peu importe ce qui se passe à l'intérieur.

  • Si un personnage bouge, l'IA doit traiter des milliers de cubes pour suivre ce mouvement.
  • Si le fond est statique, l'IA traite quand même des milliers de cubes pour rien.
    C'est comme essayer de compter les grains de sable d'une plage pour savoir s'il y a un château de sable : c'est trop lent et trop précis pour le but recherché.

2. La Solution : TrajTok (Le "Suiveur de Scène")

Les chercheurs ont créé TrajTok, un nouveau système qui ne regarde pas les pixels individuels, mais qui suit les trajectoires des objets.

Imaginez que vous êtes un réalisateur de cinéma. Au lieu de vous soucier de chaque grain de poussière dans l'air, vous suivez les acteurs.

  • L'analogie du chef d'orchestre : TrajTok est comme un chef d'orchestre intelligent. Au lieu de demander à chaque musicien (pixel) de jouer une note séparée, il regroupe les violons, les cuivres et les percussions en sections. Il dit : « Le violoncelle (l'objet) se déplace de gauche à droite. Je vais créer un seul "jeton" (une note) qui représente tout ce mouvement. »

3. Comment ça marche ? (La Magie)

Dans les anciennes méthodes, pour suivre un objet, il fallait utiliser un logiciel externe, lent et rigide, comme un détective qui doit vérifier chaque pièce de l'enquête séparément.

TrajTok, lui, est autonome et apprenant :

  • Il apprend en regardant : Il est entraîné en même temps que le reste de l'IA. Il apprend tout seul à dire : « Tiens, ce groupe de pixels bouge ensemble, c'est un chien. Ce groupe là-bas, c'est un arbre. »
  • Il s'adapte : Si la scène est simple (un seul oiseau qui vole), il utilise peu de "jetons". Si la scène est complexe (une foule qui court), il en crée plus. Il ne gaspille pas d'énergie sur le vide.
  • Il est rapide : Au lieu de faire des calculs lourds pour dessiner les contours parfaits de chaque objet (comme un dessinateur de précision), il se concentre sur le sens global. C'est comme si vous reconnaissiez un ami par sa silhouette et sa démarche, sans avoir besoin de compter ses cils.

4. Les Résultats Concrets

Grâce à cette approche, l'IA devient :

  • Plus rapide : Elle traite moins de données, donc elle répond plus vite.
  • Plus intelligente : Elle comprend mieux les vidéos longues et complexes, car elle suit l'histoire des objets plutôt que de se perdre dans les détails inutiles.
  • Plus polyvalente : Ce système fonctionne aussi bien pour classer des vidéos, répondre à des questions sur un film, ou aider une IA à "voir" et "parler" en même temps.

En résumé

Si les anciennes méthodes d'IA regardaient une vidéo comme un mosaïque de millions de petits carreaux, TrajTok la regarde comme un film où les personnages et leurs mouvements sont les héros.

C'est un pas de géant vers des IA qui comprennent le monde visuel de la même manière que nous : en suivant les histoires et les mouvements, et non en comptant les pixels.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →