VideoTIR: Accurate Understanding for Long Videos with Efficient Tool-Integrated Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Regarder un film entier pour trouver une aiguille dans une botte de foin

Imaginez que vous demandez à un ami (une Intelligence Artificielle) de regarder un film de 2 heures et de lui répondre une question précise, comme : "Quel était le nom du chien qui apparaissait dans la scène du café à 45 minutes ?"

Les modèles d'IA actuels ont souvent deux gros problèmes :

Ils s'endorment : Ils ne peuvent pas tout regarder en détail car c'est trop long. Ils regardent juste quelques images au hasard et inventent des réponses (ce qu'on appelle des "hallucinations").
Ils sont maladroits : S'ils essaient de chercher, ils fouillent partout de manière désordonnée, comme quelqu'un qui chercherait ses clés en retournant toute la maison alors qu'elles sont juste sur la table.

🛠️ La Solution : VideoTIR, le Détective Équipé

Les auteurs proposent VideoTIR. Au lieu de forcer l'IA à "avaler" tout le film d'un coup, ils lui donnent une boîte à outils intelligente et lui apprennent à agir comme un détective privé.

Voici comment cela fonctionne, étape par étape, avec des analogies simples :

1. Le "Router" Textuel : Le Chef d'Orchestre

Imaginez que l'IA est un grand chef d'orchestre. Avant de faire jouer la musique (regarder la vidéo), il lit la partition (la question de l'utilisateur).

Si la question est générale ("De quoi parle ce film ?"), le chef dit : "On regarde le film en accéléré, juste pour avoir une idée globale."
Si la question est précise ("Où est le chien ?"), le chef dit : "Stop ! On ne regarde pas tout. On va zoomer sur la scène du café."

Ce chef utilise des outils internes (pas besoin d'appeler des services externes lourds) :

L'outil "Navigation" : Pour survoler le film rapidement (basse résolution).
L'outil "Recherche de segment" : Pour trouver la minute exacte où le chien apparaît.
L'outil "Zoom" : Pour voir les détails de la scène une fois trouvée.

2. L'Apprentissage par l'Essai et l'Erreur (Reinforcement Learning)

Au début, l'IA est un peu bête. Elle peut appeler l'outil "Zoom" 10 fois de suite alors qu'une seule fois suffisait, ou chercher dans la mauvaise pièce. C'est ce qu'on appelle le sur-usage (trop d'outils) ou le mauvais usage (les mauvais outils).

Pour corriger cela, les chercheurs ont inventé une méthode spéciale appelée TAGPO.

L'analogie du jeu vidéo : Imaginez que vous jouez à un jeu où vous devez trouver un trésor.
- Si vous trouvez le trésor en 3 étapes, vous gagnez des points.
- Si vous trouvez le trésor en 10 étapes (en faisant des allers-retours inutiles), vous gagnez moins de points, même si vous avez trouvé le trésor.
- Si vous cherchez dans le mauvais endroit et ne trouvez rien, vous ne gagnez rien.
TAGPO est le système de points qui apprend à l'IA : "Arrête de faire des allers-retours inutiles, sois efficace !" Il récompense l'IA non pas seulement pour avoir la bonne réponse, mais pour l'avoir trouvée rapidement et avec les bons outils.

3. L'Atelier de Construction (Synthèse de Données)

Le gros problème pour entraîner une telle IA, c'est qu'il n'existe pas de livres d'instructions disant : "Pour cette question, il faut d'abord utiliser l'outil A, puis l'outil B".

Les chercheurs ont donc construit un atelier de simulation (un "bac à sable").

Ils ont pris des milliers de questions et de vidéos.
Ils ont utilisé une autre IA très puissante pour imaginer le "chemin de pensée" idéal : "Ah, pour répondre à ça, je devrais d'abord chercher la scène, puis zoomer...".
Ils ont créé des milliers d'exemples de "bonnes recherches" pour apprendre à l'IA comment utiliser ses outils avant même de commencer le vrai entraînement.

🏆 Le Résultat : Plus Vite, Plus Juste

Grâce à cette méthode, VideoTIR réussit à :

Comprendre des vidéos très longues (de quelques minutes à plusieurs heures) sans se perdre.
Éviter les hallucinations en allant chercher les preuves visuelles réelles au lieu d'inventer.
Être efficace : Il ne perd pas de temps à regarder des scènes inutiles.

En résumé :
VideoTIR ne force pas l'IA à tout regarder d'un coup. Il lui donne une boîte à outils, lui apprend à choisir le bon outil au bon moment grâce à un système de récompenses intelligent, et l'entraîne dans un laboratoire virtuel avant de la lancer sur de vraies vidéos. C'est comme passer d'un étudiant qui lit tout un livre au hasard à un détective qui sait exactement où chercher la preuve.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) actuels rencontrent des difficultés majeures dans la compréhension de vidéos longues (LVU - Long Video Understanding), se traduisant souvent par des hallucinations. Ces erreurs proviennent principalement de deux facteurs :

Déséquilibre des tokens : Il existe un déséquilibre massif entre le nombre de tokens visuels (énorme pour une vidéo longue) et les tokens textuels, ce qui submerge le modèle.
Limites des approches existantes :
- Les méthodes non-TIR (Tool-Integrated Reasoning) sélectionnent des images de manière statique avant le raisonnement, manquant d'adaptabilité.
- Les méthodes TIR existantes reposent soit sur des outils externes lourds (complexes et peu généralisables), soit sur des mécanismes internes légers (comme la prédiction de timestamps) qui souffrent d'un manque de précision dans la localisation spatio-temporelle fine.
- L'utilisation de l'apprentissage par renforcement (RL) avec des outils simples conduit souvent à une mauvaise utilisation (misuse) ou à une surutilisation (overuse) des outils, ralentissant la convergence et dégradant l'efficacité.

2. Méthodologie : VideoTIR

Les auteurs proposent VideoTIR, un cadre de raisonnement intégré aux outils (Tool-Integrated Reasoning) qui utilise un apprentissage par renforcement (RL) pour orchestrer dynamiquement une boîte à outils interne hiérarchique.

A. Architecture et Boîte à Outils Hiérarchique

Le système fonctionne par interactions multi-tours. Au lieu de traiter la vidéo en une seule passe, le modèle adopte une approche "du grossier au fin" :

Routage Textuel (Textual Router) : Un module qui analyse la question et le contexte visuel actuel pour décider si une réponse est possible ou si des outils doivent être invoqués.
Outils Globaux (Global Tools) :
- Outil de Navigation (Browsing Tool) : Augmente progressivement la résolution et le taux d'images par seconde (FPS) pour obtenir une compréhension globale de la vidéo lorsque les informations initiales sont insuffisantes.
Outils Locaux (Local Tools) : Une chaîne de récupération fine pour les requêtes spécifiques :
- Segment Retriever : Localise des segments temporels pertinents via similarité de tokens.
- Frame Retriever : Extrait les images clés d'un segment.
- Zoom-in Retriever : Recadre une zone spécifique d'une image pour obtenir des détails spatiaux.

B. Optimisation par Renforcement : TAGPO

Pour résoudre les problèmes de surutilisation et de mauvaise utilisation des outils lors de l'entraînement RL, les auteurs introduisent TAGPO (Toolkit Action Grouped Policy Optimization).

Récompense par étape (Stepwise Reward) : Contrairement aux méthodes GRPO classiques qui attribuent une récompense globale à la fin de l'épisode, TAGPO attribue des récompenses à chaque invocation d'outil.
Mécanisme de pénalisation :
- Surutilisation : Si un outil est appelé de manière redondante dans une trajectoire réussie, l'appel supplémentaire reçoit une récompense décroissante (via un coefficient de décay $\gamma$ ), pénalisant ainsi l'inaction inutile.
- Mauvaise utilisation : Si une trajectoire échoue, les appels d'outils qui répètent des expériences passées infructueuses reçoivent un avantage nul, encourageant l'exploration de nouvelles combinaisons d'outils.
Calcul de l'avantage : L'avantage est calculé par groupe d'outils similaires, normalisant les récompenses pour favoriser les appels concis et pertinents.

C. Synthèse de Trajectoires (Data Synthesis)

Pour pallier le manque de données d'entraînement de haute qualité (trajectoires d'appels d'outils), les auteurs développent un cadre de synthèse basé sur un bac à sable (sandbox) :

Utilisation d'un MLLM externe (ex: GLM-4.5V) pour générer des paires Question-Réponse et prédire des séquences d'appels d'outils plausibles.
Simulation dans un environnement sandbox pour générer des retours d'environnement et des trajectoires intermédiaires.
Jugement par un LLM pour filtrer et sélectionner uniquement les trajectoires rationnelles et concises.
Ces données servent de démarrage à froid (Cold-start) par SFT (Supervised Fine-Tuning) avant l'entraînement RL, permettant au modèle d'apprendre à suivre les instructions de formatage complexes.

3. Contributions Clés

Agent Multi-Outils pour la LVU : Proposition d'un cadre multi-tours utilisant des outils internes hiérarchiques (globaux et locaux) pour une récupération adaptative d'informations visuelles.
RL Conscient de l'Invocation (TAGPO) : Un nouvel algorithme d'optimisation qui améliore l'efficacité de l'utilisation des outils en attribuant des récompenses fines par étape, réduisant ainsi la redondance et accélérant la convergence.
Synthèse de Trajectoires Multi-Outils : Développement d'un pipeline open-source pour générer automatiquement des données d'entraînement de haute qualité (trajectoires d'appels d'outils), crucial pour le démarrage à froid des agents RL.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois benchmarks majeurs : MVBench, Video-MME et LongVideoBench, en utilisant des modèles de base Qwen2.5-VL (3B et 7B).

Performance Globale : VideoTIR surpasse le modèle de base Qwen2.5-VL-7B et d'autres méthodes de pointe (comme VideoMTR, LongVT-RL), même avec des résolutions d'entrée plus faibles (8 frames vs 16-128 frames pour les concurrents).
Efficacité sur les Vidéos Longues : Le modèle montre une amélioration significative sur les vidéos longues, là où les méthodes par échantillonnage fixe échouent souvent à capturer les dépendances temporelles.
Analyse Ablative :
- TAGPO vs GRPO : TAGPO atteint une précision de validation plus élevée (24.6% vs 21.1% sur un test précoce) et accélère l'apprentissage des outils valides de près de 50%.
- SFT Cold-Start : L'utilisation de trajectoires synthétisées permet au modèle 3B de suivre correctement les instructions de formatage, ce qui est impossible en Zero-RL pur pour cette taille de modèle.
- Routage : Le routage textuel sélectionne correctement les chaînes d'outils (Navigation pour les résumés globaux, Récupération pour la reconnaissance d'objets).

5. Signification et Impact

Ce travail marque une avancée significative dans la compréhension des vidéos longues en démontrant que :

L'intégration d'outils internes légers et hiérarchisés est plus efficace que les pipelines externes lourds ou l'échantillonnage statique.
L'apprentissage par renforcement, lorsqu'il est guidé par des récompenses fines (TAGPO) et un démarrage à froid par synthèse de données, peut apprendre des stratégies de raisonnement complexes et économes en calcul.
La méthode permet de réduire la charge computationnelle (moins de tokens visuels traités inutilement) tout en augmentant la précision, rendant la compréhension de vidéos longues plus accessible et robuste pour les modèles multimodaux.