VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Cinéaste qui Rêve

Imaginez que vous demandez à un expert du cinéma (une Intelligence Artificielle) : "Quelle est la couleur du chapeau du cow-boy qui se fait tirer dessus à la 12e seconde ?"

Souvent, ces IA actuelles agissent comme un rêveur éveillé. Elles connaissent très bien les histoires de western, elles savent que les cow-boys portent souvent des chapeaux, et elles devinent la réponse en se basant sur ce qu'elles ont lu dans des livres. Mais elles ne regardent pas vraiment la vidéo. Elles inventent des détails (des "hallucinations") parce qu'elles sont trop pressées de répondre.

D'autres méthodes essaient de les aider en leur donnant des outils externes (comme une loupe ou un ciseau pour couper la vidéo). C'est efficace, mais c'est lourd et lent. C'est comme demander à un chef de cuisine de s'arrêter à chaque étape pour appeler un fournisseur extérieur pour vérifier s'il a les bons ingrédients.

🏋️ La Solution : VISIONCOACH, le "Coach Visuel"

Les auteurs de ce papier proposent VISIONCOACH. Imaginez un entraîneur personnel (un coach) très intelligent qui travaille avec un athlète (l'IA) uniquement pendant l'entraînement, pour qu'il devienne autonome ensuite.

Voici comment ça marche, étape par étape :

1. Le Repérage des Difficultés (Le "VP-Selector")

L'IA s'entraîne sur des milliers de vidéos. Parfois, elle répond bien, parfois elle se trompe.

L'idée : Le coach détecte quand l'IA est en difficulté (quand elle répond mal).
L'action : Au lieu de laisser l'IA se débrouiller seule, le coach lui montre un indice visuel sur l'image.
- Analogie : C'est comme si le coach dessinait un cercle rouge autour du cow-boy, ou assombrissait le fond pour que l'IA ne regarde que le personnage, ou ajoutait un numéro sur la frame pour dire "regarde ici à ce moment précis".

2. L'Entraînement avec le Coach (Le "RL" et la "Distillation")

C'est ici que la magie opère.

Phase d'entraînement : Quand l'IA voit la vidéo avec le cercle rouge ou l'assombrissement, elle comprend beaucoup mieux la réponse. Elle reçoit des félicitations (récompenses) pour avoir bien observé.
L'astuce (Auto-distillation) : Le but n'est pas que l'IA dépende du coach pour toujours. Le coach lui dit : "Regarde, quand je t'ai montré le cercle rouge, tu as eu la bonne réponse. Maintenant, essaie de faire pareil sans que je te montre le cercle."
L'IA apprend à internaliser cette habitude. Elle intègre la capacité de se concentrer sur les bons détails, même quand le coach (les indices visuels) n'est plus là.

3. Le Résultat : Un Athlète Autonome

Une fois l'entraînement terminé, l'IA passe l'examen (l'inférence).

Avant : Elle regardait la vidéo en "mode rêve" (hallucinations) ou utilisait des outils lourds (lenteur).
Maintenant : Elle regarde la vidéo brute, sans aucun outil externe, sans cercle rouge, sans coach. Mais grâce à son entraînement, elle sait instinctivement où regarder (dans l'espace) et quand regarder (dans le temps). Elle est rapide, précise et ne rêve plus.

🌟 Les Deux Innovations Clés

Pour que ce système fonctionne, les chercheurs ont ajouté deux ingrédients secrets :

Le Coach Adaptatif : Le coach ne met pas toujours le même cercle rouge. Il choisit l'indice le plus adapté à la question.
- Exemple : Si la question porte sur le temps, il ajoute des numéros de trame. Si elle porte sur un objet précis, il l'entoure d'un cercle. C'est comme un coach qui sait exactement quel exercice faire pour corriger votre posture spécifique.
La Récompense "Identité" : Avant, on récompensait l'IA juste si elle trouvait la bonne boîte autour d'un objet. Ici, on lui dit : "Attends, tu as trouvé une boîte, mais est-ce que c'est bien le cow-boy et pas son cheval ?"
- Le système vérifie que l'objet identifié reste le même tout au long de la vidéo. Cela empêche l'IA de confondre les personnages.

🚀 Pourquoi c'est génial ?

Pas de ralentissement : Contrairement aux méthodes qui utilisent des outils externes (qui ralentissent tout), VISIONCOACH est ultra-rapide car il n'utilise rien de spécial au moment de la réponse.
Moins d'erreurs : L'IA ne devine plus, elle "voit" vraiment.
Polyvalent : Ça marche aussi bien pour comprendre une vidéo courte, une longue, ou pour trouver un moment précis dans un film.

En résumé

VISIONCOACH, c'est comme apprendre à un enfant à lire une carte. Au début, vous lui mettez un marqueur sur le chemin (le coach visuel). Vous le félicitez quand il suit le bon chemin. Petit à petit, vous retirez le marqueur. L'enfant a appris à repérer les repères lui-même. À la fin, il peut naviguer seul, rapidement et sans se perdre, même dans un terrain inconnu.

C'est une méthode qui rend les IA plus intelligentes, plus rapides et surtout, plus honnêtes avec ce qu'elles voient vraiment.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le raisonnement vidéo (Video Reasoning) exige que les modèles localisent et suivent des preuves visuelles pertinentes à travers les images d'une vidéo. Bien que l'apprentissage par renforcement (RL) avec des récompenses vérifiables ait amélioré la précision, les modèles actuels peinent à assurer un ancrage spatio-temporel fiable (grounding) durant le processus de raisonnement.

Les approches existantes souffrent de deux limites majeures :

Modèles centrés sur le texte : Ils génèrent souvent des explications hallucinées basées sur des priors linguistiques plutôt que sur des observations visuelles fidèles.
Approches par appel d'outils : Elles améliorent l'ancrage en invoquant des outils de perception externes (ex: recadrage, zoom), mais cela introduit une surcharge computationnelle importante lors de l'inférence et nécessite des pipelines complexes.

De plus, améliorer l'ancrage repose généralement sur l'augmentation massive des données d'entraînement (coûteux en annotation) ou sur l'utilisation d'outils d'inférence (coûteux en calcul). L'objectif est donc de renforcer l'ancrage intrinsèque du modèle sans dépendre d'outils externes lors de l'inférence.

2. Méthodologie : VISIONCOACH

Les auteurs proposent VISIONCOACH, un cadre d'apprentissage par renforcement (RL) adaptatif aux entrées. L'idée centrale est d'utiliser le "prompting visuel" (ajout de repères visuels comme des cercles, des zones sombres, etc.) uniquement pendant l'entraînement pour guider le modèle, puis d'utiliser la distillation de soi (self-distillation) pour internaliser ces capacités, permettant ainsi une inférence directe sur des vidéos brutes sans prompts.

Le framework se compose de deux modules principaux :

A. Visual Prompt Selector (VP-SELECTOR)

Ce module prédit le type de prompt visuel le plus approprié pour une paire (vidéo, question) donnée, en particulier pour les échantillons difficiles.

Construction des données : Un "raisonneur proxy" (modèles puissants comme GPT-4o ou Gemini) est utilisé pour générer des trajectoires de raisonnement avec différents types de prompts visuels. Le prompt optimal est sélectionné en maximisant la précision de la réponse et la qualité de l'ancrage (IoU, correspondance d'objets).
Entraînement : Le VP-SELECTOR est entraîné de manière supervisée (SFT) pour choisir le meilleur prompt parmi un ensemble candidat (cercle rouge, assombrissement, numérotation des images, cartes d'attention, etc.).

B. Spatio-Temporal Reasoner (ST-REASONER)

C'est le modèle principal optimisé via RL (GSPO - Group Sequence Policy Optimization).

Identification des échantillons difficiles : Pour chaque entrée, le modèle effectue plusieurs rollouts initiaux. Si la récompense moyenne est faible (seuil $k$ ), l'échantillon est considéré comme "difficile".
Guidage par Prompt Visuel : Pour les échantillons difficiles, le VP-SELECTOR (figé) prédit un prompt visuel optimal. Ce prompt est appliqué aux images clés, et le modèle génère de nouvelles trajectoires de raisonnement.
Distillation de Soi (Self-Distillation) : Si les trajectoires générées avec le prompt visuel obtiennent une meilleure récompense que les trajectoires initiales, le modèle est entraîné à imiter ces trajectoires améliorées via une fonction de perte de distillation. Cela permet au modèle d'internaliser la capacité à se concentrer sur les régions pertinentes sans avoir besoin du prompt à l'avenir.

C. Conception de la Récompense (Reward Design)

Une innovation clé est la récompense d'ancrage spatial consciente des objets (object-aware spatial grounding reward). Contrairement aux méthodes précédentes qui ne considèrent que la meilleure boîte englobante (IoU max), cette récompense :

Vérifie la cohérence de l'identité de l'objet (correspondance entre le nom de l'objet prédit et la vérité terrain).
Calcule l'IoU moyen sur plusieurs régions prédites, favorisant ainsi un raisonnement multi-objet et évitant les hallucinations d'objets uniques.

3. Contributions Clés

Framework RL Adaptatif : Un système qui utilise le prompting visuel comme un "coach" durant l'entraînement pour guider l'ancrage spatio-temporel, puis supprime cette dépendance à l'inférence grâce à la distillation.
Récompense d'Ancrage Spatial : Une nouvelle fonction de récompense qui impose la cohérence de l'identité des objets et l'alignement multi-régions, améliorant la fiabilité du raisonnement.
Sélecteur de Prompt Visuel : Un module capable de prédire dynamiquement le type de guidage visuel nécessaire pour chaque question difficile, construit via une pipeline de données assistée par des raisonneurs proxy.
Performance SoTA : Démonstration d'un état de l'art sur des benchmarks variés sans utiliser d'outils externes lors de l'inférence.

4. Résultats Expérimentaux

VISIONCOACH a été évalué sur plusieurs benchmarks de raisonnement vidéo, de compréhension et d'ancrage temporel :

V-STAR (Raisonnement spatio-temporel) : Le modèle surpasse GPT-4o et améliore significativement Qwen2.5-VL-7B (+15,0% en mAM et +25,1% en mLGM). Il démontre une meilleure précision dans la localisation temporelle et spatiale.
Compréhension Vidéo Générale (VideoMME, WorldSense, VideoMMMU, PerceptionTest) : VISIONCOACH bat systématiquement les modèles open-source précédents et les approches centrées sur le texte, tout en restant sans outils (tool-free). Les gains sont particulièrement marqués dans les tâches orientées perception.
Ancrage Temporel (Charades-STA) : Le modèle obtient les meilleures performances par rapport aux modèles spécialisés dans l'ancrage temporel, prouvant que le guidage visuel durant l'entraînement facilite l'apprentissage de localisations temporelles précises.
Efficacité : Contrairement aux méthodes basées sur des outils (comme EgoR1), VISIONCOACH maintient un chemin d'inférence unique et efficace, avec une latence nettement inférieure.

5. Signification et Impact

Ce travail marque un changement de paradigme dans le raisonnement vidéo :

Internalisation de la perception : Il démontre qu'il est possible d'enseigner à un modèle à "voir" correctement (en se focalisant sur les bonnes régions et moments) sans avoir besoin d'outils de perception externes coûteux à l'exécution.
Efficacité des données : Au lieu de simplement augmenter la quantité de données d'entraînement, l'approche se concentre sur la qualité du signal d'apprentissage via un guidage adaptatif.
Robustesse : En forçant la cohérence des objets et en utilisant la distillation, le modèle réduit les hallucinations et améliore la fiabilité des explications générées, ce qui est crucial pour des applications réelles nécessitant une traçabilité des preuves visuelles.

En résumé, VISIONCOACH offre une voie élégante pour combiner la puissance du guidage visuel explicite avec l'efficacité d'un modèle unique, résolvant le compromis entre la précision de l'ancrage et le coût computationnel de l'inférence.