Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Regarder un film entier pour trouver une aiguille dans une botte de foin

Imaginez que vous devez répondre à une question précise sur un film de 2 heures.

Les anciennes méthodes (les "modèles actuels") : Elles regardent le film entier d'un coup d'œil rapide, comme si elles le regardaient en accéléré x10. Elles essaient de deviner la réponse en se basant sur ce qu'elles ont retenu.
- Le problème : Comme le film est long et qu'il y a beaucoup de scènes inutiles (des gens qui marchent, des paysages), le modèle oublie les détails importants. Il commence à halluciner : il invente une réponse en toute confiance, même si elle est fausse, parce qu'il n'a pas vu le moment précis où la réponse se trouvait. C'est comme essayer de deviner la couleur d'un objet précis dans une pièce sombre en regardant juste la porte.

💡 La Solution : Video-TwG, le "Détective Intelligentsia"

Les chercheurs de Tsinghua University ont créé Video-TwG. Au lieu de regarder tout le film d'un coup, ce nouveau modèle agit comme un détective privé ou un chercheur d'information.

Voici comment il fonctionne, étape par étape, avec des analogies simples :

1. La Stratégie "Pensez en Cherchant" (Think-with-Grounding)

Imaginez que vous posez une question à un ami : "De quelle couleur est le pistolet à air comprimé dans cette vidéo ?"

L'ancien modèle : Regarde la vidéo, dit "Je ne sais pas trop, je vais deviner Orange" (et se trompe).
Video-TwG : Dit : "Attends, je ne vois pas bien le pistolet dans les images rapides. Je vais zoomer spécifiquement sur la scène où l'homme tient l'outil."
- Il ne regarde pas tout le film. Il décide intelligemment quand et où il doit s'arrêter pour regarder de plus près. C'est comme passer d'une vue satellite floue à une vue satellite haute définition d'un seul bâtiment.

2. L'Entraînement en Deux Étapes (Le "Curriculum")

Apprendre à un robot à faire ça est difficile. Si on lui donne tout de suite un film de 2 heures, il va paniquer. Les chercheurs ont donc utilisé une méthode d'entraînement en deux temps, comme on apprend à un enfant à nager :

Étape 1 (La petite piscine) : On commence avec de très courtes vidéos (quelques secondes) où la réponse est facile à trouver. Le modèle apprend la mécanique : "Je vois un indice ? Je zoome. Pas d'indice ? Je continue."
Étape 2 (L'océan) : Une fois qu'il a compris le principe, on lui donne des vidéos de toutes les tailles et de tous les sujets. Il apprend à généraliser cette compétence pour n'importe quelle situation.

3. Le Système de Récompense (Le "Coach de Sport")

Pour que le modèle apprenne bien, il a besoin de feedback. Les chercheurs ont inventé un système de récompense intelligent :

La récompense de précision : Si la réponse finale est bonne, le modèle reçoit des points.
La récompense de "Self-Confiance" (Le test de vérité) : C'est l'astuce géniale. Parfois, le modèle zoome sur une vidéo, mais cette vidéo ne sert à rien. Pour vérifier, le système demande au modèle : "Si tu ne regardais que ce petit bout de vidéo que tu viens de zoomer, pourrais-tu encore répondre correctement ?"
- Si oui : Bravo, c'était un bon zoom !
- Si non : Tu as perdu du temps à zoomer sur le mauvais endroit. Pénalité !
- Résultat : Le modèle apprend à être économe. Il ne zoome que si c'est vraiment nécessaire, évitant ainsi de gaspiller de l'énergie.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Les tests montrent que Video-TwG bat tous les autres modèles sur des vidéos longues (comme des documentaires ou des films).

Moins d'erreurs : Il ne se trompe plus en inventant des réponses.
Plus efficace : Il ne regarde pas tout le film, seulement les parties utiles. C'est comme lire un livre en sautant les pages inutiles pour trouver la page qui contient la réponse.
Adaptabilité : Même si on lui donne une vidéo de très haute qualité ou de basse qualité, il s'adapte et reste performant.

En Résumé 🌟

Video-TwG, c'est comme passer d'un spectateur passif qui regarde tout le film sans comprendre, à un enquêteur actif qui sait exactement où chercher l'indice crucial. Au lieu de se fier à sa mémoire floue, il va chercher la preuve visuelle au bon moment, ce qui le rend beaucoup plus intelligent et fiable pour comprendre les longues vidéos.

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

🎬 Le Problème : Regarder un film entier pour trouver une aiguille dans une botte de foin

💡 La Solution : Video-TwG, le "Détective Intelligentsia"

1. La Stratégie "Pensez en Cherchant" (Think-with-Grounding)

2. L'Entraînement en Deux Étapes (Le "Curriculum")

3. Le Système de Récompense (Le "Coach de Sport")

🏆 Les Résultats : Pourquoi c'est impressionnant ?

En Résumé 🌟

1. Problématique

2. Méthodologie : Video-TwG

A. Paradigme "Think-with-Grounding"

B. Stratégie de Curriculum Renforcé à Deux Étapes

C. Algorithme TwG-GRPO

D. Dataset TwG-51K

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

🎬 Le Problème : Regarder un film entier pour trouver une aiguille dans une botte de foin

💡 La Solution : Video-TwG, le "Détective Intelligentsia"

1. La Stratégie "Pensez en Cherchant" (Think-with-Grounding)

2. L'Entraînement en Deux Étapes (Le "Curriculum")

3. Le Système de Récompense (Le "Coach de Sport")

🏆 Les Résultats : Pourquoi c'est impressionnant ?

En Résumé 🌟

1. Problématique

2. Méthodologie : Video-TwG

A. Paradigme "Think-with-Grounding"

B. Stratégie de Curriculum Renforcé à Deux Étapes

C. Algorithme TwG-GRPO

D. Dataset TwG-51K

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems