KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Les Films d'Animation qui "Rêvent"

Imaginez que vous demandez à un robot très intelligent de décrire une vidéo de quelqu'un qui danse.
Le robot vous dit : "Une femme danse dans un jardin. Elle lève les bras, tourne sur elle-même et finit par un grand saut."

C'est joli, mais c'est trop vague. Et pire encore, le robot invente parfois des choses : il dit qu'elle a sauté alors qu'elle est restée au sol, ou qu'elle portait un chapeau alors qu'elle n'en avait pas. En langage technique, on appelle cela des hallucinations.

Les modèles actuels sont comme des conteurs de blagues : ils racontent l'histoire générale, mais ils oublient les détails précis du corps (comment le coude se plie, comment le pied touche le sol) et ils ont tendance à "rêver" des détails qui n'existent pas.

🛠️ La Solution : Le "Mécanicien" et le "Traducteur"

Les auteurs de cet article (de l'entreprise Kuaishou) ont créé une nouvelle méthode pour apprendre aux robots à décrire les vidéos avec une précision chirurgicale. Ils ont construit un outil appelé KPM-Bench.

Pour comprendre comment ça marche, imaginons que nous voulons décrire un mouvement complexe, comme un saut en longueur.

1. Le Mécanicien (L'Analyse Cinématique)

Au lieu de demander au robot de "deviner" ce qu'il voit, on lui donne d'abord un mécanicien virtuel.

L'analogie : Imaginez que vous filmez un athlète. Le mécanicien ne regarde pas juste "un homme qui court". Il pose des capteurs invisibles sur chaque articulation (épaules, genoux, chevilles).
Ce qu'il fait : Il calcule la vitesse de chaque membre, l'angle de chaque genou, et même la fréquence du mouvement (est-ce que c'est rapide comme un battement d'aile ou lent comme une valse ?).
Le résultat : Le robot ne voit plus juste une vidéo floue, il reçoit une feuille de calcul mathématique précise disant : "À la seconde 2, le genou gauche s'est plié de 45 degrés à une vitesse de 3 m/s."

2. Le Traducteur (Le Parsing Linguistique)

Maintenant que le robot a les chiffres, il faut les transformer en mots. C'est là qu'intervient le Traducteur.

L'analogie : C'est comme si le robot avait un livre de grammaire spécial pour le mouvement. Au lieu de dire "elle bouge", il apprend à dire : "Elle lève le bras gauche (agent) vers le haut (direction) avec une intensité modérée (amplitude)."
Ils ont créé un langage structuré (appelé PaMoR) qui force le robot à décrire chaque action comme une petite phrase complète avec un sujet, une action, et une direction.

📚 Le Résultat : Une Nouvelle Bibliothèque (KPM-Bench)

Grâce à cette méthode, ils ont créé une immense bibliothèque de vidéos (75 000 clips) accompagnées de descriptions ultra-précises.

Avant : "Une personne danse."
Après KPM-Bench : "Une femme en robe rouge lève doucement son bras gauche, plie le coude, puis étend la main vers le ciel, tout en pivotant lentement sur son pied droit."

C'est comme passer d'une carte dessinée à la main à un plan d'architecte en 3D.

🛡️ Le Problème des "Rêves" (Hallucinations) et le Détecteur de Mensonges

Même avec de bons chiffres, le robot peut encore mentir. Pour régler ça, ils ont inventé un Détecteur de Mensonges appelé MoPE.

L'analogie : Imaginez que le robot écrit un roman. Le détecteur MoPE lit le roman et le compare avec la "feuille de calcul" du mécanicien.
- Si le robot écrit "Elle a sauté", mais que la feuille de calcul dit "Les pieds sont restés au sol", le détecteur dit : "STOP ! Mensonge !".
Ils utilisent ce détecteur pour "punir" le robot quand il invente des choses et le "féliciter" quand il est précis. C'est comme un prof qui corrige les devoirs en temps réel pour apprendre à l'élève à ne plus tricher.

🏆 Pourquoi c'est important ?

Cette technologie change la donne pour plusieurs raisons :

Pour les films et la TV : On peut générer des descriptions précises pour les personnes malvoyantes.
Pour le sport : On peut analyser exactement comment un athlète bouge pour améliorer sa performance.
Pour la réalité : Les robots qui nous aident (comme des assistants personnels) comprendront mieux nos gestes. Si vous faites un signe de la main, ils ne penseront pas que vous leur lancez quelque chose !

En Résumé

Les chercheurs ont créé un système en deux étapes :

Les yeux du robot sont devenus des calculatrices (pour mesurer les mouvements).
La bouche du robot est devenue un traducteur précis (pour décrire ces mesures sans inventer).

Le résultat ? Une intelligence artificielle qui ne se contente plus de "regarder" les vidéos, mais qui les comprend vraiment, articulation par articulation, sans rêver.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de légendage vidéo (Video Captioning), bien que performants pour décrire le contenu global (scènes, personnages, actions grossières), souffrent de deux limitations majeures lorsqu'il s'agit de vidéos centrées sur le mouvement :

Manque de granularité fine : Ils échouent souvent à décrire les détails complexes des mouvements humains, tels que la dynamique des membres individuels, les articulations et les séquences temporelles précises. Les descriptions tendent à être des résumés vagues plutôt que des analyses structurées.
Hallucinations fréquentes : Les modèles génératifs (VLMs) inventent fréquemment des actions qui ne se produisent pas, inversent l'ordre temporel des mouvements ou décrivent incorrectement les directions. Ces hallucinations minent la fiabilité des systèmes pour des applications critiques.

De plus, les benchmarks existants manquent soit de détails fins (en raison de la difficulté d'annotation manuelle à grande échelle), soit de méthodes robustes pour évaluer et corriger ces hallucinations de manière indépendante des grands modèles de langage (LLM).

2. Méthodologie

L'approche proposée, KPM (Kinematic Parsing Motion), repose sur un pipeline d'annotation automatisé et une nouvelle stratégie d'entraînement pour résoudre ces problèmes.

A. Pipeline d'Annotation Automatisée (KPM-Pipeline)

Au lieu de dépendre uniquement de l'annotation manuelle coûteuse ou de la génération brute par LLM, KPM intègre l'analyse cinématique physique dans le processus de génération de texte :

Estimation de la pose 3D : Utilisation de RTMPose3D pour extraire les points clés du squelette humain (133 points COCO-Wholebody) à partir des vidéos.
Calcul Cinématique :
- Domaine temporel : Calcul des vitesses de translation (centre de masse) et des vitesses angulaires des articulations (basé sur la théorie des vis et le théorème de Chasles).
- Domaine fréquentiel : Application de la Transformée de Fourier Rapide (FFT) sur les signaux de vitesse pour analyser le rythme et l'intensité des mouvements (distinction entre mouvements vigoureux et subtils).
Représentation Linguistique Structurée (PaMoR) :
- Introduction d'un schéma de représentation Parsing-based Motion Event Representation (PaMoR).
- Classification hiérarchique des mouvements : Niveau individuel (déplacement global), Niveau des membres (bras, torse), Niveau distal (doigts, tête).
- Définition d'attributs standardisés : Prédicat de mouvement, Agent, Patient, Modificateur de magnitude, Indicateur de direction, etc.
Génération de Captions Denses : Les attributs cinématiques numériques sont injectés dans des prompts pour un LLM (GPT-4.1), qui génère des descriptions textuelles riches et structurées (PaMoR-Tuple) puis des légendes finales denses.

B. Construction du Benchmark KPM-Bench

Le dataset résultant contient trois sous-ensembles :

KPM-Cap : 75 000 paires vidéo-légende avec des descriptions fines et denses.
KPM-QA : 38 000 paires questions-réponses complexes testant la compréhension du mouvement (attributs, interactions, ordre temporel).
KPM-HA : Un ensemble d'évaluation rigoureux de 215 vidéos conçu spécifiquement pour mesurer les hallucinations liées au mouvement.

C. Algorithme MoPE et Entraînement GRPO

Pour réduire les hallucinations, les auteurs proposent :

MoPE (Motion Parsing and Extraction) : Un algorithme linguistique qui extrait les attributs de mouvement spécifiques (action, ordre temporel, direction) directement depuis le texte généré, en combinant la Représentation de Sens Abstrait (AMR) et l'analyse de dépendance syntaxique.
Fonction de Récompense Composite : Une fonction de récompense basée sur MoPE est intégrée dans le cadre d'optimisation GRPO (Group Relative Policy Optimization). Elle pénalise les erreurs sur trois axes :
- Précision des actions ( $R_{action}$ ).
- Ordre temporel correct ( $R_{order}$ ).
- Cohérence directionnelle ( $R_{direction}$ ).
Métrique d'Évaluation Indépendante : Mo-Hall, une métrique de détection d'hallucinations basée sur MoPE, ne dépendant pas de l'opinion d'un autre LLM/VLM.

3. Contributions Clés

KPM-Bench : Le premier benchmark open-source à grande échelle (75k+ vidéos) dédié spécifiquement à la compréhension fine du mouvement humain, incluant des données QA et un ensemble d'évaluation d'hallucinations.
Pipeline d'Annotation Hybride : Une méthode innovante combinant la physique (cinématique) et le langage pour générer des annotations précises sans annotation manuelle exhaustive.
Algorithme MoPE : La première méthode linguistique pour extraire et valider les attributs de mouvement à partir du texte, permettant une évaluation objective des hallucinations.
Stratégie d'Entraînement GRPO-MoPE : Une approche de post-entraînement qui réduit significativement les hallucinations tout en maintenant la qualité linguistique.

4. Résultats Expérimentaux

Les expériences ont été menées sur le modèle Qwen2.5-VL-7B et comparées à des modèles de pointe (GPT-4.1, Gemini-2.5Pro, InternVideo-2.5, etc.) :

Qualité du Contenu : Le modèle KPM (entraîné sur KPM-Bench) surpasse nettement les modèles fermés (GPT-4.1) et open-source sur les métriques traditionnelles (BLEU, ROUGE, BERT-Score) et les scores de qualité générés par GPT. Il obtient un score GPT-Score de 3.46 contre 3.23 pour GPT-4.1.
Précision des Tâches (KPM-QA) : KPM atteint une précision globale de 94.05%, surpassant le meilleur modèle open-source (InternVideo-2.5 à 85.95%) et les API fermées. Il excelle particulièrement dans la compréhension des scènes dynamiques et la reconnaissance des émotions.
Réduction des Hallucinations : L'intégration de MoPE dans l'entraînement (KPM vs KPM w/o MoPE) réduit les taux d'hallucination (mesurés par Mo-Hall et GPT-Hall) tout en ne dégradant que marginalement les métriques de génération de texte. Cela démontre un compromis optimal entre qualité linguistique et fidélité factuelle.
Généralisation : Le modèle montre d'excellentes performances sur d'autres benchmarks (MVBench, MotionBench, FAVOR), prouvant sa capacité de généralisation.

5. Signification et Impact

Ce travail représente une avancée significative pour la compréhension vidéo :

Fiabilité : Il propose une solution concrète au problème des hallucinations dans les descriptions de mouvement, un obstacle majeur pour le déploiement industriel.
Granularité : Il établit un nouveau standard pour la description fine des mouvements humains, passant d'une description "globale" à une analyse "articulaire" et temporelle.
Applications Potentielles : La méthodologie KPM ouvre la voie à des applications critiques nécessitant une précision extrême, telles que l'analyse sportive, la rééducation physique, la surveillance de la sécurité et l'interaction humain-robot.
Méthodologique : L'approche combinant calcul physique (cinématique) et parsing linguistique offre un nouveau paradigme pour la construction de données d'entraînement de haute qualité pour les modèles multimodaux.

En résumé, KPM-Bench et la méthodologie associée comblent le fossé entre la perception visuelle brute et la compréhension sémantique fine et fiable des dynamiques humaines dans les vidéos.