Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment jouer au tennis, mais pas seulement comment frapper la balle. Vous voulez qu'il comprenne l'espace : la distance exacte entre le joueur et le filet, la hauteur de la balle par rapport au sol, et si deux joueurs sont proches l'un de l'autre ou non.

C'est exactement le défi que relève cette nouvelle recherche, baptisée CourtSI. Voici une explication simple de ce projet, comme si on en parlait autour d'un café.

1. Le Problème : Les IA sont de bonnes "spectatrices", mais de mauvaises "jugees"

Aujourd'hui, les intelligences artificielles (les modèles de vision) sont excellentes pour dire : "Ah, c'est un joueur de tennis qui tient une raquette !". Elles sont comme des spectateurs qui regardent le match et décrivent ce qu'ils voient.

Mais si vous leur demandez : "À combien de mètres exactement se trouve la balle du filet ?" ou "Le joueur de gauche est-il plus proche du filet que celui de droite ?", elles se perdent souvent. Elles ont du mal à comprendre la géométrie 3D (la profondeur, la distance réelle) à partir d'une simple image 2D. C'est comme essayer de deviner la taille d'un objet en regardant son ombre sur un mur : on peut se tromper facilement.

2. La Solution : Construire un "Terrain de Jeu Numérique"

Pour apprendre aux IA à mieux voir l'espace, les chercheurs ont créé CourtSI.

Imaginez que vous avez un terrain de tennis, de badminton ou de ping-pong. Ces terrains ont une chose magique : ils sont parfaitement géométriques. Les lignes sont droites, le filet a une hauteur fixe, et les dimensions sont toujours les mêmes.

Les chercheurs ont utilisé cette régularité comme une boussole.

L'ingénierie des données : Au lieu de simplement regarder des vidéos, ils ont créé un "moteur" semi-automatique. Ce moteur prend une photo de match, repère les lignes du terrain, et utilise ces lignes pour reconstruire le monde en 3D.
L'analogie du maçon : C'est comme si un maçon utilisait un niveau à bulle et un mètre ruban pour s'assurer que chaque brique est bien placée. Ici, les "lignes du terrain" servent de niveau pour dire à l'IA : "Non, cette balle n'est pas juste 'en haut', elle est à 2,5 mètres du sol."

3. Le Résultat : Un "Gymnase" pour l'IA

Grâce à ce système, ils ont créé deux choses principales :

CourtSI (La bibliothèque) : Une immense base de données avec plus d'un million de questions et de réponses. C'est comme un manuel d'exercices géant où l'IA apprend à compter les joueurs, mesurer les distances et comprendre les relations spatiales (qui est à gauche de qui ?).
CourtSI-Bench (L'examen final) : Un test rigoureux avec environ 3 700 questions, vérifiées par des humains, pour voir si les IA ont vraiment appris la leçon.

4. Ce qu'ils ont découvert : L'écart entre Humains et Robots

Ils ont fait passer l'examen à 25 IA différentes (les plus puissantes du monde, comme GPT-4, Gemini, etc.).

Le verdict : Même les meilleures IA ont du mal. Elles sont souvent loin de la performance humaine, surtout pour mesurer les distances précises.
La surprise : Les IA qui avaient été entraînées sur d'autres tests d'espace (dans des pièces de maison ou des objets rigides) n'ont pas bien réussi sur le terrain de sport. Pourquoi ? Parce que les humains bougent, se tordent, et que la balle vole vite. C'est un défi beaucoup plus complexe que de simplement regarder un canapé dans un salon.

5. La Réussite : L'IA qui apprend à jouer

Les chercheurs ont pris une IA (Qwen3-VL) et l'ont entraînée spécifiquement avec leurs nouvelles données (CourtSI).

Le résultat : Son score a bondi de 23,5 %. Elle est devenue beaucoup plus précise pour mesurer les distances.
La généralisation : Le plus impressionnant ? Cette IA entraînée sur du tennis et du badminton a aussi réussi à comprendre le pickleball (un sport qu'elle n'avait jamais vu auparavant), car elle a appris le concept de "terrain" et d'espace, pas juste les règles d'un sport précis.
Le commentaire sportif : Ils ont même demandé à l'IA de commenter le match en incluant ces distances. Résultat : "Le joueur est à 3 mètres du filet, prêt à frapper..." au lieu de "Le joueur est prêt à frapper". L'IA est devenue plus "intelligente" et précise dans ses descriptions.

En résumé

Cette recherche dit : "Pour apprendre aux robots à comprendre le monde réel, ne les faites pas seulement regarder des photos. Mettez-les sur un terrain de sport, donnez-leur des règles géométriques strictes, et laissez-les apprendre à mesurer l'espace."

C'est une étape cruciale pour que, dans le futur, nos robots puissent non seulement voir, mais aussi interagir avec précision dans notre monde physique en mouvement.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles Vision-Language (VLM) ont fait des progrès significatifs dans la compréhension sémantique et le raisonnement 2D. Cependant, leur capacité à percevoir et à raisonner sur le monde 3D physique (l'intelligence spatiale) reste un défi majeur, en particulier pour les applications nécessitant une interaction avec l'environnement réel.

Les travaux existants se concentrent principalement sur des scènes statiques et des objets rigides (bâtiments, meubles). Ils négligent les scènes dynamiques impliquant des humains, caractérisées par des déformations non rigides et des contraintes articulaires complexes. Les sports, avec leurs mouvements intenses et leurs interactions dynamiques entre joueurs et objets (balles), constituent un terrain d'essai idéal mais sous-exploité pour évaluer l'intelligence spatiale fine.

L'article identifie un manque de données à grande échelle et de benchmarks rigoureux pour évaluer la capacité des VLM à effectuer un raisonnement spatial métrique (distances réelles, localisation 3D) dans des environnements sportifs.

2. Méthodologie

L'équipe propose une approche complète comprenant la création d'un dataset, d'un benchmark et d'un moteur de données semi-automatique.

A. Moteur de Reconstruction de Données Semi-Automatique

Pour générer des données d'entraînement fiables à partir d'images monoculaires (vidéos de diffusion), les auteurs ont développé un pipeline qui exploite la géométrie fixe des terrains de sport comme ancrage métrique :

Annotation du Terrain (Court Annotation) : Les auteurs annotent manuellement des points clés du terrain (coins, filet). En utilisant la géométrie connue du terrain (dimensions réelles fixes), ils résolvent un problème Perspective-n-Point (PnP) pour calibrer précisément les paramètres intrinsèques et extrinsèques de la caméra. Cela établit un système de coordonnées mondiales unifié.
Annotation des Balles : Les balles sont trop petites pour une estimation de profondeur monoculaire fiable. Les auteurs utilisent une méthode de projection : les annotateurs cliquent sur la balle et sa projection au sol. En connaissant la géométrie de la caméra, la profondeur ( $\lambda$ ) est calculée analytiquement.
Récupération du Maillage Humain (Player Mesh Recovery) : Ils utilisent PromptHMR pour estimer les maillages humains (SMPL-X). Pour corriger les erreurs de profondeur fréquentes (pieds flottants ou enfoncés), ils annotent manuellement la hauteur du vertex le plus bas du maillage et réalignent tout le maillage par une transformation de similitude centrée sur la caméra.

Ce pipeline permet d'atteindre une précision au niveau du centimètre pour la localisation des joueurs et des balles.

B. Construction du Dataset et du Benchmark

CourtSI (Dataset) : Un dataset à grande échelle contenant plus d'un million de paires Question-Réponse (QA) générées automatiquement à partir de 52 481 images de sports de raquette (badminton, tennis, tennis de table). Les questions sont organisées selon une taxonomie holistique couvrant :
- Le comptage spatial.
- La mesure de distance.
- La localisation (coordonnées 3D).
- Le raisonnement relationnel (ego-centrique et allo-centrique).
CourtSI-Bench (Benchmark) : Un ensemble d'évaluation de haute qualité contenant 3 686 paires QA, soigneusement vérifiées par des humains pour éliminer les erreurs de reconstruction. Il sert de référence pour évaluer les modèles.

C. Évaluation et Affinage (Fine-Tuning)

Les auteurs évaluent 25 VLMs (propriétaires et open-source) sur CourtSI-Bench. Ils effectuent également un affinage supervisé (SFT) du modèle Qwen3-VL-8B sur le dataset CourtSI pour mesurer l'impact de l'entraînement spécifique.

3. Contributions Clés

Premier Dataset et Benchmark à Grande Échelle : Introduction de CourtSI et CourtSI-Bench, les premiers ensembles de données dédiés à l'intelligence spatiale dans les sports, dépassant les limites des datasets centrés sur des objets statiques.
Moteur de Reconstruction Innovant : Développement d'un pipeline semi-automatique qui utilise la géométrie du terrain pour reconstruire des scènes 3D métriquement précises à partir de vidéos monoculaires, résolvant le problème de l'échelle métrique.
Évaluation Complexe : Une analyse approfondie de 25 modèles d'état de l'art, révélant des lacunes spécifiques dans les tâches de mesure de distance et de localisation 3D.
Validation de la Transférabilité : Démonstration que l'affinage sur CourtSI améliore non seulement la performance sur le benchmark, mais aussi la généralisation à un sport non vu (CourtSI-Ext sur le pickleball) et la génération de commentaires sportifs intégrant des relations spatiales.

4. Résultats Principaux

Écart Humain-AI : Même les meilleurs modèles propriétaires (GPT-5.2, Gemini-3-Pro) présentent un écart significatif par rapport aux performances humaines, particulièrement dans les tâches de mesure de distance et de localisation.
Limites des Benchmarks Existants : Les modèles entraînés sur des benchmarks d'intelligence spatiale existants (axés sur des scènes statiques) se généralisent mal à CourtSI-Bench, indiquant que les défis des sports dynamiques ne sont pas capturés par les données actuelles.
Impact du Fine-Tuning : L'affinage de Qwen3-VL-8B sur CourtSI entraîne une amélioration massive de 23,5 points de pourcentage en précision globale sur CourtSI-Bench. La tâche de mesure de distance voit une amélioration de plus de 25 points.
Généralisation : Le modèle affiné montre une bonne capacité de transfert sur CourtSI-Ext (pickleball), un sport non vu lors de l'entraînement, prouvant l'apprentissage de capacités de raisonnement spatial transférables.
Génération de Commentaires : Les modèles affinis génèrent des commentaires sportifs intégrant des données spatiales précises (ex: "la balle est à 2,1 mètres du pied") tout en maintenant une qualité linguistique élevée.

5. Signification et Impact

Ce travail marque une étape importante dans l'évolution de l'intelligence artificielle vers l'AGI (Intelligence Artificielle Générale) en se concentrant sur l'interaction avec le monde physique.

Nouveau Standard : CourtSI établit un nouveau standard pour évaluer la compréhension spatiale fine et centrée sur l'humain, au-delà de la simple reconnaissance d'actions.
Démonstration de Limites : Il met en lumière les faiblesses actuelles des VLMs face à la perspective, à la profondeur métrique et aux relations spatiales complexes dans des environnements dynamiques.
Voie d'Amélioration : Il démontre que l'entraînement sur des données structurées avec une vérité terrain métrique (via la géométrie du terrain) est une voie efficace pour doter les modèles de capacités spatiales robustes.
Applications Potentielles : Les résultats ouvrent la voie à des applications pratiques telles que l'analyse tactique automatisée en temps réel, la génération de commentaires enrichis pour les diffuseurs, et l'assistance aux arbitres ou aux entraîneurs.

En conclusion, CourtSI fournit une voie évolutive pour faire progresser l'intelligence spatiale des VLMs, transformant les scénarios sportifs en laboratoires puissants pour tester et améliorer la perception 3D des machines.