Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

Cet article présente Phys-3D, un cadre de suivi et de comptage de foules en temps réel sur les quais de gare qui intègre un modèle de mouvement 3D contraint par la physique et une détection YOLOv11m pour surmonter les défis d'occlusion et de mouvement de caméra, atteignant une erreur de comptage de 2,97 % sur le jeu de données MOT-RPCH.

Bin Zeng, Johannes Künzel, Anna Hilsmann, Peter Eisert

Publié 2026-02-27
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🚂 Le Problème : Compter les passagers dans un train qui arrive

Imaginez que vous êtes à bord d'un train qui s'approche doucement d'une gare bondée. Votre mission ? Compter exactement combien de personnes attendent sur le quai pour que le train puisse décider s'il faut ajouter des wagons ou non.

Cela semble simple, non ? Pas du tout !

  • La caméra bouge : Le train avance, donc tout sur l'image semble bouger, même si les gens sont immobiles.
  • La perspective change : Les têtes des gens au loin paraissent minuscules, puis grossissent énormément quand le train passe devant eux.
  • La foule est serrée : Les gens se cachent les uns les autres. On ne voit que des têtes qui disparaissent et réapparaissent.

Les systèmes de surveillance classiques (comme ceux des caméras fixes dans les gares) sont perdus ici. Ils confondent le mouvement du train avec le mouvement des gens et font des erreurs de comptage.

💡 La Solution : Phys-3D (Le "Super-Compteur" Physique)

Les chercheurs ont créé un système intelligent appelé Phys-3D. Pour le comprendre, utilisons une analogie simple :

Imaginez que vous êtes un chef d'orchestre (le système) qui doit suivre chaque musicien (chaque passager) dans une pièce sombre et mouvante.

1. Ne regardez que les têtes (La Détection)

Au lieu d'essayer de voir tout le corps des gens (ce qui est difficile quand ils sont serrés et cachés), le système se concentre uniquement sur leurs têtes.

  • L'analogie : C'est comme si vous jouiez à "Repérer le chapeau" dans une foule. Les chapeaux (les têtes) sont plus faciles à voir et à suivre que les corps entiers qui se superposent.
  • Le système utilise un détecteur ultra-rapide (YOLO) qui a été entraîné spécifiquement pour voir des têtes dans des situations de foule, comme un chien de police entraîné pour sentir une odeur précise.

2. Le Secret : La Physique au lieu de la Magie (Le Suivi)

C'est ici que la magie opère. La plupart des systèmes de suivi imaginent que les gens bougent à vitesse constante sur l'image (comme une voiture sur une route plate). Mais ici, le train freine et l'image déforme tout.

Le système Phys-3D utilise une règle de la physique :

  • L'analogie : Imaginez que vous lancez une balle dans l'eau. Même si l'eau bouge, la balle suit une trajectoire logique dictée par la gravité.
  • Le système sait que le train ralentit. Il sait que si le train s'approche, les gens sur le quai ne bougent pas vraiment, mais leur image grossit à cause de la géométrie de la caméra (comme un zoom).
  • Au lieu de suivre les gens en 2D (sur l'écran), le système imagine un monde en 3D. Il se dit : "Ah, cette tête grossit, ce n'est pas parce qu'elle a grandi, c'est parce que le train s'approche de 5 mètres."
  • Cela permet de ne pas se tromper quand un passager est caché pendant une seconde. Le système "devine" où il est grâce aux lois de la physique, au lieu de paniquer.

3. La Zone de Comptage Intelligente (Le Comptage)

Même avec un bon suivi, compter est difficile. Si une personne traverse une ligne imaginaire, on la compte. Mais si elle oscille ou si la caméra tremble, on peut la compter deux fois ou zéro fois.

Le système utilise une "Zone Virtuelle" (comme un couloir invisible sur le quai).

  • L'analogie : Imaginez un portique de sécurité. Pour être compté, il ne suffit pas de le toucher. Il faut traverser le couloir et rester dedans pendant quelques secondes.
  • Si une personne entre et sort rapidement (à cause d'un tremblement de caméra), le système dit : "Non, ce n'est pas un vrai passager, c'est juste un bug."
  • Cela élimine les erreurs dues aux tremblements ou aux occultations temporaires.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à cette combinaison de vision par ordinateur (voir les têtes) et de physique (comprendre le mouvement du train), le système a obtenu des résultats incroyables :

  • Précision : Il se trompe seulement dans 2,97 % des cas. C'est comme si, sur 100 passagers, il en comptait 97 ou 98 correctement.
  • Robustesse : Même quand il y a beaucoup de monde, que le train freine fort ou qu'il y a des ombres, le système reste stable.

🚀 En résumé

Ce papier explique comment transformer une caméra de train en un compteur de foule infaillible.
Au lieu de simplement "regarder" les images, le système comprend la physique de la situation (le mouvement du train, la géométrie de l'espace). C'est comme passer d'un simple observateur qui compte avec ses doigts à un expert qui utilise les lois de l'univers pour savoir exactement qui est où, même dans le chaos d'une gare bondée.

Cela permet aux gares de mieux gérer la sécurité et d'envoyer les trains au bon moment, rendant nos voyages plus sûrs et plus fluides.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →