Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

Each language version is independently generated for its own context, not a direct translation.

🚂 Le Problème : Compter les passagers dans un train qui arrive

Imaginez que vous êtes à bord d'un train qui s'approche doucement d'une gare bondée. Votre mission ? Compter exactement combien de personnes attendent sur le quai pour que le train puisse décider s'il faut ajouter des wagons ou non.

Cela semble simple, non ? Pas du tout !

La caméra bouge : Le train avance, donc tout sur l'image semble bouger, même si les gens sont immobiles.
La perspective change : Les têtes des gens au loin paraissent minuscules, puis grossissent énormément quand le train passe devant eux.
La foule est serrée : Les gens se cachent les uns les autres. On ne voit que des têtes qui disparaissent et réapparaissent.

Les systèmes de surveillance classiques (comme ceux des caméras fixes dans les gares) sont perdus ici. Ils confondent le mouvement du train avec le mouvement des gens et font des erreurs de comptage.

💡 La Solution : Phys-3D (Le "Super-Compteur" Physique)

Les chercheurs ont créé un système intelligent appelé Phys-3D. Pour le comprendre, utilisons une analogie simple :

Imaginez que vous êtes un chef d'orchestre (le système) qui doit suivre chaque musicien (chaque passager) dans une pièce sombre et mouvante.

1. Ne regardez que les têtes (La Détection)

Au lieu d'essayer de voir tout le corps des gens (ce qui est difficile quand ils sont serrés et cachés), le système se concentre uniquement sur leurs têtes.

L'analogie : C'est comme si vous jouiez à "Repérer le chapeau" dans une foule. Les chapeaux (les têtes) sont plus faciles à voir et à suivre que les corps entiers qui se superposent.
Le système utilise un détecteur ultra-rapide (YOLO) qui a été entraîné spécifiquement pour voir des têtes dans des situations de foule, comme un chien de police entraîné pour sentir une odeur précise.

2. Le Secret : La Physique au lieu de la Magie (Le Suivi)

C'est ici que la magie opère. La plupart des systèmes de suivi imaginent que les gens bougent à vitesse constante sur l'image (comme une voiture sur une route plate). Mais ici, le train freine et l'image déforme tout.

Le système Phys-3D utilise une règle de la physique :

L'analogie : Imaginez que vous lancez une balle dans l'eau. Même si l'eau bouge, la balle suit une trajectoire logique dictée par la gravité.
Le système sait que le train ralentit. Il sait que si le train s'approche, les gens sur le quai ne bougent pas vraiment, mais leur image grossit à cause de la géométrie de la caméra (comme un zoom).
Au lieu de suivre les gens en 2D (sur l'écran), le système imagine un monde en 3D. Il se dit : "Ah, cette tête grossit, ce n'est pas parce qu'elle a grandi, c'est parce que le train s'approche de 5 mètres."
Cela permet de ne pas se tromper quand un passager est caché pendant une seconde. Le système "devine" où il est grâce aux lois de la physique, au lieu de paniquer.

3. La Zone de Comptage Intelligente (Le Comptage)

Même avec un bon suivi, compter est difficile. Si une personne traverse une ligne imaginaire, on la compte. Mais si elle oscille ou si la caméra tremble, on peut la compter deux fois ou zéro fois.

Le système utilise une "Zone Virtuelle" (comme un couloir invisible sur le quai).

L'analogie : Imaginez un portique de sécurité. Pour être compté, il ne suffit pas de le toucher. Il faut traverser le couloir et rester dedans pendant quelques secondes.
Si une personne entre et sort rapidement (à cause d'un tremblement de caméra), le système dit : "Non, ce n'est pas un vrai passager, c'est juste un bug."
Cela élimine les erreurs dues aux tremblements ou aux occultations temporaires.

🏆 Les Résultats : Pourquoi c'est génial ?

Grâce à cette combinaison de vision par ordinateur (voir les têtes) et de physique (comprendre le mouvement du train), le système a obtenu des résultats incroyables :

Précision : Il se trompe seulement dans 2,97 % des cas. C'est comme si, sur 100 passagers, il en comptait 97 ou 98 correctement.
Robustesse : Même quand il y a beaucoup de monde, que le train freine fort ou qu'il y a des ombres, le système reste stable.

🚀 En résumé

Ce papier explique comment transformer une caméra de train en un compteur de foule infaillible.
Au lieu de simplement "regarder" les images, le système comprend la physique de la situation (le mouvement du train, la géométrie de l'espace). C'est comme passer d'un simple observateur qui compte avec ses doigts à un expert qui utilise les lois de l'univers pour savoir exactement qui est où, même dans le chaos d'une gare bondée.

Cela permet aux gares de mieux gérer la sécurité et d'envoyer les trains au bon moment, rendant nos voyages plus sûrs et plus fluides.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le suivi et le comptage précis des foules sur les quais de train en temps réel sont essentiels pour la sécurité et la gestion de la capacité. Cependant, les systèmes actuels rencontrent des difficultés majeures lorsqu'ils sont déployés depuis un train en mouvement (caméra embarquée) :

Mouvement de la caméra (Ego-motion) : L'approche du train crée un mouvement apparent important dans l'image, que les modèles de suivi classiques (supposant une caméra fixe) interprètent à tort comme le mouvement des piétons.
Distorsion perspective et échelle : La taille des têtes des passagers change rapidement à mesure que le train s'approche, créant des variations d'échelle extrêmes.
Occlusions denses : La foule sur les quais entraîne un chevauchement fréquent des passagers, rendant la détection de corps entiers peu fiable.
Instabilité du suivi : Les filtres de Kalman standards (vitesse ou accélération constante en 2D) échouent à modéliser la géométrie physique, entraînant des changements d'identité (ID switches) et des erreurs de comptage.

2. Méthodologie : Le Framework Phys-3D

Les auteurs proposent un pipeline de détection-suivi-comptage en temps réel, intégrant des contraintes physiques et géométriques.

A. Détection de Têtes (Head Detection)

Stratégie : Au lieu de détecter le corps entier (souvent occlus), le système se concentre sur la détection des têtes, plus stables et visibles.
Modèle : Utilisation de YOLOv11m.
Entraînement : Une approche en deux étapes :
1. Pré-entraînement sur le dataset général CrowdHuman.
2. Fine-tuning sur un dataset spécifique au domaine (RailwayPlatformCrowdHead) créé par les auteurs, incluant des données d'OSDaR et RailEye3D.
Résultat : Une robustesse accrue face aux occlusions et au flou de mouvement.

B. Suivi Physique Contraint (Phys-3D)

C'est l'innovation centrale de l'article. Le système remplace le suivi 2D standard par un modèle de Kalman contraint par la physique en 3D.

Modèle d'état 3D : Au lieu de suivre la position et la vitesse dans l'image (2D), l'état du Kalman est défini dans l'espace 3D par rapport à la caméra : $x_{Phs3D} = [X, Y, H, Z, \dot{Z}, \ddot{Z}]^T$ $x_{P h s 3 D} = [X, Y, H, Z, \dot{Z}, \ddot{Z}]^{T}$ .
- $X, Y$ : Position latérale (supposée quasi-constante sur le quai).
- $H$ : Hauteur de la tête (constante).
- $Z$ : Distance par rapport à la caméra (variable due au mouvement du train).
Contraintes Géométriques : Le modèle utilise la géométrie du sténopé (pinhole camera) pour relier les dimensions 2D observées (hauteur de la boîte englobante $h$ ) à la distance 3D ( $Z$ ) : $Z(t) = f_y \cdot H / h(t)$ .
Dynamique : Le modèle intègre les priors de mouvement du train (décélération constante) pour distinguer le mouvement réel des piétons du mouvement induit par la caméra.
Re-Identification (Re-ID) : Intégration d'un encodeur EfficientNet-B0 pour extraire des caractéristiques d'apparence (embeddings 128D), permettant de réassocier les trajectoires après des occlusions temporaires.

C. Comptage Virtuel (Virtual Counting Band)

Pour éviter les erreurs de comptage dues aux sauts de détection ou aux occlusions brèves :

Zone Virtuelle : Une bande virtuelle est définie sur le quai (par exemple, entre 5 % et 20 % de la largeur de l'image).
Persistance : Un passager n'est compté que s'il reste dans cette bande pendant un nombre prédéfini de frames consécutives ( $N=2$ ).
Déduplication : Les IDs déjà comptés sont stockés pour éviter les doubles comptages lors des oscillations de la trajectoire.

3. Contributions Clés

Pipeline End-to-End : Conception d'un système de détection-suivi-analyse en temps réel adapté spécifiquement à l'approche d'un train.
Modèle Phys-3D : Introduction d'un filtre de Kalman contraint par la physique qui incorpore l'ego-motion et la géométrie 3D, résolvant l'instabilité des modèles 2D classiques dans les scénarios de mouvement de caméra.
Dataset Nouveau : Création et publication du dataset MOT-RailwayPlatformCrowdHead (MOT-RPCH), contenant des trajectoires de têtes annotées pour l'analyse de foules depuis un train.
Validation de l'Approche Physique : Démonstration que l'intégration de principes physiques (géométrie, cinématique) est plus efficace que la simple complexification des modèles cinématiques purement data-driven.

4. Résultats Expérimentaux

Les expériences ont été menées sur le dataset MOT-RPCH (20 séquences vidéo, ~18k frames).

Performance de Détection : Le fine-tuning sur le dataset spécifique a porté le mAP50 de 79,4 % (après pré-entraînement) à 98,0 %.
Performance de Suivi (Tracking) :
- MOTA (Multiple Object Tracking Accuracy) : 67,19 %.
- IDF1 : 76,32 %.
- Changements d'identité (IDSW) : Moyenne de seulement 24,5, ce qui indique une grande stabilité.
Performance de Comptage :
- Le modèle Phys-3D atteint une erreur absolue moyenne en pourcentage (MAPE) de 2,97 %.
- MAE (Erreur Absolue Moyenne) : 0,9.
- Comparaison : Le modèle Phys-3D surpasse largement les modèles de référence (CV-8D et CA-12D), qui affichent des MAPE de 14,59 % et 6,99 % respectivement. Le modèle Phys-3D réduit également le biais de sur-comptage (ME négatif très faible).
Efficacité : Le système fonctionne en temps réel (69,5 FPS pour le module Re-ID sur GPU NVIDIA T4), permettant un déploiement embarqué.

5. Signification et Impact

Ce travail démontre que l'intégration de priors physiques (géométrie de la caméra, cinématique du train) dans les modèles de vision par ordinateur est cruciale pour les scénarios de transport critiques.

Sécurité : Permet une gestion proactive de la sécurité sur les quais en anticipant la densité de passagers.
Efficacité Opérationnelle : Facilite l'ajustement dynamique des horaires et la planification des capacités.
Robustesse : Offre une solution fiable là où les méthodes traditionnelles échouent (mouvement de caméra, occlusions denses).

L'article conclut que cette approche ouvre la voie à des systèmes de surveillance intelligents pour les transports, avec des perspectives d'extension vers la fusion multi-capteurs (LiDAR, radar) et l'adaptation à d'autres environnements de transport.