Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dentro de um trem que está chegando a uma estação lotada. O trem está se movendo, desacelerando e, através da janela, você vê uma multidão de pessoas esperando na plataforma. Contar quantas pessoas estão lá, em tempo real, parece fácil para o olho humano, mas é um pesadelo para os computadores.

Por que? Porque a câmera está se movendo, as pessoas estão se escondendo umas atrás das outras (ocultação) e, conforme o trem chega, a cabeça de uma pessoa distante parece "explodir" de tamanho na tela, tornando-se gigante.

Os pesquisadores deste artigo (da Universidade Humboldt e do Instituto Fraunhofer, na Alemanha) criaram um sistema inteligente chamado Phys-3D para resolver exatamente esse problema. Eles querem que o trem "veja" e conte os passageiros automaticamente para ajudar na segurança e no agendamento dos trens.

Aqui está como eles fizeram isso, usando analogias simples:

1. O Problema: A Câmera "Bamba"

A maioria dos sistemas de contagem de pessoas funciona como uma câmera de segurança fixa no teto de um shopping. Eles assumem que a câmera não se move.

O Desafio: Quando a câmera está num trem em movimento, tudo parece se mover. Se o trem freia, as pessoas na plataforma parecem se mover para trás na tela, mesmo que estejam paradas.
A Falha Antiga: Os sistemas antigos tentavam adivinhar o movimento das pessoas como se estivessem em um vídeo normal. Eles ficavam confusos, achando que as pessoas estavam correndo quando na verdade era apenas o trem que estava freando. Isso gerava contagens erradas e pessoas "desaparecendo" ou "aparecendo" do nada.

2. A Solução: O "Detetive Físico" (Phys-3D)

Os autores criaram um sistema que não apenas "olha" para a imagem, mas entende a física do movimento.

A Analogia do Trem: Imagine que você está num trem e vê uma árvore passando. Você sabe que a árvore não está correndo; é você quem está se movendo. O sistema Phys-3D faz a mesma coisa. Ele sabe que o trem está freando e usa essa informação para calcular onde as pessoas realmente estão no mundo real (em 3D), e não apenas onde elas parecem estar na tela (em 2D).
A Regra da Geometria: Eles usam uma regra matemática simples (como a de uma câmera de buraco de alfinete): se uma cabeça parece pequena, ela está longe; se parece grande, está perto. O sistema usa isso para manter o tamanho "real" da cabeça constante na sua memória, mesmo que na tela ela esteja crescendo ou diminuindo.

3. O "Foco na Cabeça" (Detecção)

Em uma multidão apertada, você mal consegue ver o corpo das pessoas, apenas as cabeças.

A Estratégia: Em vez de tentar ver o corpo inteiro (que fica escondido), o sistema é treinado especificamente para detectar cabeças. É como tentar contar pessoas em um show de rock olhando apenas para o topo das cabeças acima da multidão. Isso é muito mais estável e preciso.
O Treinamento: Eles ensinaram o computador usando milhares de fotos de multidões reais em estações de trem, para que ele aprendesse a reconhecer cabeças mesmo quando estão espremidas ou com a imagem tremida.

4. A "Fita Contadora Virtual" (Contagem)

Como contar de verdade sem errar?

**O Problema do "Pulo": Se você apenas traçar uma linha no chão e contar quem a cruzar, uma pessoa que vacila, pisca ou é escondida por um segundo pode ser contada duas vezes ou nenhuma vez.
A Solução da Fita: Eles criaram uma "zona virtual" (uma faixa amarela imaginária) na tela. Para ser contada, uma pessoa precisa:
1. Entrar nessa zona.
2. Ficar lá por alguns segundos (persistência).
3. Só então o sistema diz: "Ok, essa pessoa está aqui de verdade".
Isso evita erros causados por tremores da câmera ou pessoas que ficam escondidas por um instante. É como se o sistema dissesse: "Espere, confirme que a pessoa está realmente passando antes de somar".

5. O Resultado: Precisão Quase Perfeita

O sistema foi testado em dados reais de plataformas de trem.

O Conquista: Enquanto os métodos antigos erravam bastante (contando pessoas a mais ou a menos), o Phys-3D conseguiu um erro de apenas 2,97%.
Por que isso importa? Imagine um trem lotado chegando a uma estação cheia. O sistema avisa: "Atenção, a plataforma está cheia, não deixe mais gente entrar". Isso evita acidentes, empurrões e ajuda a gerenciar o fluxo de passageiros em tempo real.

Resumo em uma frase

Os pesquisadores criaram um "olho inteligente" para trens que entende que o trem está se movendo, foca apenas nas cabeças das pessoas para não se confundir com a multidão e usa uma "zona de espera" para garantir que cada passageiro seja contado apenas uma vez, tornando as estações de trem mais seguras e eficientes.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda o desafio crítico de realizar a contagem e o rastreamento de multidões em plataformas de trem em tempo real, utilizando uma câmera montada no próprio trem em movimento (abordagem onboard).

Os principais obstáculos identificados são:

Movimento da Câmera (Ego-motion): A aproximação do trem causa mudanças rápidas de escala e distorções de perspectiva que confundem os modelos de rastreamento tradicionais.
Oclusões Densas: Em plataformas lotadas, os passageiros se sobrepõem, dificultando a detecção de corpos inteiros.
Inconsistência Física: Os modelos de rastreamento baseados em detecção (tracking-by-detection) existentes geralmente assumem câmeras estáticas ou modelos de movimento constantes (velocidade/aceleração) no plano 2D da imagem. Isso falha em cenários dinâmicos, onde o movimento aparente é dominado pelo trem, não pelos pedestres, levando a erros de contagem e troca de identidades (identity switches).

2. Metodologia

O authors propõem um pipeline integrado de Detecção-Rastreamento-Contagem com restrições físicas, denominado Phys-3D. O sistema opera em três etapas principais:

A. Detecção de Cabeças (Head Detection)

Estratégia: Em vez de detectar corpos inteiros (que sofrem com oclusão e truncamento), o sistema foca na detecção de cabeças, que permanecem mais visíveis e estáveis em multidões densas.
Modelo: Utiliza o YOLOv11m pré-treinado no dataset CrowdHuman e ajustado (fine-tuned) em um dataset específico de domínio criado pelos autores (RailwayPlatformCrowdHead).
Codificação de Aparência: Para o rastreamento, utiliza-se um codificador EfficientNet-B0 para extrair embeddings de 128 dimensões, permitindo a reidentificação (Re-ID) de indivíduos após oclusões temporárias.

B. Rastreamento Físico 3D (Phys-3D)

Esta é a inovação central do trabalho. Diferente dos filtros de Kalman tradicionais que operam no espaço 2D da imagem, o Phys-3D modela o estado no espaço 3D:

Geometria de Pinhole: O modelo assume uma câmera de pinhole e relaciona as coordenadas 2D da imagem com coordenadas 3D reais ( $X, Y, Z$ ).
Restrições Físicas:
- Assume que a altura da cabeça ( $H$ ) é constante (aprox. 0,3m).
- Assume que a posição lateral ( $X, Y$ ) na plataforma é relativamente estática (o movimento principal é a variação de distância $Z$ devido ao trem).
- Incorpora o movimento do ego (desaceleração do trem) diretamente na previsão do estado do filtro de Kalman.
Vetor de Estado: O estado estimado é $[X, Y, H, Z, \dot{Z}, \ddot{Z}]^T$ . Isso desacopla o movimento real do pedestre do movimento aparente causado pela câmera, garantindo trajetórias fisicamente plausíveis e reduzindo a fragmentação de identidades.

C. Contagem Virtual com Persistência

Faixa de Contagem Virtual: Em vez de uma linha simples (que é frágil a jitter e oclusões breves), o sistema define uma "faixa" ou zona virtual na plataforma.
Persistência Temporal: Um passageiro só é contado se sua trajetória permanecer dentro dessa faixa por um número pré-definido de quadros consecutivos ( $N$ ). Isso suaviza interrupções temporárias e evita contagens duplicadas ou perdidas.

3. Contribuições Principais

Pipeline em Tempo Real: Desenvolvimento de um sistema end-to-end de detecção-rastreamento-análise otimizado para a visão frontal de trens em aproximação.
Filtro de Kalman Phys-3D: Proposta de um modelo de rastreamento que integra restrições geométricas e de movimento do ego, superando a instabilidade de modelos 2D em cenários de trem.
Novo Dataset (MOT-RPCH): Criação e liberação do RailwayPlatformCrowdHead Dataset, um conjunto de dados específico para detecção de cabeças em plataformas de trem, com trajetórias contínuas e anotações detalhadas.
Validação de Priors Físicos: Demonstração de que incorporar princípios físicos (geometria e cinemática) é mais eficaz para a robustez do que apenas aumentar a complexidade do modelo cinemático padrão.

4. Resultados Experimentais

Os testes foram realizados no dataset MOT-RailwayPlatformCrowdHead (MOT-RPCH), comparando o Phys-3D com modelos de linha de base (CV-8D e CA-12D).

Precisão de Contagem: O método Phys-3D alcançou uma Taxa de Erro Percentual Médio (MAPE) de 2,97%, com um Erro Absoluto Médio (MAE) de 0,9 e Raiz do Erro Quadrático Médio (RMSE) de 1,36.
- Comparação: O modelo de velocidade constante (CV-8D) teve MAPE de 14,59%, e o de aceleração constante (CA-12D) teve 6,99%.
Desempenho de Rastreamento: O sistema atingiu uma precisão de rastreamento (MOTA) de 67,19% e uma pontuação IDF1 de 76,32%, com apenas 24,5 trocas de identidade em média.
Eficiência: O uso de head detection e o modelo Phys-3D permitiram a execução em tempo real em hardware de borda (ex: NVIDIA T4), mantendo a estabilidade mesmo sob forte movimento e oclusão.

5. Significado e Impacto

O trabalho demonstra que a integração de priors físicos (geometria de câmera e cinemática do veículo) com redes neurais profundas é fundamental para tarefas de visão computacional em ambientes de transporte críticos.

Gestão de Segurança: A contagem precisa permite o gerenciamento proativo de densidade em plataformas, prevenindo superlotação e acidentes.
Eficiência Operacional: Os dados em tempo real podem auxiliar no agendamento adaptativo de trens e no planejamento de capacidade.
Generalização: A abordagem sugere que modelos de rastreamento para cenários móveis (não apenas câmeras fixas) devem abandonar a suposição de câmeras estáticas e adotar modelos que compreendam a geometria 3D e o movimento do sensor.

Em resumo, o Phys-3D oferece uma solução robusta e matematicamente fundamentada para um problema complexo de visão computacional, superando as limitações dos métodos tradicionais em cenários dinâmicos de transporte ferroviário.