E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a entender como as pessoas se movem, seja para reconhecer um "pulo", detectar se um idoso está com dificuldade para caminhar ou avaliar se um paciente de reabilitação está fazendo o exercício corretamente.

O problema é que o corpo humano não é um bloco de concreto; é uma estrutura flexível, cheia de articulações que giram e se dobram de formas complexas. A maioria dos computadores antigos tentava analisar isso como se fosse uma foto plana (2D) ou uma sequência de pixels, o que funciona mal quando a luz muda, há obstáculos ou a pessoa vira de lado.

Aqui entra o E2E-GNet, o "herói" deste artigo. Vamos explicar como ele funciona usando uma analogia simples: o mapa do tesouro e a terra plana.

1. O Problema: O Mundo Curvo vs. O Mundo Plano

Pense no movimento do corpo humano como se fosse um globo terrestre (uma esfera). Se você tentar desenhar um mapa desse globo em uma folha de papel plana (o mundo "linear" ou Euclidiano que os computadores adoram), algo estranho acontece: as distâncias ficam distorcidas. A Groenlândia parece gigante no mapa, mas na realidade é menor.

Da mesma forma, quando os cientistas tentam "achatar" o movimento complexo de um esqueleto 3D para um espaço linear simples para o computador processar, o movimento perde sua forma real. As distâncias entre os movimentos ficam erradas, e o computador se confunde.

2. A Solução: O E2E-GNet

O E2E-GNet é como um engenheiro de mapas inteligente que sabe lidar com essa distorção. Ele faz três coisas principais, passo a passo:

Passo 1: A Limpeza (Espaço Pré-forma)

Primeiro, o sistema ignora coisas que não importam. Se você pular e depois pular de novo, mas um pouco mais longe ou em um tamanho diferente, é a mesma ação. O E2E-GNet remove a "tradução" (onde a pessoa está) e o "escala" (o tamanho da pessoa), focando apenas na forma do movimento. É como se ele dissesse: "Não me importa se você é alto ou baixo, ou se está na sala ou no quintal; me conte apenas como seus ossos se dobraram".

Passo 2: A Transformação Geométrica (O "Logaritmo Mágico")

Aqui está a mágica. O sistema pega essa forma complexa (o globo) e projeta em uma folha de papel (o espaço linear) para que a rede neural possa aprender.

O Truque: Ele usa uma "ferramenta de projeção" especial (chamada Log Map) que tenta desenhar o globo no papel da forma mais fiel possível.
O Ajuste: Mas o sistema sabe que, ao desenhar o globo no papel, as bordas vão esticar um pouco. Então, ele aprende a girar e ajustar o esqueleto antes de projetar, garantindo que a "foto" no papel seja a mais clara possível para o computador entender.

Passo 3: O "Corretor de Distorção" (A Camada DML)

Este é o grande diferencial do E2E-GNet. Quando você projeta o globo no papel, as distâncias entre pontos distantes ficam exageradas (distorcidas).

Imagine que você estica um elástico para desenhar um mapa. O elástico fica tenso e altera as medidas.
O E2E-GNet tem um "botão de ajuste fino" (uma camada de minimização de distorção) que aprende a encolher esse elástico de volta para o tamanho certo. Ele corrige o exagero que a projeção causou, garantindo que a distância entre um "andar" e um "correr" seja calculada com precisão matemática, não apenas visual.

Por que isso é incrível?

Funciona em Tudo: O sistema foi testado em três tipos de cenários:
- Reconhecimento de Ações: Identificar se alguém está dançando, lutando ou correndo (como em filmes de Hollywood).
- Saúde e Doenças: Detectar se um paciente com Alzheimer ou Parkinson está tendo dificuldade em fazer exercícios simples.
- Reabilitação: Avaliar se um paciente de fisioterapia está fazendo o movimento correto para recuperar a força.
Rápido e Eficiente: Diferente de outros sistemas que são "gigantes" e pesados (como um caminhão de mudança), o E2E-GNet é como uma ferramenta de precisão. Ele é leve, rápido e consome menos energia, mas entrega resultados melhores do que os "caminhões" anteriores.
Aprendizado de Ponta a Ponta: Antigamente, você precisava de um especialista para desenhar o mapa e outro para ler o mapa. O E2E-GNet faz tudo sozinho, do início ao fim, aprendendo a corrigir seus próprios erros de projeção enquanto treina.

Resumo em uma frase

O E2E-GNet é um sistema inteligente que entende o movimento humano não como uma foto plana, mas como uma escultura 3D flexível, e usa matemática avançada para "desenhar" essa escultura em um papel sem distorcer suas medidas, permitindo que computadores reconheçam ações e avaliem saúde com uma precisão nunca antes vista.

É como se o computador finalmente tivesse aprendido a "sentir" a geometria do nosso corpo, em vez de apenas olhar para ele.

Each language version is independently generated for its own context, not a direct translation.

Título: E2E-GNet: Uma Rede Neural Geométrica Profunda de Ponta a Ponta Baseada em Esqueleto para Reconhecimento de Movimento Humano

1. Problema e Motivação

O reconhecimento de movimento humano é uma tarefa fundamental na visão computacional, com aplicações em vigilância, interação humano-robô e saúde. Embora as abordagens baseadas em esqueleto (usando coordenadas 3D das articulações) tenham superado os métodos baseados em pixels ao ignorar o fundo e variações de aparência, elas enfrentam desafios geométricos específicos:

Natureza Não-Euclidiana: Os dados de esqueleto residem naturalmente em espaços não-Euclidianos (variedades ou manifolds), como o espaço de forma de Kendall, e não em espaços lineares planos.
Limitações das Abordagens Atuais: Métodos existentes que utilizam aprendizado geométrico frequentemente sofrem de duas limitações principais:
1. Falta de um pipeline de treinamento end-to-end que otimize simultaneamente os componentes geométricos e as redes profundas diretamente na variedade.
2. Distorções introduzidas quando se projeta dados não-lineares (variedade) para espaços lineares (espaços tangentes) para processamento por redes neurais convencionais. Essas distorções degradam a fidelidade da representação e a estabilidade do modelo.

2. Metodologia Proposta: E2E-GNet

Os autores propõem o E2E-GNet, uma rede neural profunda geométrica que opera de ponta a ponta, integrando a geometria do espaço de forma diretamente no processo de aprendizado. A arquitetura consiste nos seguintes componentes principais:

Modelagem no Espaço Pré-Forma (Pre-shape Space):
- As sequências de movimento do esqueleto são modeladas no espaço pré-forma de Kendall, que é invariante a translação e escala.
- A variabilidade de translação é removida usando uma matriz de Helmert, e a variabilidade de escala é normalizada para norma unitária, projetando os dados em uma esfera unitária.
Camada de Transformação Geométrica (GTL - Geometric Transformation Layer):
- Esta camada é o núcleo da abordagem para lidar com a não-linearidade. Ela realiza duas etapas:
  1. Otimização sobre Matrizes SO(3): Aprende parâmetros de rotação para cada quadro do esqueleto, alinhando-os de forma ótima no espaço de forma (Kendall). Isso pode ser feito de forma rígida (constrita) ou não-rígida (desconstrita), dependendo do domínio.
  2. Ativação Logarítmica Riemanniana: Projeta as sequências transformadas do espaço de forma (não-linear) para o espaço tangente (linear) usando um mapa logarítmico diferenciável. Isso permite que as redes neurais tradicionais (como CNNs e LSTMs) operem sobre os dados linearizados.
Camada de Minimização de Distorção (DML - Distortion Minimization Layer):
- O mapa logarítmico introduz distorções globais (alongamento de distâncias) e de pares devido à curvatura da variedade.
- A DML introduz um parâmetro positivo aprendível ( $\alpha$ ) que escala uniformemente os vetores no espaço tangente.
- Objetivo: Contrair a distância geodésica projetada, mantendo a direção e a curvatura intrínseca, mas reduzindo o erro de aproximação linear. Isso preserva a fidelidade geométrica e melhora a discriminação entre movimentos.
Extração de Características e Classificação:
- Após a projeção e correção de distorção, o modelo utiliza camadas convolucionais 1D (Conv1D), MaxPool e uma rede LSTM para extrair características espaço-temporais discriminativas, seguidas por camadas totalmente conectadas para classificação.

3. Contribuições Principais

Pipeline End-to-End: Propõe a primeira rede que otimiza conjuntamente a transformação geométrica e o aprendizado profundo diretamente na variedade de forma, eliminando a necessidade de etapas de pré-processamento desconectadas.
Minimização de Distorção: Introduz a camada DML, que explicitamente reduz as distorções geométricas inerentes à projeção variedade-espaço tangente, melhorando a precisão e a estabilidade do modelo.
Versatilidade e Eficiência: O modelo demonstra ser adaptável a diferentes domínios (ações, doenças, reabilitação) através de variantes de transformação (rígida vs. não-rígida) e escala (global vs. local), mantendo um custo computacional baixo.

4. Resultados Experimentais

O E2E-GNet foi avaliado em cinco conjuntos de dados abrangendo três domínios:

Reconhecimento de Ação: NTU RGB+D (60 e 120 classes).
Avaliação de Doenças: Dataset EHE (Exercícios Domésticos de Idosos com Alzheimer).
Reabilitação: KIMORE e UI-PRMD.

Desempenho:

Precisão: O E2E-GNet superou consistentemente os métodos State-of-the-Art (SOTA), incluindo GCNs (como ST-GCN, 2s-AGCN), Transformers e outras abordagens geométricas.
- No NTU-120, superou o SOTA em 4,2% (protocolo X-Sub) e 0,9% (X-Setup).
- Nos datasets de doença e reabilitação, superou os melhores métodos existentes em até 2,79% (UI-PRMD).
Eficiência Computacional: O modelo mantém um custo computacional (FLOPs e parâmetros) comparável ou inferior aos métodos geométricos anteriores (como KShapeNet) e significativamente menor que muitos modelos baseados em Transformers ou GCNs complexos.
Estudos de Ablação: Confirmaram que a adição da GTL e, crucialmente, da DML, traz ganhos substanciais de desempenho. A camada DML provou ser superior a técnicas tradicionais de transporte paralelo (Parallel Transport) em datasets com movimentos limitados (como em pacientes com Alzheimer), onde o transporte paralelo falha devido ao ruído numérico.

5. Significado e Conclusão

O trabalho do E2E-GNet representa um avanço significativo na interseção entre aprendizado geométrico profundo e análise de movimento humano.

Impacto Teórico: Resolve o problema fundamental de como projetar dados não-lineares para espaços lineares sem perder informação crítica, introduzindo uma camada de correção aprendível.
Impacto Prático: Oferece uma solução robusta e eficiente para aplicações críticas em saúde (diagnóstico de doenças neurodegenerativas e avaliação de reabilitação), onde a precisão e a interpretabilidade geométrica são essenciais.
Generalização: A capacidade do modelo de adaptar suas transformações geométricas (rígidas para movimentos biologicamente coerentes e não-rígidas para ações variáveis) demonstra uma flexibilidade superior em cenários do mundo real.

Em resumo, o E2E-GNet estabelece um novo padrão para reconhecimento de movimento baseado em esqueleto, demonstrando que a integração profunda da geometria intrínseca dos dados com arquiteturas de aprendizado profundo resulta em sistemas mais precisos, eficientes e robustos.