Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chefe de cozinha (um modelo de inteligência artificial) que é um gênio absoluto em cozinhar pratos complexos, mas ele só sabe ler receitas escritas em inglês (imagens).

Agora, imagine que você tem uma pilha de receitas incríveis sobre como dançar, mas elas estão escritas em um código estranho, usando apenas pontos e linhas conectados (ossos do corpo humano, ou "esqueletos"). O chefe de cozinha olha para essas receitas de pontos, fica confuso e diz: "Não entendo nada disso, não é uma imagem!".

O problema é que existem poucas receitas de dança (dados de esqueleto) e muitas delas estão escritas em dialetos diferentes (alguns têm 25 pontos, outros 20, outros 13). Criar um novo cozinheiro para cada dialeto seria caro e demorado.

A solução proposta neste artigo é o "S2I" (Esqueleto para Imagem).

Aqui está como funciona, usando analogias simples:

1. A Grande Transformação (O Tradutor)

Os autores criaram um "tradutor mágico" chamado S2I. Em vez de tentar ensinar o chefe de cozinha a ler pontos, eles pegam as receitas de pontos e as reorganizam para parecerem com uma foto.

Como eles fazem isso? Eles pegam os pontos do corpo (joelhos, cotovelos, cabeça) e os dividem em 5 partes lógicas: tronco, braço esquerdo, braço direito, perna esquerda e perna direita.
O Truque das Cores: Eles transformam as coordenadas 3D (altura, largura, profundidade) em cores (Vermelho, Verde, Azul).
O Resultado: Uma sequência de movimentos que antes era apenas uma lista de números agora se parece com uma imagem colorida e estranha, onde o movimento do corpo é representado por cores e formas.

2. Usando o "Gênio" (Modelos Pré-treinados)

Agora que o esqueleto parece uma imagem, o chefe de cozinha (o modelo de visão pré-treinado) pode finalmente ler a receita!

A Vantagem: Esses "chefes" (como o MAE ou DiffMAE mencionados no texto) já foram treinados com milhões de fotos do mundo real (ImageNet). Eles já sabem o que é um braço, uma perna, um movimento, mesmo que a "foto" seja feita de esqueleto.
O Benefício: Em vez de treinar um modelo do zero (que exigiria milhões de dados de esqueleto que não existem), eles apenas ensinam esse modelo gigante a olhar para as novas "fotos de esqueleto". É como pegar um especialista em fotografia e ensinar ele a analisar desenhos técnicos.

3. A Unificação (O Caminho Universal)

Antes, se você quisesse treinar um modelo com dados de 25 pontos e depois usá-lo em dados de 20 pontos, era um pesadelo. Você tinha que cortar os pontos extras ou tentar alinhar tudo manualmente, o que perdia informações.

Com o S2I, todos os esqueletos são transformados na mesma "linguagem de imagem".

Não importa se o esqueleto tem 25 pontos ou 13 pontos. O tradutor S2I os organiza da mesma forma.
Isso permite misturar dados de vários lugares (diferentes câmeras, diferentes sensores) e treinar um único modelo universal que entende qualquer formato de esqueleto.

Resumo da Ópera

O papel diz, basicamente:

"Pare de tentar criar modelos complicados apenas para ler ossos. Transforme os ossos em algo que pareça uma foto. Assim, você pode usar os super-heróis da inteligência artificial (modelos de visão) que já existem, economizando tempo, dados e conseguindo resultados muito melhores, mesmo quando os dados vêm de fontes diferentes."

É como se eles dissessem: "Não vamos aprender a falar todas as línguas do mundo. Vamos apenas traduzir todas as línguas para o inglês, porque já temos o melhor tradutor do mundo pronto para usar!"

Each language version is independently generated for its own context, not a direct translation.

Título: Codificação Esqueleto-para-Imagem: Habilitando Aprendizado de Representação de Esqueleto via Modelos de Visão Pré-treinados

1. O Problema

O artigo aborda dois desafios fundamentais na área de reconhecimento de ações humanas baseado em esqueletos:

Incompatibilidade de Formato de Dados: Modelos de visão pré-treinados em larga escala (como Vision Transformers - ViTs, MAE e VLMs) demonstraram capacidades impressionantes em tarefas visuais, mas não podem ser aplicados diretamente a dados de esqueleto 3D. Os dados de imagem são densos e estruturados em tensores espaciais (ex: $3 \times 224 \times 224 $), enquanto os dados de esqueleto são esparsos, sequenciais e estruturados como coordenadas 3D de juntas ao longo do tempo ($ T \times J \times 3$).
Heterogeneidade e Escassez de Dados: Métodos existentes de esqueleto são geralmente projetados para formatos homogêneos (número fixo de juntas), o que limita sua escalabilidade e generalização para conjuntos de dados com configurações de juntas diferentes (ex: 13, 20 ou 25 juntas). Além disso, a escassez de conjuntos de dados de esqueleto em larga escala com anotações dificulta o aprendizado auto-supervisionado eficaz.

2. Metodologia: Codificação Esqueleto-para-Imagem (S2I)

Os autores propõem uma nova representação chamada Skeleton-to-Image Encoding (S2I). O objetivo é transformar sequências de esqueletos esparsos em dados "tipo imagem" densos, compatíveis com modelos de visão pré-treinados, sem modificar a arquitetura do modelo.

O Processo de Codificação S2I:

Partição Semântica: O esqueleto humano é dividido em cinco partes corporais semânticas: tronco (spine), braço esquerdo, braço direito, perna esquerda e perna direita.
Reordenação e Ordenação: As juntas dentro de cada parte são reordenadas seguindo a cadeia cinemática (distância do tronco) e ordenadas de cima para baixo dentro de cada parte. Isso garante consistência semântica.
Mapeamento de Canais RGB: As coordenadas 3D das juntas $(x, y, z)$ são mapeadas diretamente para os canais de cor de uma imagem $(R, G, B)$ .
Empilhamento Temporal: As posições 3D de cada junta ao longo de $T$ quadros são empilhadas para formar um mapa de características espaço-temporal.
Redimensionamento (Interpolação): A representação resultante é redimensionada (via interpolação linear) para as dimensões padrão de entrada dos modelos de visão (ex: $224 \times 224$), criando uma "imagem pseudo" que codifica tanto a estrutura espacial quanto a dinâmica temporal.

Treinamento e Modelos:

Os autores utilizam modelos de visão pré-treinados no ImageNet, especificamente MAE (Masked Autoencoders) e DiffMAE (baseado em difusão), como backbones.
Estratégia de Máscara: Investigam diferentes estratégias de mascaramento (aleatória, por bloco, por junta, temporal) para o pré-treinamento auto-supervisionado. A máscara aleatória de 75% mostrou-se a mais eficaz.
Pipeline:
1. Pré-treinamento: O modelo de visão (inicializado com pesos do ImageNet) é pré-treinado no domínio do esqueleto usando a codificação S2I e aprendizado de reconstrução de máscaras.
2. Avaliação (Downstream): Os codificadores pré-treinados são avaliados em tarefas de reconhecimento de ações (com linear probing ou fine-tuning).

3. Principais Contribuições

Ponte entre Modalidades: Propõem um pipeline inovador que utiliza modelos de visão pré-treinados para aprendizado de representação de esqueleto, transferindo conhecimento visual rico para o domínio do esqueleto.
Representação Unificada (S2I): Introduzem um método de codificação que reformata dados de esqueleto 3D esparsos em entradas tipo imagem, compatíveis com modelos de visão e resilientes a variações no formato do esqueleto.
Aprendizado Universal e Cross-Formato: São os primeiros a explorar o aprendizado de representação de esqueletos heterogêneos. O S2I permite o pré-treinamento universal combinando múltiplos conjuntos de dados com diferentes configurações de juntas (ex: 13, 20, 25 juntas) em um único modelo, eliminando a necessidade de alinhamento manual de juntas ou arquiteturas específicas para cada conjunto de dados.

4. Resultados Experimentais

Os experimentos foram conduzidos em cinco conjuntos de dados de referência: NTU-60, NTU-120, PKU-MMD, NW-UCLA e Toyota Smarthome.

Desempenho Competitivo: O método S2I alcançou desempenho competitivo e, em muitos casos, estado da arte (SOTA), mesmo sem arquiteturas específicas para esqueletos.
- No NTU-60 (C-sub), o S2I alcançou 83.1% (Linear Probe) e 91.0% (Fine-tuning).
- Com a fusão de múltiplos fluxos (Juntas + Movimento + Ossos - 3s-S2I), o método atingiu 85.8% (Linear Probe) e 93.1% (Fine-tuning) no NTU-60, superando métodos especializados recentes.
Aprendizado Semi-supervisionado: Demonstrou eficácia superior em cenários com poucos rótulos (1% e 10% dos dados), alcançando 75.2% com apenas 1% de dados rotulados no NTU-60.
Transferência Cross-Formato: O método superou significativamente os métodos existentes em tarefas de transferência entre conjuntos de dados com formatos de juntas diferentes (ex: treinar em NTU-60 com 25 juntas e testar em Toyota com 13 juntas), provando sua generalização robusta.
Pré-treinamento Universal: Ao treinar um único modelo em dados agregados de múltiplos conjuntos de dados (Universal Pretraining), houve ganhos consistentes de desempenho em todos os conjuntos de dados avaliados em comparação com o pré-treinamento em conjuntos individuais.

5. Significado e Impacto

Este trabalho é significativo por várias razões:

Democratização de Modelos de Visão: Permite que a comunidade de análise de esqueletos aproveite o poder de modelos de visão em larga escala (como ViTs e modelos de difusão) sem a necessidade de desenvolver arquiteturas complexas do zero.
Solução para Heterogeneidade: Resolve o problema da fragmentação de dados, onde diferentes sensores e algoritmos de estimativa de pose geram esqueletos com números de juntas diferentes. O S2I abstrai essas diferenças, permitindo um aprendizado unificado.
Eficiência de Dados: Demonstra que o conhecimento prévio de grandes conjuntos de dados de imagem (ImageNet) pode ser transferido eficazmente para dados de esqueleto, mitigando a escassez de dados anotados de esqueletos.
Futuro Multimodal: Abre caminho para a integração mais fluida de esqueletos com outras modalidades visuais (RGB, profundidade) em modelos multimodais, facilitando o reconhecimento de ações mais robusto e interpretável.

Em resumo, o S2I transforma um problema de estrutura de dados complexa e esparsa em um problema de visão computacional padrão, permitindo que os avanços mais recentes em IA visual sejam aplicados diretamente à análise de movimento humano.

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

1. A Grande Transformação (O Tradutor)

2. Usando o "Gênio" (Modelos Pré-treinados)

3. A Unificação (O Caminho Universal)

Resumo da Ópera

Título: Codificação Esqueleto-para-Imagem: Habilitando Aprendizado de Representação de Esqueleto via Modelos de Visão Pré-treinados

1. O Problema

2. Metodologia: Codificação Esqueleto-para-Imagem (S2I)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning