Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een taal wilt leren die alleen door mensen wordt gesproken die in een heel specifiek land wonen (laten we dat "Beenderenland" noemen). Maar jij bent een meester-vertaler die alleen maar ervaring heeft met het vertalen van boeken in een heel ander land, "Foto-land".

Normaal gesproken zou je denken: "Oh nee, ik kan die taal niet vertalen, mijn woordenboek (mijn model) is gemaakt voor foto's, niet voor beenderen."

Dat is precies het probleem waar deze wetenschappers mee te maken kregen. Ze wilden de krachtige, slimme kunstmatige intelligentie gebruiken die we hebben getraind op miljarden foto's (zoals het herkennen van katten of auto's), om menselijke bewegingen te begrijpen op basis van skeletten (alleen de lijntjes en puntjes van een mens).

Het probleem? Skeletten zijn niet als foto's. Een foto is een dicht, kleurrijk vlak. Een skelet is een paar losse puntjes in de lucht. Je kunt een foto niet zomaar in een skelet veranderen, en je kunt een skelet niet zomaar in een foto gieten zonder dat het er raar uitziet.

De Oplossing: "Skelet-naar-Foto" (S2I)

De auteurs van dit paper hebben een slimme truc bedacht, die ze Skelet-naar-Foto-codering (S2I) noemen.

Stel je voor dat je een danseres hebt die beweegt. In de computerwereld is dit een reeks van puntjes die door de tijd heen bewegen.

De Opdeling: De wetenschappers nemen dit skelet en verdelen het in vijf logische stukken, net zoals je een pop zou inpakken: romp, linkerarm, rechterarm, linkerbeen en rechterbeen.
De Vertaling: Ze nemen de bewegingen van deze vijf stukken en "plakken" ze naast elkaar op een canvas, alsof ze een schilderij maken.
- De X-richting (links/rechts) wordt de rode kleur.
- De Y-richting (hoog/laag) wordt de groene kleur.
- De Z-richting (voor/achter) wordt de blauwe kleur.
Het Resultaat: Plotseling ziet de computer niet meer een raar skelet van puntjes, maar een kleurrijk, abstract schilderij dat eruitziet als een foto.

Waarom is dit zo geweldig?

Nu kunnen ze die super-slimme "Foto-vertaler" (het model dat getraind is op miljarden foto's) gewoon op dit nieuwe "skelet-schilderij" laten werken.

Vroeger: Je moest voor elk nieuw type skelet (sommige hebben 20 puntjes, andere 25, andere 13) een heel nieuw, speciaal model bouwen. Dat was als het bouwen van een nieuwe auto voor elke nieuwe weg.
Nu: Omdat ze het skelet omgezet hebben in een "foto", kunnen ze één en dezelfde krachtige auto gebruiken voor alle wegen. Het maakt niet uit of het skelet 13 of 25 puntjes heeft; het wordt allemaal omgezet in hetzelfde soort "schilderij".

De Analoge Vergelijking

Het oude probleem: Het is alsof je probeert een boek in het Chinees te lezen met een vertaler die alleen Frans spreekt. Je moet eerst het hele boek handmatig herschrijven naar het Frans, en als het boek een andere indeling heeft, faalt je vertaler.
Deze nieuwe methode: Het is alsof je het Chinese boek eerst in een pictogram omzet. Omdat de vertaler (het AI-model) al duizenden pictogrammen heeft gezien, begrijpt hij het verhaal direct, zonder dat je de indeling van het boek hoeft aan te passen.

Wat levert dit op?

Minder werk: Je hoeft geen nieuwe, dure modellen te bouwen voor elke nieuwe dataset.
Beter leren: Omdat het model al zo slim is (het heeft al miljoenen foto's gezien), leert het de bewegingen van mensen veel sneller en beter dan als je het vanaf nul zou laten leren.
Alles-in-één: Je kunt nu verschillende datasets (sommige met veel puntjes, sommige met weinig) door elkaar heen gebruiken om het model nog slimmer te maken. Het is alsof je een student laat studeren uit boeken van verschillende scholen, omdat je ze allemaal in hetzelfde formaat hebt omgezet.

Kortom: Ze hebben een brug gebouwd tussen de wereld van foto's en de wereld van skeletten. Door skeletten eruit te laten zien als foto's, kunnen ze de slimste "foto-bots" van de wereld gebruiken om te begrijpen hoe mensen bewegen, rennen en dansen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel grote, vooraf getrainde visiemodellen (zoals Vision Transformers, MAE en VLMs) indrukwekkende resultaten hebben geboekt in diverse visuele taken, is hun directe toepassing op 3D menselijke skeletdata problematisch. Dit komt door fundamentele verschillen in dataformaten:

Datastructuur: Visiemodellen zijn ontworpen voor dichte 2D beelden (bijv. $3 \times 224 \times 224 $), terwijl skeletdata bestaat uit schaarse, tijdreeks-gebaseerde 3D coördinaten van gewrichten ($ T \times J \times 3$).
Heterogeniteit: Bestaande skeletmethodes zijn vaak specifiek ontworpen voor homogene datasets met een vast aantal gewrichten. Ze kunnen moeilijk omgaan met data uit verschillende bronnen die verschillende aantallen gewrichten hebben (bijv. 13, 20 of 25 gewrichten) of verschillende coördinatenstelsels.
Schaarste: Er is een gebrek aan grote, gelabelde skeletdatasets, wat het trainen van specifieke skeletmodellen beperkt.
Integratie: Het is moeilijk skeletdata naadloos te integreren in multi-modale actieherkenning zonder extra modeltakken toe te voegen.

Methodologie: Skeleton-to-Image Encoding (S2I)

De auteurs stellen Skeleton-to-Image Encoding (S2I) voor, een nieuwe representatiemethode die skeletsequenties omzet in beeldachtige data, waardoor krachtige vooraf getrainde visiemodellen direct kunnen worden gebruikt.

De S2I-pijplijn:

Semantische Partitionering: Het menselijk skelet wordt opgedeeld in vijf semantische lichaamsdelen: romp, linkerarm, rechterarm, linkerpoot en rechterpoot.
Ordening: Binnen elk deel worden de gewrichten gerangschikt volgens hun kinematische keten (bijv. van heup naar enkel).
Kanaal-mapping: De 3D-coördinaten $(x, y, z)$ van de gewrichten worden direct gemapt naar de RGB-kleurkanalen van een afbeelding.
Temporale Stapeling: De geordende gewrichten over de tijd ( $T$ frames) worden gestapeld om een ruimtelijk-temporele feature map te vormen.
Resizing: De resulterende data wordt via lineaire interpolatie opgeschaald naar de standaard invoerformaat van visiemodellen (bijv. $224 \times 224$).

Trainingsstrategie:

Zelftoezicht (Self-Supervised Learning): De auteurs gebruiken de S2I-gecodeerde beelden als invoer voor bestaande visiemodellen, specifiek MAE (Masked Autoencoders) en DiffMAE (Diffusion-based MAE).
Pre-training: De modellen worden voorgeprogrammeerd op grote skeletdatasets met behulp van een maskeringsstrategie (random masking, joint masking, temporal masking). De taak is om de gemaskeerde delen van het "skeletbeeld" te reconstrueren.
Fine-tuning: Voor downstream taken (zoals actieherkenning) wordt een classificatiehoofd toegevoegd en het model wordt verder getraind (fine-tuning) of alleen het hoofd wordt getraind (linear probing) met een bevroren encoder.

Belangrijkste Bijdragen

Brug tussen Modaliteiten: De eerste methode die vooraf getrainde visiemodellen succesvol toepast op skeletdata door een uniek "beeldachtig" formaat te creëren, waardoor kennis uit de visuele domein wordt overgedragen.
Universele Representatie (Format-Agnostic): S2I lost het probleem van heterogene skeletformaten op. Omdat de data wordt omgezet in een gestandaardiseerd beeldformaat, kan één model worden getraind op datasets met verschillende aantallen gewrichten (bijv. 13, 20 en 25) zonder dat er specifieke aanpassingen voor het skelet nodig zijn.
Universeel Pre-training: De auteurs tonen aan dat het gezamenlijk trainen op meerdere heterogene datasets (Universal Pretraining) leidt tot betere generalisatie dan het trainen op individuele datasets.
State-of-the-Art Resultaten: De methode presteert competitief of superaat bestaande methodes die specifiek voor skeletdata zijn ontworpen, zonder de complexiteit van skelet-specifieke architecturen.

Resultaten

De methode is uitgebreid getest op vijf benchmark datasets: NTU-60, NTU-120, PKU-MMD, NW-UCLA en Toyota Smarthome.

Actieherkenning: Op NTU-60 en NTU-120 bereikt S2I (en de 3-stroom variant met bot- en bewegingsdata) state-of-the-art resultaten, zowel bij lineaire evaluatie als bij full fine-tuning. Bijvoorbeeld, op NTU-60 (C-sub) bereikt de 3-stroom S2I 93.1% (fine-tuning).
Cross-Format Transfer Learning: Bij het overdragen van een model getraind op NTU-60 (25 gewrichten) naar Toyota (13 gewrichten) of NW-UCLA (20 gewrichten), presteert S2I aanzienlijk beter dan bestaande methodes. Dit bewijst de robuustheid tegen variaties in skeletstructuur.
Universeel Pre-training: Het gezamenlijk pre-trainen op meerdere datasets resulteert in een verbetering van 5.3% op PKU-MMD II en 3.5% op Toyota ten opzichte van enkel-dataset pre-training.
Semi-supervised Learning: Zelfs met slechts 1% gelabelde data behaalt de methode sterke resultaten, wat aantoont dat de zelftoezichtstrategie effectief is.

Betekenis en Impact

Dit onderzoek is significant omdat het een fundamentele barrière doorbreekt in de computer vision gemeenschap: de kloof tussen 2D beeldmodellen en 3D skeletdata.

Efficiëntie: Het elimineert de noodzaak om complexe, skelet-specifieke netwerken (zoals GCNs) te ontwerpen en te trainen, en maakt in plaats daarvan gebruik van de enorme kracht van bestaande visuele foundation modellen.
Scalabiliteit: Het biedt een schaalbare oplossing voor de groeiende diversiteit aan skeletdatasets, waardoor het mogelijk wordt om modellen te trainen die universeel toepasbaar zijn op verschillende sensoren en opnamesystemen.
Toekomstperspectief: De methode opent de deur voor geavanceerde multi-modale taken, waarbij skeletdata en RGB-video of andere sensoren naadloos kunnen worden gecombineerd binnen één enkel modelarchitectuur.

Kortom, S2I transformeert skeletdata van een niche, moeilijk te verwerken formaat naar een universeel in te lezen beeldformaat, waardoor de state-of-the-art van visiemodellen direct beschikbaar komt voor de analyse van menselijke beweging.

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

De Oplossing: "Skelet-naar-Foto" (S2I)

Waarom is dit zo geweldig?

De Analoge Vergelijking

Wat levert dit op?

Probleemstelling

Methodologie: Skeleton-to-Image Encoding (S2I)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning