MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Each language version is independently generated for its own context, not a direct translation.

🎬 MoBind: De "Taalvertaler" tussen je Lichaam en je Camera

Stel je voor dat je twee vrienden hebt die een gesprek voeren, maar ze spreken totaal verschillende talen.

Vriend A (De IMU-sensoren): Dit zijn kleine bewegingssensoren die je op je lichaam plakt (zoals op je pols, knie of rug). Ze praten in een taal van "trillingen, versnellingen en hoeken". Ze weten precies hoe je beweegt, maar ze hebben geen idee wat je ziet of wie er om je heen is.
Vriend B (De Videocamera): Deze kijkt naar de wereld en ziet bewegingen als beelden. Maar een camera kan soms verwarren door achtergronden, schaduwen of als iemand voorbij loopt. Hij weet niet precies hoe hard je hartslag is of hoe je spieren spannen.

Het probleem? Ze praten langs elkaar heen. Als je wilt weten of de beweging van je arm op de video exact overeenkomt met de trilling van de sensor op je arm, is dat heel lastig te synchroniseren. Vaak moet je dure apparatuur gebruiken of handmatig tellen om ze op één lijn te krijgen.

MoBind is de oplossing. Het is een slim computerprogramma dat deze twee vrienden leert om perfect met elkaar te praten, zonder dat ze hun eigen taal hoeven te vergeten.

🧩 Hoe werkt MoBind? (De drie geheimen)

De onderzoekers hebben drie slimme trucs bedacht om dit gesprek te laten slagen:

1. Vergeet de achtergrond, focus op de dans 🕺

Normaal gesproken kijken computers naar alle pixels in een video (de muur, de vloer, de mensen op de achtergrond). Dat is als proberen te luisteren naar een zanger in een drukke kroeg.
MoBind doet iets anders: het negeert de "kroeg" en kijkt alleen naar het skelet (de lijnen van het menselijk lichaam).

Vergelijking: Het is alsof je een danswedstrijd bekijkt en alleen naar de dansers kijkt, terwijl je de rest van de zaal zwart maakt. Zo weet het programma precies welke beweging bij welke sensor hoort, zonder dat de achtergrond het verstoort.

2. De "Lokale Matchmaker" 🤝

Stel je voor dat je sensoren op je linkerarm, rechterbeen en hoofd hebt. Als je de hele video en alle sensoren in één grote soep gooit, raakt het programma in de war.
MoBind werkt als een lokale matchmaker. Het koppelt elke sensor direct aan het lichaamsdeel waar hij op zit.

Vergelijking: In plaats van te zeggen "Iemand beweegt", zegt MoBind: "De sensor op je linkerelleboog praat met de beweging van je linkerelleboog in de video." Hierdoor kan het programma heel precies zien welk deel van het lichaam welk deel van de sensor is.

3. De "Tijdsdop" (Sub-seconden synchronisatie) ⏱️

Dit is de magische truc. Veel oude methoden zeggen: "Deze clip is 'lopen' en die clip is ook 'lopen', dus ze zijn gelijk." Maar dat is niet genoeg. Je wilt weten of de sensor exact op hetzelfde moment trilt als de voet in de video de grond raakt.
MoBind kijkt niet naar het hele filmpje, maar naar kleine stukjes (zoals frames in een stripverhaal).

Vergelijking: Het is alsof je twee films naast elkaar legt en kijkt of de lippen van de acteur exact samenvallen met de geluidsgolven. MoBind doet dit voor bewegingen: het zoekt de perfecte timing, zelfs als het verschil maar een fractie van een seconde is.

🎯 Wat kan je hiermee doen?

Omdat MoBind deze twee talen zo goed heeft vertaald, kan het nu coole dingen doen die voorheen onmogelijk waren:

Zoeken zonder te zoeken (Cross-modal retrieval):
Je kunt een video van iemand rennen invoeren, en het programma vindt direct de opname van de sensoren van die persoon, zelfs als je de sensoren niet hebt opgenomen op hetzelfde moment. Of andersom: je hebt een sensoropname, en het programma vindt het bijbehorende filmpje.
- Vergelijking: Je zingt een deuntje, en Google vindt het nummer. Maar dan met bewegingen.
De perfecte tijd (Synchronisatie):
Als je sensoren en camera niet op hetzelfde moment zijn gestart (misschien was de batterij leeg of de tijd niet goed), kan MoBind het verschil berekenen en de beelden automatisch op elkaar laten vallen. Geen handmatig tellen meer!
Wie is wie? (Locatie):
In een zaal met tien mensen en tien sensoren, weet MoBind precies welk sensor bij welke persoon hoort. En nog beter: het weet ook op welk lichaamsdeel de sensor zit (bijv. "die sensor zit op de linkerknie van de persoon in het blauwe shirt").
- Vergelijking: Het is als een detective die in een drukke treinstation precies weet welk horloge bij welke reiziger hoort, zelfs als ze allemaal weglopen.
Actie herkennen:
Omdat het programma zo goed begrijpt hoe beweging eruitziet, kan het ook heel goed zeggen: "Ah, dit is 'tennis spelen' en niet 'badminton'."

🏆 Waarom is dit belangrijk?

Vroeger moesten wetenschappers en sportanalisten urenlang handmatig kijken of hun data klopte. Met MoBind wordt dit automatisch, snel en extreem nauwkeurig.

Het is alsof je een tolk hebt die niet alleen vertaalt, maar ook de emotie, de timing en de context perfect begrijpt. Of het nu gaat om sportprestaties, revalidatie (hulp bij herstel na een blessure) of het analyseren van bewegingen in de echte wereld: MoBind zorgt ervoor dat de sensoren en de camera eindelijk "op één lijn" zitten.

Kortom: MoBind is de lijm die de fysieke wereld (sensoren) en de visuele wereld (video) samenplakt, zodat computers eindelijk kunnen zien en voelen wat er gebeurt.

Each language version is independently generated for its own context, not a direct translation.

Titel: MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment

Auteurs: Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai (Australian Institute for Machine Learning, Adelaide University).

1. Probleemstelling

Het begrijpen van menselijke beweging is cruciaal voor toepassingen zoals actieherkenning, sportanalyse en revalidatie. Hoewel video rijke ruimtelijke en semantische informatie biedt, is het gevoelig voor occlusie en perspectiefveranderingen. Inertial Measurement Units (IMU's) bieden daarentegen precieze, tijdsdichte bewegingssignalen, maar missen visuele context.

Bestaande methoden voor het koppelen van IMU en video (cross-modal learning) hebben drie belangrijke beperkingen:

Irrelevante visuele achtergrond: Veel methoden proberen IMU's direct te koppelen aan ruwe pixels, wat leidt tot ruis door achtergrondobjecten die niets met de beweging te maken hebben.
Gebrek aan sub-seconden synchronisatie: Bestaande contrastieve learning modellen comprimeren clips vaak tot één globaal vector. Dit is goed voor grove actieherkenning (bijv. "lopen" vs. "rennen"), maar faalt bij het vastleggen van fijne tijdsstructuren (faseverschuivingen, korte vertragingen). Hierdoor zijn ze ongeschikt voor kalibratie-vrije synchronisatie.
Complexiteit van multi-sensor configuraties: IMU's worden vaak op meerdere lichaamsdelen gedragen. Het naïef samenvoegen van deze signalen faalt in het vastleggen van de specifieke ruimtelijke en temporele relaties tussen een sensor en het bijbehorende lichaamsdeel.

De kernvraag is: hoe creëer je een gezamenlijke representatie die zowel grove semantische consistentie behoudt als fijne, sub-seconden tijdsalignatie mogelijk maakt tussen IMU-signalen en video-gebaseerde beweging?

2. Methodologie: MoBind Framework

MoBind is een hiërarchisch contrastief leerframework dat een gezamenlijke representatie leert tussen IMU-signalen en 2D-pose-sequenties (skeletbeweging) uit video. Het framework bestaat uit drie hoofdblokken:

A. Modality-Specifieke Modules

In plaats van ruwe pixels te gebruiken, extraheren ze eerst 2D-skeletcoördinaten uit de video.

IMU Module: Verwerkt $N$ IMU-streams. Elke stream wordt verwerkt door een encoder bestaande uit 1D-convoluties gevolgd door een Transformer-laag. Dit genereert een reeks tijds-tokens.
Pose Module: De volledige skeletsequentie wordt opgesplitst in lokale segmenten die overeenkomen met de $N$ lichaamsdelen waar de IMU's op zitten. Elk lichaamsdeel heeft een eigen encoder (zelfde architectuur als de IMU-module).
Hierarchische Aggregatie: Het model leert op drie niveaus:
1. Token-niveau: Fijne tijdsalignatie van individuele tokens.
2. Lokaal niveau: Alignatie van een specifieke IMU met het bijbehorende lichaamsdeel.
3. Globaal niveau: Aggregatie van alle lokale representaties tot een volledige lichaamsrepresentatie.

B. Hiërarchische Contrastieve Alignatie

Om de drie uitdagingen aan te pakken, wordt een hiërarchische contrastieve loss gebruikt (InfoNCE loss):

Token-level alignment: Matcht individuele tijds-tokens tussen IMU en pose om sub-seconden synchronisatie te forceren.
Local-level alignment: Matcht elke IMU-sensor specifiek met het bewegingspatroon van het bijbehorende lichaamsdeel (filtert irrelevante achtergrond en andere lichaamsdelen).
Global-level alignment: Matcht de geaggregeerde IMU-representatie met de globale skeletrepresentatie om actie-niveau semantiek te behouden.

C. Masked Token Prediction (MTP)

Een puur fijne-granulair focus kan leiden tot het verlies van grove actie-semantiek (belangrijk voor actieherkenning). Daarom introduceert MoBind een MTP-auxiliary task:

Een deel van de IMU-tokens wordt gemaskeerd.
Een decoder probeert deze gemaskeerde tokens te voorspellen op basis van de context.
Dit fungeert als regularisatie, waardoor het model gedwongen wordt om zowel fijne tijdsdynamiek als hoge-niveau semantische structuren te behouden.

3. Belangrijkste Bijdragen

Fijne-granulair IMU-Video Alignement: Het eerste framework dat specifiek is ontworpen voor sub-seconden synchronisatie tussen IMU en video, zonder handmatige kalibratie.
Semantisch Gefundeerde Multi-Sensor Alignatie: Door IMU's te koppelen aan specifieke lichaamsdelen (in plaats van ruwe pixels of globale clips), lost het het probleem van irrelevante achtergrond en sensor-specifieke dynamiek op.
Hiërarchisch Leerdoel: Een unieke combinatie van token-, lokaal- en globaal contrastief leren, aangevuld met MTP, wat zorgt voor een balans tussen tijdsprecisie en semantische consistentie.
Uitgebreide Evaluatie: Toepassing op vier downstream taken: cross-modal retrieval, tijdsynchronisatie, subject-lichaamsdeel localisatie en actieherkenning.

4. Resultaten

MoBind is geëvalueerd op drie datasets: mRi, TotalCapture en EgoHumans. Het presteert consequent beter dan sterke baselines (zoals IMU2CLIP, DeSPITE, SyncNet, SyncWISE).

Cross-Modal Retrieval:
- MoBind behaalt state-of-the-art resultaten in zowel IMU→Video als Video→IMU retrieval.
- Op de mRi-dataset bereikt het een Recall@1 van 94% (IMU→Video), vergeleken met 77% voor de beste baseline (SyncNet).
- Het vermijdt verwarring tussen acties die semantisch gelijk zijn maar tijdelijk verschoven zijn (een zwakte van globale embeddings).
Tijdsynchronisatie:
- Het model kan tijdelijke offsets tussen video en IMU schatten met een gemiddelde absolute fout (MAE) van slechts 0.47s op mRi en 0.05s op TotalCapture.
- Het bereikt een nauwkeurigheid van 88-100% binnen een tolerantie van 200ms, wat aanzienlijk beter is dan bestaande methoden.
Subject en Lichaamsdeel Localisatie:
- Kan succesvol bepalen wie de IMU draagt in een meer-persoonsscène (98.12% nauwkeurigheid op EgoHumans).
- Kan ook bepalen waar op het lichaam de sensor zit (bijv. linkerarm vs. rechterbeen), wat essentieel is voor tracking bij occlusie.
Actieherkenning (HAR):
- Dankzij de MTP-taak behoudt het model sterke semantische eigenschappen. MoBind presteert het beste bij actieherkenning (98% op mRi bij finetuning), wat aantoont dat de representatie zowel fijn als semantisch rijk is.
Robuustheid:
- Het model blijft effectief presteren zelfs wanneer een deel van de sensoren uitvalt (simulatie van sensor-fouten), wat het geschikt maakt voor real-world toepassingen.

5. Betekenis en Impact

MoBind biedt een doorbraak in multimodaal menselijk bewegingsbegrip.

Praktische Toepassing: Het elimineert de noodzaak voor complexe, handmatige kalibratieprocedures (zoals trigger-pulsen of globale timestamps) voor het synchroniseren van IMU's en camera's. Dit maakt het verzamelen van multimodale data veel toegankelijker.
Privacy: Het stelt systemen in staat om relevante video-informatie te vinden op basis van IMU-data (of vice versa) zonder dat de video zelf direct beschikbaar hoeft te zijn, wat nuttig is in privacy-gevoelige scenario's.
Robuuste Tracking: Door de koppeling van sensoren aan specifieke lichaamsdelen en personen, wordt tracking robuuster tegenover occlusies en het verlaten/terugkomen van personen in het beeldveld.

Samenvattend introduceert MoBind een nieuwe standaard voor het koppelen van draagbare sensoren en visuele data, waarbij het de kloof overbrugt tussen grove semantische categorisatie en precieze, sub-seconden tijdsalignatie.