MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Each language version is independently generated for its own context, not a direct translation.

MoBind: Der „Kleber" zwischen Bewegungssensoren und Videos

Stellen Sie sich vor, Sie haben zwei völlig unterschiedliche Geschichten über denselben Tanz.

Die erste Geschichte wird von kleinen Sensoren erzählt, die an den Händen, Knien und Füßen eines Tänzers kleben. Sie wissen genau, wie sich das Gelenk bewegt, aber sie können nicht sehen, wer tanzt oder wo er sich befindet.
Die zweite Geschichte ist ein Video. Man sieht den ganzen Körper, die Kleidung und den Hintergrund, aber die Kamera ist manchmal unscharf, der Tänzer wird verdeckt oder die Aufnahmen sind nicht perfekt synchron mit den Sensoren.

Das Problem: Bisher war es wie ein Puzzle, bei dem die Teile aus zwei verschiedenen Sets kamen. Man wusste nicht genau, welches Sensor-Signal zu welchem Video-Moment gehört.

MoBind ist die neue Lösung, die diese beiden Welten zusammenklebt. Hier ist, wie es funktioniert, ganz einfach erklärt:

1. Das Problem mit dem „Lärm"

Stellen Sie sich vor, Sie versuchen, ein Gespräch in einer lauten Disco zu hören. Wenn Sie auf das ganze Bild schauen (das Video), sehen Sie auch die tanzende Menge, die Lichter und die Wände. Das ist für die Sensoren irrelevant. Die Sensoren interessieren sich nur für die Bewegung des Körpers, nicht für den Hintergrund.

MoBind macht etwas Cleveres: Es ignoriert das Video nicht, sondern schaut sich nur die „Sticks" an – also die Skelett-Bewegungen des Tänzers. Es filtert den „Lärm" (Hintergrund, Kleidung, Lichter) heraus und konzentriert sich nur auf die reine Bewegung.

2. Der „Ortsbestimmungs-Check" (Lokale Bindung)

Früher haben Computer versucht, den ganzen Körper auf einmal mit den ganzen Sensoren zu vergleichen. Das ist wie zu versuchen, einen ganzen Orchesterklang mit einem einzelnen Geigen-Sensor zu vergleichen. Das funktioniert oft nicht gut, weil die Details verloren gehen.

MoBind macht es anders: Es zerlegt den Körper in Teile.

Es nimmt den Sensor am linken Handgelenk und vergleicht ihn nur mit der Bewegung des linken Arms im Video.
Es nimmt den Sensor am rechten Knie und vergleicht ihn nur mit dem rechten Knie im Video.

Stellen Sie sich vor, Sie haben einen Detektiv, der nicht den ganzen Raum absucht, sondern sich genau auf die Person konzentriert, die den Sensor trägt. So kann MoBind genau sagen: „Aha, dieser Sensor gehört zu diesem Arm in diesem Video."

3. Der „Taktgeber" (Zeitliche Synchronisation)

Oft sind Video und Sensoren nicht perfekt aufeinander abgestimmt. Das Video könnte eine halbe Sekunde später starten als die Sensoren.
MoBind ist wie ein extrem genauer Dirigent. Es hört nicht nur auf den groben Rhythmus (ist es ein Walzer?), sondern auf die feinsten Taktzeichen. Es kann erkennen, wenn ein Sensor-Signal nur eine winzige Verzögerung hat, und diese korrigieren. Es synchronisiert die beiden Welten auf eine Genauigkeit von weniger als einer Sekunde – fast wie auf den Millimeter genau.

4. Der „Gedächtnis-Trainer" (MTP)

Ein großes Problem bei solchen Systemen ist, dass sie sich zu sehr auf die feinen Details konzentrieren und vergessen, was eigentlich getanzt wird (z. B. „Walzer" vs. „Tango").
MoBind nutzt einen Trick namens „Masked Token Prediction". Stellen Sie sich vor, Sie spielen ein Spiel, bei dem Sie einen Satz lesen, aber einige Wörter sind verdeckt. Sie müssen die fehlenden Wörter erraten.
MoBind macht das mit den Sensordaten: Es verdeckt Teile der Daten und zwingt das System, den Kontext zu verstehen, um sie zu ergänzen. Dadurch lernt das System nicht nur die feinen Details, sondern behält auch das große Ganze im Kopf: Es weiß immer noch, dass es sich um einen Walzer handelt, nicht nur um eine Bewegung.

Was bringt uns das? (Die Anwendung)

Dank MoBind können wir jetzt Dinge tun, die früher unmöglich oder sehr schwer waren:

Die „Suchmaschine" für Bewegungen: Sie können ein kurzes Sensormuster aufnehmen (z. B. wie jemand läuft) und sofort das passende Video in einer riesigen Datenbank finden – ohne dass das Video synchronisiert sein muss.
Die „Geister-Jäger": In einem Video mit vielen Menschen kann MoBind genau sagen, welcher Sensor zu welcher Person gehört. Selbst wenn sich die Personen kreuzen oder einer kurz aus dem Bild verschwindet, weiß das System: „Der Sensor am linken Handgelenk gehört immer noch zu Person A."
Rehabilitation ohne Stress: Ärzte können Sensoren an Patienten kleben und das Video später automatisch mit den Sensordaten abgleichen, ohne manuell alles synchronisieren zu müssen. Das spart Zeit und Fehler.

Zusammenfassend:
MoBind ist wie ein genialer Dolmetscher, der zwei verschiedene Sprachen (Sensoren und Video) nicht nur versteht, sondern sie so perfekt aufeinander abstimmt, dass sie als eine einzige, klare Geschichte erzählt werden. Es ignoriert den Hintergrund, achtet auf die Details jedes Körperteils und stellt sicher, dass alles im richtigen Takt läuft.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel der Arbeit ist es, eine gemeinsame Repräsentation zwischen Inertial Measurement Unit (IMU)-Signalen und 2-Pose-Sequenzen (aus Video extrahiert) zu erlernen. Bisherige Ansätze zur IMU-Vision-Kopplung konzentrierten sich oft auf die grobe semantische Klassifizierung von Aktionen (Human Activity Recognition, HAR) und komprimierten die Daten in einen einzigen globalen Vektor pro Clip. Dies führt zu folgenden Limitierungen:

Fehlende Feinabstimmung: Sub-sekündliche zeitliche Synchronisation ist kaum möglich, da Phasenverschiebungen oder Wiederholungsgrenzen innerhalb derselben Aktion nicht erfasst werden.
Irrelevante Hintergründe: Die Verwendung von Rohpixeln aus Videos führt dazu, dass visuelle Hintergründe (die nichts mit der Bewegung zu tun haben) die Repräsentation verzerren.
Komplexe Sensor-Setups: Bei Multi-Sensor-IMU-Konfigurationen (z. B. mehrere Sensoren am Körper) wird die räumliche und zeitliche Spezifität der einzelnen Sensoren oft durch naives Verkettung der Signale verloren.
Fehlende Kalibrierung: Herkömmliche Methoden zur zeitlichen Synchronisation erfordern oft manuelle Kalibrierung, globale Zeitstempel oder Trigger-Pulse, was den Einsatz in realen Szenarien erschwert.

2. Methodik: MoBind Framework

MoBind ist ein hierarchisches kontrastives Lernframework, das drei Hauptkomponenten umfasst, um die oben genannten Probleme zu lösen:

A. Modale spezifische Module

IMU-Modul: Nimmt N IMU-Signale (je ein Sensor pro Körperteil) entgegen. Jeder Signalstrom wird durch 1D-Convolutional-Layer und einen Transformer-Encoder verarbeitet, um eine Sequenz von zeitlichen Tokens zu erzeugen.
Pose-Modul: Extrahiert 2D-Gelenkkoordinaten aus dem Video. Basierend auf den bekannten Montagepositionen der IMUs wird das Skelett in N lokale Körperteil-Segmente zerlegt. Diese werden ebenfalls durch einen Encoder (1D-Conv + Transformer) verarbeitet, um lokale Bewegungs-Tokens zu erzeugen.
Hierarchie: Das System erzeugt drei Ebenen von Repräsentationen:
1. Token-Level: Einzelne zeitliche Segmente.
2. Lokal-Level: Repräsentation pro Sensor/Körperteil.
3. Global-Level: Aggregierte Repräsentation des gesamten Körpers (durch Verkettung und MLP).

B. Hierarchische kontrastive Ausrichtung (Hierarchical Contrastive Alignment)

Anstatt nur globale Vektoren zu vergleichen, wendet MoBind den InfoNCE-Verlust auf drei Ebenen an, um eine feinkörnige Ausrichtung zu erzwingen:

Token-Level: Aligniert einzelne zeitliche Tokens zwischen IMU und dem entsprechenden Körperteil (sub-sekündliche Synchronisation).
Lokal-Level: Aligniert den Sensor $n$ mit dem Bewegungsprofil des zugehörigen Körperteils $n$ .
Global-Level: Aligniert die aggregierte IMU-Repräsentation mit der globalen Skelett-Repräsentation (erhält die grobe semantische Konsistenz).

C. Masked Token Prediction (MTP) als Hilfsaufgabe

Um zu verhindern, dass sich das Modell nur auf die feinkörnige zeitliche Ausrichtung spezialisiert und dabei die übergeordnete semantische Bedeutung der Aktion (wichtig für HAR) verliert, wird eine MTP-Aufgabe eingeführt.

Ein Teil der IMU-Tokens wird maskiert und durch einen lernbaren Query-Vektor ersetzt.
Ein leichter Transformer versucht, die maskierten Tokens basierend auf dem Kontext vorherzusagen.
Dieser Verlust wird gemeinsam mit dem kontrastiven Verlust optimiert, um die semantische Struktur der Daten zu bewahren.

3. Wichtige Beiträge

Fokus auf Bewegungsrelevanz: Statt Rohpixeln werden Skelett-Pose-Sequenzen verwendet, um irrelevante visuelle Hintergründe zu eliminieren.
Strukturierte Multi-Sensor-Modellierung: Durch die Zerlegung des Skeletts in Körperteile und die direkte Paarung mit den jeweiligen IMUs wird die räumliche Spezifität erhalten.
Feinkörnige zeitliche Ausrichtung: Das hierarchische Design ermöglicht eine Synchronisation im Sub-Sekunden-Bereich, was für Kalibrierung-freie Anwendungen entscheidend ist.
Umfassende Downstream-Aufgaben: Das Framework unterstützt nicht nur die Synchronisation, sondern auch cross-modale Suche, Lokalisierung von Personen und Körperteilen sowie Aktionserkennung.

4. Ergebnisse

Das Modell wurde auf drei Datensätzen evaluiert: mRi, TotalCapture und EgoHumans.

Cross-Modale Suche (Retrieval): MoBind übertrifft starke Baselines (wie IMU2CLIP, DeSPITE, SyncNet) konsistent in beiden Richtungen (IMU $\to$ Video und Video $\to$ IMU). Auf mRi erreicht es z. B. einen Recall@1 von 0,94 (IMU $\to$ Video) gegenüber 0,77 bei SyncNet.
Zeitliche Synchronisation: MoBind kann zeitliche Verschiebungen (Offsets) zwischen IMU und Video automatisch korrigieren. Auf EgoHumans liegt der Fehler (MAE) unter 50 ms für alle Aktionen, und auf mRi unter 1 Sekunde. Im Vergleich zu Baselines wie SyncWISE (MAE ~3-4s) ist dies eine massive Verbesserung.
Lokalisierung (Person & Körperteil): Das Modell kann erfolgreich identifizieren, welche Person im Video den IMU-Sensor trägt (Accuracy: 0,98 auf EgoHumans) und an welchem Körperteil der Sensor angebracht ist.
Aktionserkennung (HAR): Durch die MTP-Aufgabe behält MoBind semantische Informationen bei und erreicht State-of-the-Art-Ergebnisse bei der Aktionserkennung (z. B. 0,98 Accuracy auf mRi bei Fine-Tuning).
Robustheit: Das Modell bleibt auch bei Ausfall einzelner Sensoren (simuliert durch Random Masking) funktionsfähig und liefert gute Ergebnisse, was für reale Anwendungen wichtig ist.

5. Bedeutung und Fazit

MoBind stellt einen wesentlichen Fortschritt in der multimodalen Sensorfusion dar. Es löst das Problem der feinkörnigen zeitlichen Ausrichtung zwischen IMU und Video ohne manuelle Kalibrierung.

Praktische Relevanz: Die Fähigkeit, Synchronisation und Lokalisierung automatisch durchzuführen, ermöglicht die Nutzung von Multimodal-Daten in unkontrollierten Umgebungen (z. B. Rehabilitation, Sportanalyse, Überwachung).
Datenschutz: Da die Methode cross-modale Suche ermöglicht, können IMU-Daten genutzt werden, um relevante Video-Szenen zu finden, ohne dass das Video selbst ständig gespeichert oder abgerufen werden muss (nützlich für privacy-sensitive Szenarien).
Technische Innovation: Die Kombination aus hierarchischem kontrastivem Lernen und Masked Token Prediction bietet einen neuen Paradigmenwechsel, der sowohl die zeitliche Präzision als auch die semantische Kohärenz in der Repräsentation bewahrt.

Zusammenfassend demonstriert MoBind, dass eine gezielte, hierarchische Ausrichtung von Sensordaten und visueller Pose-Information robustere und genauere Ergebnisse liefert als globale Embedding-Ansätze.