MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Die Arbeit stellt MoBind vor, ein hierarchisches kontrastives Lernframework, das IMU-Signale und Video-Pose-Sequenzen durch die Ausblendung visueller Hintergründe, die semantische Zuordnung von IMU-Sensoren zu Körperteilen und eine feingranulare zeitliche Ausrichtung auf Sub-Sekunden-Ebene präzise verbindet, um Aufgaben wie Cross-Modal-Retrieval, Synchronisation und Aktionserkennung zu verbessern.

Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

MoBind: Der „Kleber" zwischen Bewegungssensoren und Videos

Stellen Sie sich vor, Sie haben zwei völlig unterschiedliche Geschichten über denselben Tanz.

  1. Die erste Geschichte wird von kleinen Sensoren erzählt, die an den Händen, Knien und Füßen eines Tänzers kleben. Sie wissen genau, wie sich das Gelenk bewegt, aber sie können nicht sehen, wer tanzt oder wo er sich befindet.
  2. Die zweite Geschichte ist ein Video. Man sieht den ganzen Körper, die Kleidung und den Hintergrund, aber die Kamera ist manchmal unscharf, der Tänzer wird verdeckt oder die Aufnahmen sind nicht perfekt synchron mit den Sensoren.

Das Problem: Bisher war es wie ein Puzzle, bei dem die Teile aus zwei verschiedenen Sets kamen. Man wusste nicht genau, welches Sensor-Signal zu welchem Video-Moment gehört.

MoBind ist die neue Lösung, die diese beiden Welten zusammenklebt. Hier ist, wie es funktioniert, ganz einfach erklärt:

1. Das Problem mit dem „Lärm"

Stellen Sie sich vor, Sie versuchen, ein Gespräch in einer lauten Disco zu hören. Wenn Sie auf das ganze Bild schauen (das Video), sehen Sie auch die tanzende Menge, die Lichter und die Wände. Das ist für die Sensoren irrelevant. Die Sensoren interessieren sich nur für die Bewegung des Körpers, nicht für den Hintergrund.

MoBind macht etwas Cleveres: Es ignoriert das Video nicht, sondern schaut sich nur die „Sticks" an – also die Skelett-Bewegungen des Tänzers. Es filtert den „Lärm" (Hintergrund, Kleidung, Lichter) heraus und konzentriert sich nur auf die reine Bewegung.

2. Der „Ortsbestimmungs-Check" (Lokale Bindung)

Früher haben Computer versucht, den ganzen Körper auf einmal mit den ganzen Sensoren zu vergleichen. Das ist wie zu versuchen, einen ganzen Orchesterklang mit einem einzelnen Geigen-Sensor zu vergleichen. Das funktioniert oft nicht gut, weil die Details verloren gehen.

MoBind macht es anders: Es zerlegt den Körper in Teile.

  • Es nimmt den Sensor am linken Handgelenk und vergleicht ihn nur mit der Bewegung des linken Arms im Video.
  • Es nimmt den Sensor am rechten Knie und vergleicht ihn nur mit dem rechten Knie im Video.

Stellen Sie sich vor, Sie haben einen Detektiv, der nicht den ganzen Raum absucht, sondern sich genau auf die Person konzentriert, die den Sensor trägt. So kann MoBind genau sagen: „Aha, dieser Sensor gehört zu diesem Arm in diesem Video."

3. Der „Taktgeber" (Zeitliche Synchronisation)

Oft sind Video und Sensoren nicht perfekt aufeinander abgestimmt. Das Video könnte eine halbe Sekunde später starten als die Sensoren.
MoBind ist wie ein extrem genauer Dirigent. Es hört nicht nur auf den groben Rhythmus (ist es ein Walzer?), sondern auf die feinsten Taktzeichen. Es kann erkennen, wenn ein Sensor-Signal nur eine winzige Verzögerung hat, und diese korrigieren. Es synchronisiert die beiden Welten auf eine Genauigkeit von weniger als einer Sekunde – fast wie auf den Millimeter genau.

4. Der „Gedächtnis-Trainer" (MTP)

Ein großes Problem bei solchen Systemen ist, dass sie sich zu sehr auf die feinen Details konzentrieren und vergessen, was eigentlich getanzt wird (z. B. „Walzer" vs. „Tango").
MoBind nutzt einen Trick namens „Masked Token Prediction". Stellen Sie sich vor, Sie spielen ein Spiel, bei dem Sie einen Satz lesen, aber einige Wörter sind verdeckt. Sie müssen die fehlenden Wörter erraten.
MoBind macht das mit den Sensordaten: Es verdeckt Teile der Daten und zwingt das System, den Kontext zu verstehen, um sie zu ergänzen. Dadurch lernt das System nicht nur die feinen Details, sondern behält auch das große Ganze im Kopf: Es weiß immer noch, dass es sich um einen Walzer handelt, nicht nur um eine Bewegung.

Was bringt uns das? (Die Anwendung)

Dank MoBind können wir jetzt Dinge tun, die früher unmöglich oder sehr schwer waren:

  • Die „Suchmaschine" für Bewegungen: Sie können ein kurzes Sensormuster aufnehmen (z. B. wie jemand läuft) und sofort das passende Video in einer riesigen Datenbank finden – ohne dass das Video synchronisiert sein muss.
  • Die „Geister-Jäger": In einem Video mit vielen Menschen kann MoBind genau sagen, welcher Sensor zu welcher Person gehört. Selbst wenn sich die Personen kreuzen oder einer kurz aus dem Bild verschwindet, weiß das System: „Der Sensor am linken Handgelenk gehört immer noch zu Person A."
  • Rehabilitation ohne Stress: Ärzte können Sensoren an Patienten kleben und das Video später automatisch mit den Sensordaten abgleichen, ohne manuell alles synchronisieren zu müssen. Das spart Zeit und Fehler.

Zusammenfassend:
MoBind ist wie ein genialer Dolmetscher, der zwei verschiedene Sprachen (Sensoren und Video) nicht nur versteht, sondern sie so perfekt aufeinander abstimmt, dass sie als eine einzige, klare Geschichte erzählt werden. Es ignoriert den Hintergrund, achtet auf die Details jedes Körperteils und stellt sicher, dass alles im richtigen Takt läuft.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →