LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man tanzt.

Das alte Problem: Der starre Lehrmeister
Bisher haben Forscher den Robotern eine sehr strenge Methode beigebracht: Sie haben dem Roboter eine exakte 3D-Karte jeder einzelnen Bewegung gezeigt. „Hebe den linken Arm genau auf 1,23 Meter Höhe, beuge das Knie um 45,6 Grad."
Das Problem dabei ist, dass der Roboter wie ein auswendig lernender Schüler wird. Er merkt sich die exakten Zahlen der Trainingsbeispiele, versteht aber nicht wirklich, warum die Bewegung so aussieht. Wenn man ihn dann bittet, einen neuen Tanz zu lernen oder eine Bewegung aus einer anderen Perspektive zu machen, stolpert er, weil er nur die Zahlen auswendig gelernt hat, nicht das Prinzip des Tanzens. Er ist zu starr und kann nicht kreativ variieren.

Die neue Lösung: LaxMotion (Der lockere Coach)
Die Autoren dieses Papers, „LaxMotion", haben eine geniale Idee: Lass uns die strengen Regeln aufweichen.

Stell dir LaxMotion wie einen kreativen Tanzlehrer vor, der nicht auf die exakten Zentimeter achtet, sondern auf das Gefühl und die Struktur der Bewegung.

Hier ist, wie es funktioniert, mit ein paar einfachen Vergleichen:

Vom Foto zur Skizze (Die 2D-Idee):
Anstatt dem Roboter ein hochauflösendes 3D-Modell zu zeigen (das teuer und schwer zu bekommen ist), zeigen wir ihm nur ein einfaches 2D-Foto oder eine Videoaufnahme von der Seite.
- Der Vergleich: Stell dir vor, du zeichnest einen Menschen, der rennt, nur als Strichmännchen auf einem Blatt Papier. Du weißt nicht genau, wie weit er vom Betrachter entfernt ist (Tiefe), aber du siehst genau, wie die Arme und Beine sich bewegen.
- LaxMotion lernt aus diesen 2D-Skizzen. Es muss sich selbst ausmalen, wie die 3D-Bewegung dahinter aussehen könnte. Es gibt nicht eine richtige Antwort, sondern viele mögliche 3D-Versionen, die alle zu dem 2D-Foto passen. Das zwingt den Roboter, die Logik der Bewegung zu verstehen, statt nur Zahlen zu kopieren.
Der globale Pfad und die Gliedmaßen:
Das System trennt die Bewegung in zwei Teile:
- Wo geht es hin? (Der globale Pfad, wie eine Fußspur auf dem Boden).
- Wie bewegen sich die Glieder? (Die Arme und Beine im Verhältnis zueinander).
- Der Vergleich: Stell dir vor, du folgst jemandem, der durch einen Wald läuft. Du siehst nicht sein Gesicht, aber du siehst seine Fußspuren im Schnee (der Pfad) und wie sich seine Arme schwingen. Du kannst dir daraus ein sehr gutes Bild davon machen, wie er läuft, ohne ihn direkt zu sehen.
Die „Relaxation"-Regeln (Die Sicherheitsnetze):
Da wir keine exakte 3D-Vorlage haben, braucht der Roboter ein paar Regeln, damit er nicht ins Chaos abrutscht. LaxMotion nutzt vier „Sicherheitsnetze":
- Der Spiegel-Check: Wenn der Roboter eine 3D-Bewegung erfindet, projiziert er sie zurück auf das 2D-Bild. Passt das Bild? Wenn ja, gut.
- Der Dreh-Test: Der Roboter dreht die 3D-Bewegung im Kopf. Wenn er sie aus einer anderen Perspektive betrachtet, sieht sie immer noch natürlich aus? (Wie ein echter Mensch, der sich dreht, sieht man ihn von jeder Seite plausibel).
- Die Richtung: Ein Mensch läuft normalerweise vorwärts, nicht rückwärts mit dem Kopf nach vorne. Das System stellt sicher, dass die Körperhaltung logisch ist.
- Das Gefühl: Die Bewegung muss sich „richtig" anfühlen, nicht nur mathematisch passen.

Warum ist das besser?
Früher haben die Roboter wie ein Kopiergerät gearbeitet: Sie haben die Trainingsdaten 1:1 abgeschrieben. Das Ergebnis war oft langweilig und unflexibel.
LaxMotion arbeitet wie ein kreativer Künstler. Weil es nicht auf die exakten Zahlen fixiert ist, kann es viele verschiedene, aber trotzdem realistische Versionen derselben Bewegung erfinden. Es versteht die Struktur des Tanzes, nicht nur die Koordinaten.

Das Ergebnis:
Der Roboter kann jetzt:

Viel kreativere und vielfältigere Bewegungen machen.
Sich besser auf neue Situationen einstellen (Generalisierung).
Sogar Bewegungen aus einfachen Videos lernen, für die es gar keine teuren 3D-Messdaten gibt (z. B. Unterwasser-Szenen oder Schwerkraft-freie Bewegungen).

Zusammenfassend:
LaxMotion sagt: „Hör auf, den Roboter zu zwingen, die exakten Zahlen auswendig zu lernen. Gib ihm stattdessen die groben Umrisse und lass ihn die Struktur verstehen." Das führt zu Robotern, die sich nicht nur wie Computer, sondern wie echte, flexible Menschen bewegen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Aktuelle Modelle zur Generierung von 3D-Bewegungen aus Text (Text-to-Motion) erzielen zwar hohe Rekonstruktionsgenauigkeit auf Standard-Benchmarks, leiden jedoch unter einer mangelnden Generalisierungsfähigkeit außerhalb der Trainingsverteilung.

Das Kernproblem: Die meisten bestehenden Methoden verwenden eine präzise 3D-Supervision (Regression auf exakte Gelenkkoordinaten). Dies führt dazu, dass Modelle dazu neigen, spezifische Koordinatenmuster des Datensatzes auswendig zu lernen („Overfitting" auf niedrigstufige Details), anstatt die zugrundeliegende semantische Struktur und Kinematik zu verstehen.
Folgen: Dies schränkt die Vielfalt (Diversity) ein, da das „One-to-Many"-Problem (ein Textprompt kann viele gültige Bewegungen haben) auf ein „One-to-One"-Problem (ein Textprompt = eine exakte Koordinatenfolge) reduziert wird. Modelle werden unflexibel und generieren bei neuen Eingaben oft repetitive oder nicht plausible Bewegungen.

2. Methodik: LaxMotion

LaxMotion schlägt einen Paradigmenwechsel vor: Statt exakter 3D-Koordinaten wird die Bewegung als konsistente Erklärung globaler Trajektorien und monokularer 2D-kinematischer Hinweise gelernt. Das Framework verzichtet vollständig auf direkte 3D-Pose-Losses während des Trainings.

Die Methode basiert auf drei zentralen Säulen:

A. Strukturierte Bewegungszerlegung (Representation Reformulation)

Anstatt Roh-3D-Punkte zu verwenden, wird die Bewegung in zwei Komponenten zerlegt:

Globale Trajektorie ( $\tau$ ): Die Bewegung des Körperschwerpunkts (Root Translation).
Relative Gliedmaßenvektoren ( $v^{3D}$ ): Die relativen Vektoren zwischen Eltern- und Kindgelenken des Skeletts.
Dies ermöglicht eine mathematisch konsistente Darstellung, die auch unter Projektion (3D zu 2D) erhalten bleibt. Anstatt die exakte 3D-Sequenz zu rekonstruieren, lernt das Modell, die 3D-Struktur aus den beobachtbaren 2D-Projektionen der Gliedmaßenvektoren und der globalen Trajektorie abzuleiten.

B. Reformuliertes Trainingsparadigma (Relaxed Observability)

Das Modell wird nicht mit vollständigen 3D-Motion-Daten gefüttert, sondern nur mit partiellen Beobachtungen ( $m^{obs}$ ):

Input: Globale 3D-Trajektorie + 2D-Projektion der relativen Gliedmaßenvektoren (simuliert durch Projektion der Ground-Truth-3D-Daten).
Output: Vollständige 3D-Bewegung.
Das Ziel ist es, die 3D-Bewegung als eine konsistente Erklärung dieser 2D-Hinweise unter geometrischen und physikalischen Regularisierungen zu rekonstruieren, anstatt Koordinaten auswendig zu lernen.

C. Relaxierte Regularisierung (Relaxation Regularization)

Da keine exakten 3D-Ziele existieren, werden konsistenzbasierte Verlustfunktionen eingeführt, um die Geometrie zu stabilisieren:

View-Consistent Structural Loss: Sicherstellt, dass die generierten 3D-Vektoren, zurückprojiziert in 2D, mit den beobachteten 2D-Hinweisen übereinstimmen.
Cross-View Plausibility: Ein vortrainierter 2D-Diskriminator (z. B. ein VQ-VAE) prüft, ob die 3D-Bewegung unter beliebigen virtuellen Rotationen „natürliche" 2D-Projektionen erzeugt. Dies erzwingt eine physikalisch plausible 3D-Struktur ohne echte Multi-View-Daten.
Orientation Regularization: Erzwingt physikalische Plausibilität, indem sichergestellt wird, dass die Körperorientierung konsistent mit der Fußrichtung ist (z. B. keine unnatürlichen Drehungen).
Feature Consistency: Stellt sicher, dass die latente Repräsentation der rekonstruierten Bewegung mit der der ursprünglichen Beobachtung übereinstimmt.

3. Wichtige Beiträge

Identifikation einer Limitierung: Die Arbeit zeigt auf, dass präzise 3D-Koordinatensupervision die Generalisierung und Vielfalt behindern kann, indem sie das Modell zu einem „Point-Matching"-Verhalten zwingt.
LaxMotion Framework: Ein neuartiges System, das 3D-Bewegungen aus 2D-kinematischen Hinweisen und strukturellen Constraints lernt, ohne auf dichte 3D-Pose-Labels angewiesen zu sein.
Strukturelle Zerlegung & Regularisierung: Die Einführung einer Zerlegung in Trajektorie und relative Vektoren sowie einer suite von Regularisierungsfunktionen, die Multi-View-Stabilität und zeitliche Kohärenz erzwingen.
Skalierbarkeit: Da das Training nur 2D-Hinweise benötigt, kann das System theoretisch mit massiven Mengen an „In-the-Wild"-Videos trainiert werden, für die keine 3D-Mocap-Daten existieren.

4. Ergebnisse

Die Evaluation erfolgte auf den Benchmarks HumanML3D und KIT-ML.

Leistung: LaxMotion erreicht Ergebnisse, die mit vollständig 3D-supervisierten State-of-the-Art-Methoden (wie MDM, MoMask, T2M-GPT) vergleichbar sind oder diese in bestimmten Metriken übertreffen.
Qualität vs. Vielfalt: Während 3D-supervisierte Methoden oft eine niedrige FID (hohe Realismus) aber eine geringe MultiModality (geringe Vielfalt) aufweisen, erreicht LaxMotion eine hervorragende Balance. Es erzielt den höchsten QM-Score (Quality-Multimodality Score), was zeigt, dass es sowohl realistische als auch diverse Bewegungen generiert.
Generalisierung: Qualitative Ergebnisse zeigen, dass LaxMotion besser auf neue Textbeschreibungen generalisiert und Bewegungen in Szenarien erzeugt, die physikalisch schwer zu erfassen sind (z. B. Mikrogravitation oder Unterwasserbewegungen), da es keine starren 3D-Koordinaten aus dem Trainingsset kopiert.
Ablationsstudien: Die Studien bestätigen, dass die Relaxierung der Supervision (Verzicht auf exakte 3D-Labels) die Generalisierung verbessert. Besonders die Cross-View-Plausibility-Regularisierung und die Verwendung von VQ-VAE für die 2D-Prior-Verteilung sind entscheidend für den Erfolg.

5. Bedeutung und Fazit

LaxMotion demonstriert, dass der Wechsel von einer exakten Koordinaten-Matching-Supervision hin zu einer strukturellen Konsistenz ein leistungsfähigerer Ansatz für die generative 3D-Bewegung ist.

Paradigmenwechsel: Es beweist, dass 3D-Genauigkeit nicht zwingend durch 3D-Labels erreicht werden muss, sondern durch das Verstehen der zugrundeliegenden Kinematik und Geometrie.
Daten-Effizienz: Der Ansatz ermöglicht das Training mit skalierbaren, kostengünstigen 2D-Videodaten, was die Hürde für die Generierung von 3D-Bewegungen senkt und die Anwendung auf reale, ungesichtete Szenarien („In-the-Wild") eröffnet.
Zukunft: Die Arbeit legt nahe, dass zukünftige Modelle weniger auf das Auswendiglernen von Datenpunkten und mehr auf das logische Schlussfolgern von Strukturen angewiesen sein sollten, um robuste und vielfältige Generierungssysteme zu schaffen.

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

1. Problemstellung

2. Methodik: LaxMotion

A. Strukturierte Bewegungszerlegung (Representation Reformulation)

B. Reformuliertes Trainingsparadigma (Relaxed Observability)

C. Relaxierte Regularisierung (Relaxation Regularization)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes