LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

Each language version is independently generated for its own context, not a direct translation.

LaxMotion: Waarom "slapen" soms beter werkt dan "strakke instructies"

Stel je voor dat je iemand wilt leren dansen.

De oude manier (De strenge dansmeester)
Tot nu toe hebben onderzoekers 3D-bewegingen (zoals dansen of lopen) geproduceerd door modellen te trainen met extreem precieze instructies. Het was alsof je een danser vertelt: "Je linkerhand moet op exact 1,42 meter hoogte zijn, je rechtervoet op 0,85 meter, en je knie moet 45 graden gebogen zijn."

Dit werkt goed om de beweging nauwkeurig na te bootsen, maar het heeft een groot nadeel: de danser wordt een robot. Als je vraagt om "een vrolijke dans", doet de robot precies wat hij heeft geleerd, maar hij kan niet improviseren. Hij kan niet goed omgaan met nieuwe situaties of verschillende stijlen, omdat hij zich alleen heeft ingegraven in de exacte cijfers van de training. Hij leert de coördinaten, niet de essentie van de dans.

De nieuwe manier: LaxMotion (De inspirerende choreograaf)
De auteurs van dit paper, LaxMotion, zeggen: "Laten we stoppen met die strakke coördinaten." In plaats daarvan geven ze het model een veel losser, maar slimme opdracht.

Stel je voor dat je nu een choreograaf bent die de danser alleen schaduwen en globale lijnen laat zien:

De schaduw (2D-beeld): Je laat de danser alleen zien hoe de beweging eruitziet als een schaduw op de muur (een 2D-video). Je zegt niet waar de hand precies is in de ruimte, maar alleen hoe de arm beweegt in het beeld.
Het pad (Globale route): Je geeft aan waar de danser over het podium moet lopen, maar niet precies hoe hij zijn benen zet.

De taak van de danser (het AI-model) is nu: "Bepaal zelf hoe je lichaam moet bewegen om deze schaduw en dit pad te creëren."

Waarom is dit slim? (De analogie van de puzzel)
Bij de oude methode kreeg de danser de oplossing van de puzzel al in handen en moest hij die alleen maar kopiëren. Dat is saai en beperkt.
Bij LaxMotion krijgt de danser alleen de randen van de puzzel (de 2D-schaduw en het pad). Hij moet zelf de rest invullen. Omdat er oneindig veel manieren zijn om een schaduw te maken, moet de danser creëren in plaats van herhalen.

Dit dwingt het model om de echte structuur van de beweging te begrijpen:

"Als mijn arm omhoog gaat, moet mijn schouder ook bewegen."
"Als ik loop, moet ik niet door de vloer zakken."
"Als ik draai, moet mijn gezicht ergens naartoe kijken."

De "Lax" (Losse) Regularisatie
Om ervoor te zorgen dat de danser niet gaat flippen of onmogelijke bewegingen maakt (zoals een arm die door het hoofd gaat), gebruiken de auteurs slimme "veiligheidsnetten" (die ze Relaxation Regularization noemen):

De spiegel-test: Als je de danser van een andere kant bekijkt (een virtuele camera), moet de beweging er nog steeds logisch uitzien.
De zwaartekracht: Je voeten moeten op de grond blijven, tenzij je springt.
De richting: Als je naar links kijkt, moet je lichaam ook naar links gericht zijn.

Het resultaat
Het verrassende is: door de instructies minder precies te maken, wordt het eindresultaat beter.

Meer diversiteit: De AI kan nu 10 verschillende manieren bedenken om "een vrolijke dans" te doen, in plaats van altijd precies hetzelfde.
Beter begrip: De AI begrijpt wat "lopen" echt betekent, en kan dat toepassen op situaties die hij nooit eerder heeft gezien (zoals lopen in de ruimte of onder water).
Geen dure data nodig: Je hebt geen dure 3D-scanners meer nodig om de bewegingen op te nemen. Gewone video's (zoals van je telefoon) zijn genoeg, omdat het model zelf de 3D-dimensie moet "gokken" op basis van de 2D-schaduw.

Kortom:
LaxMotion leert ons dat als je een kunstenaar (of een AI) te veel vertelt hoe hij iets moet doen (exacte coördinaten), hij stopt met nadenken. Als je hem alleen vertelt wat het doel is (de schaduw en het pad) en hem de vrijheid geeft om het zelf in te vullen, wordt het resultaat creatiever, natuurlijker en veel beter in staat om zich aan te passen aan de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande modellen voor het genereren van 3D-bewegingen op basis van tekst (text-to-motion) presteren vaak uitstekend op reconstructie-metrics, maar worstelen met generalisatie buiten de trainingsverdeling. De auteurs identificeren dat dit voornamelijk komt door de huidige supervisie-methode: precieze 3D-coördinaten.

Overbepaling (Over-determination): Het trainen op exacte 3D-joint-coördinaten dwingt het model om specifieke, dataset-gebonden patronen te memoriseren in plaats van de onderliggende semantische structuur van beweging te leren.
Eén-op-veel mismatch: Een tekstprompt kan meerdere geldige bewegingen opleveren (verschillende stijlen, uitvoeringen, perspectieven). Door een model te dwingen om één specifieke set coördinaten te voorspellen, wordt dit "één-op-veel" probleem omgezet in een punt-matching taak. Dit onderdrukt diversiteit en verzwakt de generalisatie.
Beperkte data: Hoogwaardige 3D-motion capture data is duur, schaars en vaak beperkt in dekking.

Methodologie: LaxMotion

LaxMotion introduceert een nieuw paradigma dat de supervisiegranulariteit verslapt. In plaats van directe 3D-pose-supervisie, leert het model 3D-beweging als een consistentie verklaring van globale trajecten en monokulaire 2D-kinematische aanwijzingen.

De aanpak bestaat uit drie kerncomponenten:

1. Representatieherformulering (Van Punten naar Structuur)
In plaats van beweging te behandelen als een verzameling absolute 3D-punten, wordt de beweging gefactoriseerd in:

Een globale traject ( $\tau$ ): De beweging van het zwaartepunt.
Relatieve ledematen vectoren ( $v^{3D}$ ): De relatieve posities van gewrichten ten opzichte van hun ouders in het skelet.
Dit creëert een representatie die wiskundig consistent blijft onder projectie naar 2D. Tijdens het trainen wordt de 3D-relatieve pose vervangen door de 2D-projectie ( $v^{2D}$ ) van deze vectoren, terwijl het globale traject behouden blijft. Het model moet dus de volledige 3D-beweging reconstrueren op basis van deze gedeeltelijke 2D-observaties.

2. Herformulering van het Trainingsparadigma (Gereduceerde Observabiliteit)
Het model ( $\mathcal{G}_\theta$ ) ontvangt tijdens het trainen alleen de gedeeltelijke observatie $m^{obs} = \{\tau, v^{2D}\}$ , maar moet de volledige 3D-beweging $\hat{m}^{3D}$ voorspellen.

Doel: Het model wordt gedwongen om coherente 3D-structuren en semantiek af te leiden uit beperkte informatie, in plaats van te overfitten op exacte 3D-coördinaten.
Inferentie: Tijdens inferentie zijn de 2D-cues niet nodig; het model genereert direct 3D-beweging op basis van tekst.

3. Relaxatie Regularisatie (Beyond Point-Matching)
Omdat er geen grondware 3D-coördinaten zijn om op te matchen, worden de volgende consistentie-gedreven constraints gebruikt om de oplossing te stabiliseren:

View-Consistent Structural Regularization: De gegenereerde 3D-vectoren worden geprojecteerd terug naar 2D en vergeleken met de oorspronkelijke 2D-observaties. Dit zorgt ervoor dat de 3D-beweging een wiskundig geldige verklaring is van de 2D-data.
Cross-View Plausibility Regularization: Het model wordt getraind om te garanderen dat de gegenereerde 3D-beweging, wanneer willekeurig geroteerd en geprojecteerd, nog steeds een "natuurlijke" 2D-beweging oplevert (geëvalueerd door een vooraf getrainde 2D-discriminator). Dit lost de diepte-ambiguïteit op zonder multi-view data nodig te hebben.
Orientation Regularization: Een geometrische prior die zorgt voor fysiek plausibele oriëntaties (bijv. dat de voetrichting consistent is met de lichaamsoriëntatie).
Feature Consistency Regularization: Zorgt ervoor dat de latenterepresentatie van de gereconstrueerde beweging consistent blijft met de oorspronkelijke observatie.

Belangrijkste Bijdragen

Identificatie van een fundamentele beperking: De auteurs tonen aan dat coördinaat-niveau supervisie in generatieve bewegingsmodellen leidt tot dataset-specifiek overfitting en beperkte diversiteit, ondanks hoge reconstructiescores.
LaxMotion Framework: Een nieuw framework dat supervisie verslapt door te leren van 2D-kinematische cues en structurele constraints in plaats van dichte 3D-labels.
Gestructureerde Factorisatie en Regularisatie: De introductie van een bewegingsfactorisatie (traject + relatieve vectoren) en een set van regularisatielosses die multi-view geometrische stabiliteit en temporele coherentie afdwingen zonder 3D-pose-annotaties.
Scalabiliteit: Het bewijs dat deze aanpak schaalbaar is naar "in-the-wild" video-data, waar 3D-annotaties vaak ontbreken.

Resultaten

De prestaties van LaxMotion zijn geëvalueerd op de HumanML3D en KIT-ML datasets en vergeleken met state-of-the-art (SOTA) modellen die volledig op 3D-supervisie vertrouwen (zoals MDM, MoMask, T2M-GPT).

Kwaliteit en Diversiteit: LaxMotion bereikt een FID (Fréchet Inception Distance) die vergelijkbaar is met of beter is dan volledig 3D-supervisie methoden, terwijl het aanzienlijk hogere diversiteit en MultiModality toont.
QM Score: Het model behaalt de hoogste Quality-Multimodality (QM) Score, wat aangeeft dat het de beste balans vindt tussen realisme en diversiteit.
Generalisatie: LaxMotion toont betere generalisatie op ongeziene acties en subjecten.
In-the-Wild Toepassingen: Omdat het geen 3D-labels nodig heeft, kan het model succesvol worden getraind op video's uit de echte wereld (bijv. micro-zwaartekracht of onderwaterbewegingen) die fysiek moeilijk of onmogelijk zijn om met 3D-sensoren vast te leggen.
Ablatie Studies: De studies bevestigen dat de combinatie van 2D-projectie, cross-view plausibility en richtingsregularisatie essentieel is voor het slagen van de methode. Het gebruik van VQ-VAE voor het leren van de 2D-prior bleek cruciaal voor stabiele representaties.

Betekenis

LaxMotion markeert een paradigmaverschuiving in 3D-bewegingsgeneratie. Het paper stelt dat structurele consistentie een schaalbaarder en generaliseerbaarder principe is dan het memoriseren van exacte coördinaten.

Data-efficiëntie: Het opent de deur voor het trainen van modellen op enorme hoeveelheden 2D-video-data, wat de beperkingen van dure 3D-motion capture datasets omzeilt.
Robuustheid: Door te focussen op de onderliggende kinematische relaties in plaats van absolute posities, worden modellen robuuster tegen variaties in perspectief, schaal en uitvoering.
Toekomstperspectief: Deze aanpak biedt een nieuwe route voor het genereren van diverse, semantisch nauwkeurige 3D-bewegingen voor toepassingen zoals animatie, VR/AR en robotica, zonder afhankelijk te zijn van gespecialiseerde 3D-annotaties.

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

Probleemstelling

Methodologie: LaxMotion

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes