KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem sehr klugen, aber manchmal etwas träumenden Roboter beibringen, wie Menschen sich bewegen. Bisher waren diese Roboter gut darin zu sagen: „Da läuft eine Frau." Aber wenn du sie fragst: „Wie genau bewegt sich ihr linker Arm? Dreht sie das Handgelenk oder hebt sie den ganzen Arm?", dann fing der Roboter oft an zu halluzinieren. Er erfindete Dinge, die gar nicht passiert sind, oder verwechselte die Reihenfolge der Bewegungen.

Das Paper KPM-Bench von Kuaishou Technology ist wie ein genialer neuer Lehrplan und ein Test, um diese Roboter endlich zu echten Bewegungs-Experten zu machen. Hier ist die Erklärung, einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der träumende Beschreiber

Bisherige KI-Modelle für Videobeschreibungen sind wie ein Tourist, der einen Tanz sieht und sagt: „Wow, das war ein toller Tanz!" Er sieht die grobe Bewegung, aber er weiß nicht, ob der Tänzer das linke Knie gebeugt hat oder ob der Arm nach links oder rechts geschwungen wurde. Wenn man ihn zwingt, Details zu nennen, erfindet er oft Dinge dazu (Halluzinationen), weil er die Physik der Bewegung nicht wirklich versteht.

2. Die Lösung: Der „Bewegungs-Anatom" (KPM-Pipeline)

Die Autoren haben eine neue Methode entwickelt, die wie ein chirurgischer Eingriff in die Videobewegung funktioniert. Statt nur auf das Bild zu schauen, tun sie folgendes:

Schritt 1: Das Skelett-Scannen (Pose Estimation): Zuerst schauen sie sich das Video nicht als Bild an, sondern als 3D-Skelett. Sie wissen genau, wo jeder Gelenkpunkt (Ellenbogen, Knie, Schulter) ist.
Schritt 2: Die Physik-Formel (Kinematic Calculation): Hier wird es spannend. Sie berechnen nicht nur, dass sich jemand bewegt, sondern wie physikalisch.
- Wie schnell ist der Ellenbogen? (Geschwindigkeit)
- Wie stark dreht sich das Knie? (Winkelgeschwindigkeit)
- Ist die Bewegung rhythmisch wie ein Herzschlag oder chaotisch? (Frequenz-Analyse)
- Analogie: Stell dir vor, sie kleben kleine Sensoren an die Gelenke des Tänzers und messen jede winzige Bewegung mathematisch genau.
Schritt 3: Die Übersetzung (Linguistic Parsing): Diese trockenen Zahlen (z. B. „Ellenbogen-Winkel ändert sich um 15 Grad pro Sekunde") werden dann in eine spezielle Sprache übersetzt. Sie nennen das PaMoR. Das ist wie ein Baukasten-Satz, der sicherstellt, dass jedes Detail (Wer? Was? Wohin? Wie stark?) logisch und strukturiert beschrieben wird.

3. Der neue Test: KPM-Bench

Mit dieser Methode haben sie einen riesigen neuen Datensatz gebaut, den KPM-Bench.

Der Inhalt: Statt nur „Sie tanzt" steht dort: „Sie hebt langsam den linken Arm, beugt das Knie rhythmisch und verlagert das Gewicht auf den rechten Fuß."
Der Test: Sie haben auch Fragen gebaut, die nur jemand beantworten kann, der die genaue Bewegung versteht, z. B.: „Welchen Arm hat die Person zuerst bewegt?" oder „Hat sie das linke oder rechte Bein gebeugt?"

4. Der Trick gegen das Lügen: MoPE & GRPO

Das größte Problem bei KIs ist, dass sie lügen (halluzinieren), wenn sie Details erfinden. Um das zu stoppen, haben die Autoren einen neuen Algorithmus namens MoPE (Motion Parsing and Extraction) erfunden.

Wie MoPE funktioniert: Stell dir MoPE wie einen strengen Korrektor vor, der jede Beschreibung liest und prüft: „Hast du wirklich gesagt, dass sie den Arm hebt? Steht das auch im Video?" Er zerlegt den Text in seine Bausteine und vergleicht sie mit der Realität.
Die Belohnung (GRPO): Wenn die KI eine Beschreibung schreibt, die MoPE als „wahr" und „genau" bewertet, bekommt sie eine Belohnung. Wenn sie lügt, bekommt sie keine. Durch dieses Training lernt die KI, dass Ehrlichkeit und Präzision wichtiger sind als kreative Ausschmückungen.

Zusammenfassung in einer Metapher

Stell dir vor, du möchtest einem Schüler beibringen, ein Auto zu reparieren.

Die alte KI schaut auf das Auto und sagt: „Das Auto ist kaputt, weil es laut ist." (Zu allgemein, oft falsch).
Die neue KI (KPM) bekommt erst ein Röntgenbild des Motors, misst die Vibrationen jedes Zahnrads und berechnet die Drehzahl. Dann schreibt sie: „Das Zahnrad Nr. 3 dreht sich zu schnell und reibt am Gehäuse."
MoPE ist der Lehrer, der neben dem Schüler steht und sagt: „Stopp! Hast du das Zahnrad wirklich gemessen? Wenn nicht, darfst du es nicht aufschreiben."

Das Ergebnis: Die neue KI kann Videos nicht nur beschreiben, sondern versteht die Physik der Bewegung. Sie macht viel weniger Fehler, lügt weniger und kann komplexe Aktionen (wie Tanzen, Sport oder Tanzen) bis ins kleinste Detail erklären. Das ist ein riesiger Schritt für Roboter, die Menschen verstehen sollen – sei es für Sportanalyse, medizinische Rehabilitation oder einfach für bessere Videobeschreibungen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz erheblicher Fortschritte bei Vision-Language-Modellen (VLMs) bestehen weiterhin gravierende Einschränkungen bei der Video-Beschreibung (Video Captioning), insbesondere im Hinblick auf feingranulare Bewegungsdetails.

Mangel an Feingranularität: Aktuelle Modelle neigen dazu, komplexe menschliche Bewegungen in grobe Zusammenfassungen zu fassen, anstatt sie als strukturierte, auf Körperteile bezogene Analysen darzustellen.
Halluzinationen: Es kommt häufig zu „Bewegungshalluzinationen", bei denen nicht existierende oder ungenaue Bewegungsdetails (z. B. falsche zeitliche Abfolgen, Richtungen oder Gliedmaßenbewegungen) generiert werden.
Datenmangel: Bestehende Datensätze bieten entweder keine ausreichenden feingranularen Annotationen oder sind vollständig auf teure manuelle Annotationen angewiesen, was die Skalierbarkeit einschränkt.

2. Methodik

Die Autoren schlagen einen umfassenden Ansatz vor, der aus einer automatisierten Annotationspipeline, einem neuen Benchmark-Datensatz und einem speziellen Nachtrainingsverfahren besteht.

A. KPM-Pipeline (Automatisierte Annotation)

Anstatt sich nur auf manuelle Annotation oder direkte Generierung durch LLMs zu verlassen, integriert die Pipeline kinematische Berechnungen mit linguistischer Zerlegung:

Pose Estimation: Videos werden mit RTMPose3D verarbeitet, um 3D-Ganzkörper-Posen (133 Skelettpunkte nach COCO-Wholebody) zu extrahieren.
Kinematische Berechnung: Basierend auf der Schraubentheorie (Screw Theory) und dem Chasles-Theorem werden Bewegungen in zwei orthogonale Komponenten zerlegt:
- Positions-Translation: Berechnung der linearen Geschwindigkeit des Schwerpunkts.
- Haltungstransformation: Berechnung der Winkelgeschwindigkeit von Gelenken.
- Frequenzbereichsanalyse: Einsatz der Fast Fourier Transform (FFT) zur Messung rhythmischer Variationen und Unterscheidung zwischen kräftigen und subtilen Bewegungen.
Linguistische Zerlegung (PaMoR): Ein strukturiertes Schema namens Parsing-based Motion Event Representation (PaMoR) wird eingeführt. Es klassifiziert Bewegungen hierarchisch (individuell, Gliedmaßen, distal) und nutzt acht Kernattribute (z. B. Bewegungsprädikat, Agens, Patient, Richtung, Intensität).
Generierung: Die kinematischen Daten und Videoframes werden in Prompts für GPT-4.1 eingespeist, um zunächst PaMoR-Tupel und daraus dichte, feingranulare Beschreibungen zu generieren.

B. KPM-Bench (Der Benchmark-Datensatz)

Der neu erstellte Open-Source-Datensatz besteht aus drei Teilen:

KPM-Cap: Über 75.000 Video-Caption-Paare mit dichten, feingranularen Bewegungsbeschreibungen.
KPM-QA: 38.000 komplexe Frage-Antwort-Paare, die das Bewegungsverständnis testen (z. B. zeitliche Abfolgen, Interaktionen).
KPM-HA: Ein speziell kuratiertes Evaluierungsset zur Messung von Halluzinationen in Bewegungsbeschreibungen.

C. MoPE & GRPO (Reduktion von Halluzinationen)

Um das Halluzinationsproblem systematisch anzugehen, wird der MoPE-Algorithmus (Motion Parsing and Extraction) entwickelt:

MoPE: Ein linguistisch fundierter Algorithmus, der Abstract Meaning Representation (AMR) und Dependency Parsing (DP) kombiniert, um Bewegungsattribute und deren zeitliche Reihenfolge direkt aus Textcaptions zu extrahieren.
GRPO-Training: MoPE wird in das Group Relative Policy Optimization (GRPO) Framework integriert. Es wird eine spezielle Belohnungsfunktion (Reward Function) definiert, die auf drei Komponenten basiert:
1. Genauigkeit der Aktionen ( $R_{action}$ ).
2. Korrektheit der zeitlichen Reihenfolge ( $R_{order}$ ).
3. Ausrichtung der Bewegungsrichtungen ( $R_{direction}$ ).
  Dieses Verfahren trainiert das Modell, Halluzinationen zu minimieren, ohne die sprachliche Qualität zu beeinträchtigen.

D. Neue Evaluierungsmetrik

Es wird eine neue Metrik namens Mo-Hall eingeführt, die Halluzinationen präzise misst, indem sie MoPE nutzt, um generierte Beschreibungen mit Referenzdaten abzugleichen. Dies funktioniert unabhängig von externen LLMs oder VLMs als Richter.

3. Wichtige Beiträge

KPM-Bench: Der erste große, offene Benchmark, der speziell für das Verständnis feingranularer menschlicher Bewegungen konzipiert ist und über 75k Videos mit detaillierten kinematischen Annotationen umfasst.
Automatisierte Annotationspipeline: Eine skalierbare Methode, die kinematische Physik (Geschwindigkeit, Winkel, FFT) mit linguistischer Strukturierung verbindet, um hochwertige Trainingsdaten ohne manuellen Aufwand zu erzeugen.
MoPE-Algorithmus: Ein neuartiger Ansatz zur Extraktion von Bewegungsattributen aus Text, der als Grundlage für eine präzise Halluzinationsmessung dient.
Effektive Nachtrainingsstrategie: Die Integration von MoPE in GRPO reduziert Bewegungs-Halluzinationen signifikant und verbessert die Zuverlässigkeit von Video-Captioning-Modellen.

4. Ergebnisse

Die Experimente wurden auf dem KPM-Bench sowie auf anderen etablierten Benchmarks (MVBench, MotionBench, FAVOR) durchgeführt:

Leistungssteigerung: Das mit KPM feinabgestimmte Modell (Qwen2.5-VL) übertrifft sowohl geschlossene APIs (wie GPT-4.1, Gemini-2.5Pro) als auch führende Open-Source-Modelle (z. B. Tarsier2-Recap, InternVideo-2.5) in Bezug auf Inhaltsqualität und Aufgaben-Genauigkeit.
Halluzinationsreduktion: Durch den Einsatz von MoPE sinkt die Halluzinationsrate (gemessen durch Mo-Hall und GPT-Hall) erheblich, während die generelle Sprachqualität (BLEU, ROUGE, Bert-Score) hoch bleibt.
Generalisierung: Das Modell zeigt starke Generalisierungsfähigkeiten auf anderen Benchmarks und ist besonders gut in der dynamischen Szenenanalyse und Emotionserkennung.
Ablationsstudien: Es wurde gezeigt, dass die 3D-Pose-Schätzung und die kinematischen Berechnungen entscheidend für die hohe Qualität der Beschreibungen sind.

5. Bedeutung

Dieses Paper adressiert eine kritische Lücke im Bereich des Video-Verständnisses: Die Fähigkeit, komplexe menschliche Bewegungen präzise, detailliert und ohne Halluzinationen zu beschreiben.

Für die Forschung: KPM-Bench bietet einen neuen Standard zur Evaluierung von VLMs in Bezug auf Bewegungsverständnis.
Für die Anwendung: Die Methode ermöglicht zuverlässigere Anwendungen in Bereichen wie Sportanalytik, physikalischer Rehabilitation, Mensch-Roboter-Interaktion und Video-Generierung, wo das Verständnis der genauen Dynamik von Bewegungen essenziell ist.
Methodischer Fortschritt: Die Kombination aus physikalischer Kinematik und linguistischer Parsing-Struktur stellt einen innovativen Weg dar, um die „Black Box" der Bewegungsbeschreibung zu öffnen und Halluzinationen gezielt zu bekämpfen.